线性回归
通过历史数据拟合出一条直线,因变量与自变量是线性关系,用这条直线对新的数据进行预测。
逻辑回归
逻辑回归是一种广义的线性回归,用于预测分析,如「一封email是垃圾邮件的概率是多少」。LR的应用场景很多,如点击率预测(CTR)、天气预测、一些电商的购物搭配推荐、一些电商的搜索排序基线等。
具体应用流程:
- 采取样本数据集
- 训练逻辑回归模型
- 对新数据进行判断
IRIS
Iris也称鸢尾花卉数据集,是常用的分类实验数据集,由R.A. Fisher于1936年收集整理的。其中包含3种植物种类,分别是山鸢尾(setosa)变色鸢尾(versicolor)和维吉尼亚鸢尾(virginica),每类50个样本,共150个样本。
该数据集包含4个特征变量,1个类别变量。iris每个样本都包含了4个特征:花萼长度,花萼宽度,花瓣长度,花瓣宽度,以及1个类别变量(label)。我们需要建立一个分类器,分类器可以通过这4个特征来预测鸢尾花卉种类是属于山鸢尾,变色鸢尾还是维吉尼亚鸢尾。其中有一个类别是线性可分的,其余两个类别线性不可分,这在最后的分类结果绘制图中可观察到。
变量名 | 变量解释 | 数据类型 |
---|---|---|
sepal_length | 花萼长度(单位cm | numeric |
sepal_width | 花萼宽度(单位cm) | numeric |
petal_length | 花瓣长度(单位cm) | numeric |
petal_width | 花瓣宽度(单位cm) | numeric |
species | 种类 | categorical |