线性回归

通过历史数据拟合出一条直线,因变量与自变量是线性关系,用这条直线对新的数据进行预测。

逻辑回归

逻辑回归是一种广义的线性回归,用于预测分析,如「一封email是垃圾邮件的概率是多少」。LR的应用场景很多,如点击率预测(CTR)、天气预测、一些电商的购物搭配推荐、一些电商的搜索排序基线等。

具体应用流程:

  1. 采取样本数据集
  2. 训练逻辑回归模型
  3. 对新数据进行判断

IRIS

Iris也称鸢尾花卉数据集,是常用的分类实验数据集,由R.A. Fisher于1936年收集整理的。其中包含3种植物种类,分别是山鸢尾(setosa)变色鸢尾(versicolor)和维吉尼亚鸢尾(virginica),每类50个样本,共150个样本。

该数据集包含4个特征变量,1个类别变量。iris每个样本都包含了4个特征:花萼长度,花萼宽度,花瓣长度,花瓣宽度,以及1个类别变量(label)。我们需要建立一个分类器,分类器可以通过这4个特征来预测鸢尾花卉种类是属于山鸢尾,变色鸢尾还是维吉尼亚鸢尾。其中有一个类别是线性可分的,其余两个类别线性不可分,这在最后的分类结果绘制图中可观察到。

变量名 变量解释 数据类型
sepal_length 花萼长度(单位cm numeric
sepal_width 花萼宽度(单位cm) numeric
petal_length 花瓣长度(单位cm) numeric
petal_width 花瓣宽度(单位cm) numeric
species 种类 categorical