1.学习知识点概要:

一些掌握不是很熟练的可视化形式,例如热力图,了解到一些工程场景中逻辑回归的应用方向,可以用等高线图来划分散点分类的概率

2.学习内容:

  1. 使用逻辑回归进行鸢尾花数据集的经典分类任务,使用了seaborn对数据集情况进行了可视化描述,箱型图和小提琴图都能很好的体现不同特征上的数据差异,使用三维散点图能够在三个特征维度上查看不同类别在各个特征上的差异信息,使用模型的内置函数coef _intercept_ 可以查看模型的系数和偏置<br />可以用热力图来可视化,metric中的confusion_matrix 混淆矩阵<br />多分类问题可以将多个二分类的逻辑回归进行组合来实现多分类

3.问题与解答:

很好奇LR在集成学习中Stacking用作第二部分模型是怎么构建流水线的;
需要再学习一下,多动动手。

4.思考与总结:

逻辑回归模型比起简单的线性模型,做了一些改进使用了非线性的假设函数,比起线性感知机的线性假设,sigmoid函数显然具有更好的非线性拟合能力,逻辑斯蒂分布的概率密度显示是比较近似于正态分布的形式,虽然是有着更高的波峰和更长尾分布,简单的二项式逻辑斯蒂回归模型通过比较两个条件概率的大小,来将实例划分概率比较大的一类,所以逻辑回归虽然是名为回归模型但是主要是用来做分类的。
分类结果的对数比率是有输入的线性函数决定的,线性回归可以预测连续值但是对于离散值的分类不是很好处理,逻辑斯蒂回归使用将线性关系划分类别的方式作为决策边界,将线性函数值通过sigmoid函数转化成概率形式。
也就是说逻辑斯蒂模型的代价函数是使用对数几率函数将线性回归模型中间的实值映射成为【0-1】之间的概率值,一定程度上来说是代替阶跃函数用作线性分类任务,因为阶跃函数是线性不可微的,所以单调可微的对数几率函数是一个很好的替代,
另外一点之所以被叫做回归,是因为它是通过线性模型的预测值来拟合真实标签的对数几率,是通过回归拟合来实现分类任务,它有着很多的优点,可导性良好,可以得到近似概率预测
因为线性分类模型的对数几率是
逻辑回归模型: - 图1

所以显然有:
逻辑回归模型: - 图2
二分类的似然项可以简单写作
逻辑回归模型: - 图3通过标签值来联立两式
其对数似然函数形式是逻辑回归模型: - 图4
对以上的极大似然函数做最大化就是变成了以目标值y和线性拟合函数的交叉熵,当线性函数值为0或者是1时,我们能够获得常见的交叉熵形式,但是一般来说(0,1)之间的值会赋予预测值概率上的意义。
sklearn里面使用的log_loss可以用来计算二元交叉熵和多类交叉熵
逻辑斯蒂模型的代价函数的导数计算是十分简单的
参数更新是 w = w-r * w(1-w)计算起来还是很省事的。