线性模型 - 《机器学习笔记》

1. 线性回归模型
2. 对数似然估计
3. LDA 线性判别分析

线性模型 - 图1

1. 线性回归模型

给定数据集线性模型 - 图2 , 其中线性模型 - 图3 。线性回归是试图使用一个线性模型来尽可能的预测实际数值的输出标记。

假设，使用函数: 线性模型 - 图4 ,b 是一个 scalar 。

使用均方误差作为回归模型的性能度量，则可以转化为一个无约束的优化问题：

                 ![](https://cdn.nlark.com/yuque/__latex/bf664007c87d1eaeb38a4a82232b4b54.svg#card=math&code=%5Cmin_%7Bw%2Cb%7D%20L%28w%2Cb%29%20%3D%20%5Cfrac%7B1%7D%7B2n%7D%5Csum_i%5En%28y_i%20-%20%5Chat%7By%7D_i%29%5E2&height=49&width=226)

解决这个优化问题，可以求导并令其偏导数为0，即可。下面是分别对 w , b 求导的结果

线性模型 - 图5

通常会把(1),(2) 式写成矩阵的形式，即:

线性模型 - 图6

其中线性模型 - 图7 , 线性模型 - 图8 , 线性模型 - 图9

令式（3）等于0，可以得到线性模型 - 图10 , 此时线性模型 - 图11 必须是非奇异矩阵。
但是实际情况下，可能存在A并不是满秩的，比如特征的维度大于样本数。因此，此时可能会接触多个w，能够使均方误差最小化。选择哪一个作为最优的w，由算法的归纳偏好来决定，比如引入正则化项。

2. 对数似然估计

使用线性回归做分类问题，以二分类问题为例。可以将其结果y映射到[0,1]区间，然后规定其值大于0.5作为正例，否则作为反例。
如何选择映射函数 f 呢，这里可以采用 sigmoid 函数：

线性模型 - 图12
其曲线为：

sigmoid 曲线
此时，将f看作是概率分布，可以采用最大似然概率作为性能度量（它等价于最小化交叉熵）
等价于优化问题：

线性模型 - 图14

分别对 w,b求偏导数可得：

线性模型 - 图15
分别对为w,b求偏导数
其中线性模型 - 图16 。可以发现与线性回归的偏导数有一样的格式。

3. LDA 线性判别分析

LDA（Linear Discriminant Analysis), 又称为 fisher 判别分析 。它的主要思想是，将给定的样本，投影到一条直线上，并且保证类内的投影点越接近越好，但是类间的投影点越分散越好。

类内投影点，越接近越好，可以采用方差（协方差举证）指标来衡量，即使其同类样本之间的协反差尽可能的小。
对于类间的投影点，越分散越好。这里可以采用不同类别之间的均值相差尽可能的大。

总结起来的公式为:

线性模型 - 图17

LDA的度量函数

w 代表被投影的直线。

令线性模型 - 图18 , 线性模型 - 图19
则线性模型 - 图20 。
由于w代表被投影的直线，只与其方向有关，不妨设置线性模型 - 图21 , 则转化为以下有约束的优化问题

线性模型 - 图22

可以使用拉格朗日乘法公式，可得:

线性模型 - 图23

易知，线性模型 - 图24 为矩阵线性模型 - 图25 的特征值和特征向量。

求解线性模型 - 图26 时，要考虑其稳定性，通常采用其SVD分解。即线性模型 - 图27 。