机器学习 - 多元线性回归 - 《机器学习》

从一元到多元

用矩阵描述多个特征

回归函数可转为行向量与列向量相乘的形式

代价函数转为矩阵的形式表达

使用梯度下降时一元与多元求偏导时的异同其中xi表示第i个样本值，相当于对每一个样本项求偏导，很容易推出

作用：确保这些特征在一个相近的范围之内，这样梯度下降算法能够更快地收敛。想象一下使代价函数的等高线更接近圆

尽可能地使特征值局限在一个尽可能小的范围内，从而避免梯度下降步长过大拖慢效率

如图，特征值范围过大可能会使梯度下降路线变得曲折

进行特征缩放后，路线与凸函数形状变得正常许多，收敛会更快

特征缩放的目标是使每一个特征值的范围都大致与[-1，1]近似

以x减去均值除以标准差代替x，以达到缩放的目的

确保梯度下降算法运转正常。若运转正常，则每一次梯度下降将所得参数多元线性回归 - 图9 代入代价函数所得的值都应该降低直至为0。图中所示，迭代经过一定轮数后曲线趋于平缓，不再下降，已经趋于收敛。

根据代价函数值与迭代次数关联的函数图像，可以基本评估梯度下降的效率，确定是否收敛，以及是否遇到问题（若代价函数值不降反升，可能由学习率过大导致）。

相似地，也可以通过阈值的方法评估是否已经收敛。但阈值的确定比较困难，因此函数图像的方法更好。

多项式回归其实与多元回归有相似之处，将每项作为新的特征值即可。但是要注意特征缩放的问题。不同次数的项收敛和增长速度有很大区别。

可直接通过代价函数算出最小值，只需将所有偏导置零，随后解方程组即可。

根据线性代数的知识，可以直接通过下式求出最小值。

梯度下降法	正规方程法
需要学习率	不需要设定其他参数，直接求解
需要多次迭代,适用于各种模型	需要计算（XTX)-1，只能用于线性模型如果特征数量n大则运算代价大，n≤1000 大概O(n)=n^3
n>>10000	n<10000