多变量线性回归Linear Regression With Multiple Variables
- 2.2 Multivariate Linear Regression
- 2.3 分析法计算参数Computing Parameters Analytically
  - 正规方程 Normal Equation
  - 不可逆性 Normal Equation Noninvertibility

第二周从单变量线性回归，推广到多变量线性回归。
第一小节介绍了推广到多变量上的模型假设函数、代价方程和梯度下降，特征缩放可以加快梯度下降，均值归一化在除以范围大小前需要减去均值，学习速率对梯度下降的影响，以及多项式回归对更复杂问题的拟合。
第二小节，介绍了另一种对线性回归方程求最佳参数的方法——分析法，以及在不同情况如何选择使用梯度下降和分析法优化线性回归参数。

多变量线性回归Linear Regression With Multiple Variables

2.2 Multivariate Linear Regression

多特征Multiple Feature

单变量线性回归例子中，我们只是用了房屋面积一个特征，事实上，我们还可以考虑房间数量、楼层数量、使用年限等多个特征。

对应的假设函数，将由

变为

多变量线性回归中的梯度下降 Gradient Descend for Multiple Variable

随着特征增多、参数增多，同样代价方程、和梯度下降的步骤也更复杂。

我们可以将单变量和多变量的梯度下降过程进行对比。

特征缩放 Gradient Descent in Featrue Scaling

不同变量的定义域大小也许不一样，会拉慢梯度下降的速度。

缩放的范围并不需要太精确。

均值归一化也是一种选择，在缩放之前减去均值。

学习速率 Gradient Descent in Learning Rate

将迭代次数和代价指绘制学习曲线，确认梯度下降正在起作用。

学习速度的大小可以直观地影响在学习曲线。

如果学习速率太小，学习曲线会收敛的很慢；但如果太大，代价可能不会减少、不会收敛。

学习速率可以选择 0.001，0.01，0.1，1等。

特征和多项式回归 Features and Polynormial Regression

选择特征的方法

回到之前的单变量回归，有时候我们会发现一个特征和结果的关系并不单单是直线关联，特征的一次表示就有点不够用了，这时候一个特征，我们可以使用不同次的多项式来拟合。

2.3 分析法计算参数Computing Parameters Analytically

正规方程 Normal Equation

梯度下降需要一次次求偏导更新参数，然后观察性能再确定理想的theta值。
而正规方程提供了一种直接计算最佳theta参数的方法，理解为求偏导之后，令等式为0再解方程组。

然而一一求解方程组很复杂，线性代数中抽象出了更简单的方法。直接用下列等式计算。粉字表示正规方程不需要均值归一化。

以下是梯度下降和正规方程的对比，根据特征数量的多少来选择。

不可逆性 Normal Equation Noninvertibility

如果矩阵X’X结果是不可逆的
通常有两种最常见的原因
第一个原因是拥有重复的参数。
例如在预测住房价格时，如果x1是以英尺为尺寸规格计算的房子，x2是以平方米为尺寸规格计算的房子，1米等于3.28英尺 ( 四舍五入到两位小数 ) 。这样你的这两个特征值将始终满足约束 x1等于x2倍的3.28平方，这两个变量就重复了。
第二个原因是特征值数量比样本数量多，即m小于或等于n。

博客专栏

机器学习复习笔记·第二周