特征scale相差大时的代价函数图,以二维特征变量为例,这时J的等高线是一个又瘦又高的椭圆。此时使用梯度下降,它会来回波动,需要很长一段时间才能收敛。
    所以
    我们需要对数据集,对特征值进行Feature Scaling 特征缩放
    X的尺度归一化 -1 , 1
    converge 聚焦
    Feature sacling与Mean normalization
    mean normalization是特征缩放的一个小类型
    学习率太大,不收敛甚至发散
    学习率太小,迭代次数太多
    polynomial regression 多项式回归
    Normal Equation正规方程
    quadratic 二次的

    • 正规方程(区别于迭代方法的直接解法)

    梯度下降法:缺点是需要选择学习速率和多次迭代。适合n很大时(n>10000)使用.需要进行特征缩放
    正规方程法:不需要选择学习速率和多次迭代。不适合n很大(<10000)的时候。不需要进行特征缩放。
    多变量的线性回归 - 图1
    X是训练集,y是正确值。thelta是求出来的,令J(thelta)最小的参数值。
    这样即可求出最佳的回归参数
    正规方程在矩阵不可逆情况下的解决方法
    造成X’X不可逆的可能原因:
    1.有线性相关的冗余特征(如果可以找出来)
    2.特征维度大于数据量(删除某些特质,或者使用regularization)