Part 4-2 分析计算参数 - 《Machine Learning学习笔记》

正规方程
梯度下降提供了一种最小化 J 的方法。让我们讨论第二种方法，这一次明确地执行最小化而不使用迭代算法。在“正规方程”方法中，我们将通过显式取其关于 Part 4-2 分析计算参数 - 图1 的导数并将它们设置为零来最小化 J。这使我们无需迭代即可找到最佳 theta。正规方程公式如下：
Part 4-2 分析计算参数 - 图2
Part 4-2 分析计算参数 - 图3
使用正规方程不需要进行特征缩放。
下面是梯度下降和正规方程的对比：
https://www.yuque.com/books/share/691358c9-4a47-442f-b1c1-193bcf9cba04/btut3k?inner=4FUfs

使用正规方程，计算反演的复杂度为 O(n3)。所以如果我们有非常多的特征，正规方程会很慢。实际上，当 n 超过 10,000 时，可能是从正常解决方案转向迭代过程的好时机。

正规方程不可逆性
实现正规方程时，我们希望使用“pinv”函数而不是“inv”。 ‘pinv’ 函数会给你一个 θ 值，即使它是不可逆的。
如果是不可逆的，常见的原因可能是：
冗余特征，其中两个特征非常密切相关（即它们线性相关）
特征太多（例如 m ≤ n）。在这种情况下，删除一些特征或使用“正则化”（将在后面的课程中解释）。
上述问题的解决方案包括删除与另一个线性相关的特征或当特征过多时删除一个或多个特征。

捕获.PNG