做好机器学习，数学要学到什么程度？ - 《240 - ML

学好机器学习，需要哪些数学知识？

做好机器学习，数学要学到什么程度？ - 人民邮电出版社的回答 - 知乎 https://www.zhihu.com/question/68472622/answer/1781641922
学好机器学习需要哪些数学知识？ - SIGAI的文章 - 知乎 https://zhuanlan.zhihu.com/p/36357540
“西瓜书”（《机器学习》，清华大学出版社）和“花书”（《深度学习》，人民邮电出版社）分别是目前国内机器学习、深度学习领域最受欢迎的教材。大家公认它们的质量是很高的，但一个尴尬的现状是：因为数学基础不扎实，很难入门并彻底掌握核心知识。

学好机器学习，需要哪些数学知识？

我们先看典型的机器学习算法所用到的数学知识点，如下表所示。
限于篇幅，这里没有列出强化学习、机器学习理论、自动化机器学习（AutoML）等内容所用的数学知识。
做好机器学习，数学要学到什么程度？ - 图1 做好机器学习，数学要学到什么程度？ - 图2
从这张表可以看出来，频繁用到的知识点就是向量和矩阵的运算，梯度下降法等优化算法，概率，信息论中的模型概念。
整体来说，就是下面这几门课的内容：

微积分
线性代数
概率论
最优化方法
信息论
随机过程
图论

下面这张图列出了这些知识的整体结构。其中线性代数与微积分是基础，其他的课程都是建立在它们之上的。最优化方法严重依赖于微积分的知识，信息论与随机过程是概率论的延伸。
做好机器学习，数学要学到什么程度？ - 图3
下面我们分别来介绍这几门课在机器学习中到底用到了哪些内容。

微积分

微积分可分为一元函数微积分、多元函数微积分两部分，它是整个高等数学的基石。
通常情况下，机器学习需要得到一个函数（模型，或者说假设），既然是函数，那自然就离不开微积分了。微积分为我们研究函数的性质，包括单调性、凹凸性、以及极值提供了理论依据。同时它也是学习概率论、信息论、最优化方法等后续课程的基础。
总体来说，机器学习中所用的微积分知识，工科微积分教材基本上已经讲了，除了下面这些内容：

1. 上/下确界
2. 李普希茨连续性
3. 雅克比矩阵
4. Hessian矩阵
5. 多元函数的凹凸性
6. 多元函数的极值
7. 多元函数的泰勒公式
8. 多重积分的换元法

如果你真的学好了本科微积分，上面这些内容并不难理解。
对于微分学习，重点是下面这张图中的内容。包括函数的求导法则（尤其是链式法则），以及泰勒公式。泰勒公式中的一阶导数项和二阶导数项决定了函数的极值，这对后续的梯度下降法，牛顿法，拟牛顿法等优化算法的推导至关重要！
做好机器学习，数学要学到什么程度？ - 图4
积分学的重点是理解下面这种图中的公式。包括定积分和多重积分的计算，以及积分的换元法。
做好机器学习，数学要学到什么程度？ - 图5

线性代数

线性代数对于机器学习是至关重要的。机器学习算法的输入、输出、中间结果通常为向量、矩阵、张量。
使用线性代数可以简化问题的表达，用一个矩阵乘法，比写成多重求和要简洁明了得多。线性代数是学习后续数学课程的基础。它可以与微积分结合，研究多元函数的性质。
线性代数在概率论中也被使用，比如随机向量，协方差矩阵。线性代数在图论中亦有应用-如图的邻接矩阵，拉普拉斯矩阵。在随机过程中同样有应用-如状态转移矩阵。
机器学习中所用的线性代数知识，有不少超出了一般线性代数乃至高等代数教材的范畴，对于很多读者来说说陌生的。这包括：

1. 向量的范数
2. 矩阵的范数，包括谱范数
3. Householder变换
4. QR算法
5. 广义特征值
6. 瑞利商
7. 矩阵的条件数
8. 矩阵分解，包括Cholesky分解，QR分解，奇异值分解（SVD）等

这些知识在机器学习教材和相关论文中频繁出现。

概率论

概率论对于机器学习来说也是至关重要的，它是一种重要的工具。
如果将机器学习算法的输入、输出看作随机变量/向量，则可以用概率论的观点对问题进行建模。使用概率论的一个好处是可以对不确定性进行建模，这对于某些问题是非常有必要的。另外，它还可以挖掘变量之间的概率依赖关系，实现因果推理。
概率论为某些随机算法-如蒙特卡洛算法、遗传算法，以及随机数生成算法-包括基本随机数生成、以及采样算法提供了理论依据和指导。最后，概率论也是信息论，随机过程的先导课程。
下面这张图清晰的列出了概率论的核心知识。
做好机器学习，数学要学到什么程度？ - 图6
工科的概率论与数理统计教材，已经讲述了机器学习所需的大部分概率论知识，只有以下的知识点除外：

1. 条件独立性
2. Jensen不等式
3. 某些概率分布，如多项分布，拉普拉斯分布，t分布等
4. 概率分布变换
5. 多维正态分布
6. 多维概率分布变换
7. 某些参数估计方法，包括最大后验概率估计，贝叶斯估计等
8. 随机数生成算法，包括逆变换采样，拒绝采样等算法

最优化方法

最优化方法在机器学习中处于中心地位，遗憾的是很多读者并没有系统的学过这门课程，包括线性规划，凸优化，非线性规划。在一般的数值分析课程中，只讲述了最优化方法的小部分内容。
几乎所有机器学习算法最后都归结于求解最优化问题，从而确定模型参数，或直接获得预测结果。

前者的典型代表是有监督学习，通过最小化损失函数或优化其他类型的目标函数确定模型的参数；
后者的典型代表是数据降维算法，通过优化某种目标函数确定降维后的结果，如主成分分析。

下面这张图列出了最优化方法的核心知识。
做好机器学习，数学要学到什么程度？ - 图7

信息论

信息论是概率论的延伸，在机器学习与深度学习中通常用于构造目标函数，以及对算法进行理论分析与证明。这同样是很多读者没有学习过的课程。
在机器学习尤其是深度学习中，信息论的知识随处可见：

决策树的训练过程中需要使用熵作为指标
在深度学习中经常会使用交叉熵、KL散度、JS散度、互信息等概念
变分推断的推导需要以KL散度为基础
距离度量学习、流形降维等算法也需要信息论的知识

总体来说，在机器学习中用得最多的是熵，交叉熵，KL散度，JS散度，互信息，条件熵等。
下面这张图列出了信息论的核心知识。
做好机器学习，数学要学到什么程度？ - 图8

随机过程

随机过程同样是概率论的延伸，这也是大部分读者没有学习过的课程。
在机器学习中，随机过程被用于概率图模型、强化学习、以及贝叶斯优化等方法。不理解马尔可夫过程，你将对MCMC采样算法一头雾水。
下面这张图列出了机器学习中随机过程的核心知识。
做好机器学习，数学要学到什么程度？ - 图9
在机器学习中所用的主要是马尔可夫过程和高斯过程。隐马尔可夫过程，马尔可夫决策过程都是它的延伸。同时，平稳分布、细致平衡条件也是理解MCMC采样的核心基础。

图论

图论似乎只有计算机相关专业在本科时学过，而且还不完整，比如谱图理论。在机器学习中，概率图模型是典型的图结构。流形降维算法与谱聚类算法均使用了谱图理论。计算图是图的典型代表，图神经网络作为一种新的深度学习模型，与图论也有密切的关系。因此补充图论的知识也是很有必要的。