1、如何求取两个矩阵mk维跟nk维的欧式距离?

先将后一个矩阵转秩成k*n,对于每一行i每一列j,利用公式来求取:
image.png

2、PCA主成分分析,原理是什么?第一主成分是第一的原因?

从信噪比的角度出发,认为噪声具有较小的方差,信号具有较大的方差,因为投影之后的信号方差要最大化。
x已经去中心化;
image.png
中间那块就是协方差矩阵;
image.png
image.png

3、矩阵正定性的判断,Hessian矩阵正定性在梯度下降中的应用

矩阵(方阵)正定性的判断:
正定矩阵从定义上来说,对于任意的向量x
image.png
从特征值判断,所有特征值都大于0;
从顺序主子式角度上看,各阶顺序主子式大于0;
判断半正定、负定同理。

hessian矩阵本质上是函数的二阶导,在梯度下降中可以判断极值点及鞍点。
一阶导:
image.png
image.png
image.png
二阶导:
image.png
image.png

4、随机梯度下降法、牛顿法、拟牛顿法总结

随机梯度下降法

image.png
image.png
从图形上来看:注意z轴就是我们要求的函数,我们目的是让这个函数值最小
image.png
image.png
影响梯度下降法的因素有哪些?
1、初始值(可理解为在山上的初始位置);
2、搜索步长;
3、归一化(归一化能够让梯度下降的方向更合理,想到一个等高圆跟椭圆的损失函数曲线

梯度下降法的类型?
1、SGD随机梯度下降法:用一个样本的梯度来代替全部样本的梯度,速度很快,但是可能方向不是最优;
2、BGD(batchsize):用全部样本来进行梯度更新;
3、MBGD(mini batchsize):用部分样本来进行梯度更新。

牛顿法

目的也是一样,求函数最小值,那么对应的点的一阶导为0,这里是通过henssian矩阵(二阶导)来判断一阶导,同时判断该点对应的是极值点还是鞍点;
对函数进行泰勒展开(如果函数是二阶可到的情况):
image.png
要求得一阶导数为0的情况,对一阶导数进行泰勒展开(可理解为对上诉式子再求导);
image.png
令一阶导为0,则可得:
image.png

梯度下降法跟牛顿法区别

同:都是通过迭代来收敛取得最优值;
image.png
异:牛顿法收敛速度更快,次数更少,因为牛顿法不仅关注梯度下降最快,同时关注之后每一步梯度的变化(梯度变化率);牛顿法hessian矩阵的逆矩阵计算量很大。

拟牛顿法

拟牛顿法的提出就是为了解决牛顿法hessian逆矩阵的计算量问题,用一个其他矩阵去代替hessian矩阵逆矩阵。
具体就先不管了…