1、如何求取两个矩阵mk维跟nk维的欧式距离？

先将后一个矩阵转秩成k*n，对于每一行i每一列j，利用公式来求取：

2、PCA主成分分析，原理是什么？第一主成分是第一的原因？

从信噪比的角度出发，认为噪声具有较小的方差，信号具有较大的方差，因为投影之后的信号方差要最大化。
x已经去中心化；

中间那块就是协方差矩阵；

3、矩阵正定性的判断,Hessian矩阵正定性在梯度下降中的应用

矩阵（方阵）正定性的判断：
正定矩阵从定义上来说，对于任意的向量x

从特征值判断，所有特征值都大于0；
从顺序主子式角度上看，各阶顺序主子式大于0；
判断半正定、负定同理。

hessian矩阵本质上是函数的二阶导，在梯度下降中可以判断极值点及鞍点。
一阶导：

二阶导：

4、随机梯度下降法、牛顿法、拟牛顿法总结

随机梯度下降法

从图形上来看：注意z轴就是我们要求的函数，我们目的是让这个函数值最小

影响梯度下降法的因素有哪些？
1、初始值（可理解为在山上的初始位置）；
2、搜索步长；
3、归一化（归一化能够让梯度下降的方向更合理，想到一个等高圆跟椭圆的损失函数曲线）

梯度下降法的类型？
1、SGD随机梯度下降法：用一个样本的梯度来代替全部样本的梯度，速度很快，但是可能方向不是最优；
2、BGD（batchsize）：用全部样本来进行梯度更新；
3、MBGD（mini batchsize）：用部分样本来进行梯度更新。

牛顿法

目的也是一样，求函数最小值，那么对应的点的一阶导为0，这里是通过henssian矩阵（二阶导）来判断一阶导，同时判断该点对应的是极值点还是鞍点；
对函数进行泰勒展开（如果函数是二阶可到的情况）：

要求得一阶导数为0的情况，对一阶导数进行泰勒展开（可理解为对上诉式子再求导）；

令一阶导为0，则可得：