1、数据降维
降维是指降低特征矩阵中特征的数量,降维的目的是为了让算法更快,效果更好,另一个目的是为了数据可视化
大多数库中都封装了降维算法,sklearn中都封装在了decomposition模块下。
2、PCA(Principal Component Analysis)
在这里不得不提一嘴,看了向量的表示方法,终于明白了矩阵的乘法实际 意义。两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。
2.1 PCA算法的基本流程
1)将原始数据按列组成n行m列矩阵X
2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3)求出协方差矩阵
4)求出协方差矩阵的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
6)Y=PX即为降维到k维后的数据
https://zhuanlan.zhihu.com/p/21580949
2.2 sklearn中使用PCA
from sklearn.decomposition import PCApca=PCA(n_components=1)newData=pca.fit_transform(data)
