https://zh.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90

什么是主成分分析?

主成分分析是一种流行的无监督学习技术,用于降低数据的维数。它增加了可解释性,同时,它最大限度地减少了信息丢失。它有助于在数据集中找到最重要的特征,并使数据易于在 2D 和 3D 中绘制。PCA 有助于找到一系列变量的线性组合。
PCA 有助于识别不同变量之间的关系,然后将它们耦合起来.

PCA 中的假设

PCA 中有一些假设需要遵循,因为它们将导致这种降维技术在 ML 中准确运行。PCA 中的假设是:
• 数据集中必须存在线性,即变量以线性方式组合形成数据集。变量表现出它们之间的关系。
• PCA 假设必须具有高方差的主成分,而将具有较低方差的主成分视为噪声。Pearson 相关系数框架导致了 PCA 的起源,并且首先假设具有高方差的轴只会变成主成分。
• 所有变量都应在相同的比率测量水平上访问。最优选的规范是样本集的至少 150 个观测值,比率测量值为 5:1。
• 偏离数据集任何其他数据点的极值(也称为异常值)应该更少。更多数量的异常值将代表实验错误,并会降低您的ML 模型/算法。
• 特征集必须是相关的,应用 PCA 后减少的特征集将代表原始数据集,但以有效更少维度的方式表示。
在任何 ML 模型/算法上应用 PCA 的步骤如下:
• 数据的规范化对于应用 PCA 是非常必要的。未缩放的数据可能会导致数据集的相对比较出现问题。例如,如果我们在某个二维数据集中的列下有一个数字列表,则从所有数字中减去这些数字的平均值以标准化二维数据集。规范化数据也可以在 3-D 数据集中完成。
• 标准化数据集后,找出不同维度之间的协方差并将它们放入协方差矩阵中。协方差矩阵中的非对角元素将代表每对变量之间的协方差,对角元素将代表每个变量/维度的方差。
为任何数据集构建的协方差矩阵将始终是对称的。协方差矩阵将表示数据中的关系,您可以轻松了解每个主成分的方差量。
• 您必须找到协方差矩阵的特征值,该矩阵表示图中数据在正交基础上的变异性。您还必须找到协方差矩阵的特征向量,它表示数据中最大方差发生的方向。
假设您的协方差矩阵“C”有一个由“C”的特征值组成的方阵“E”。在这种情况下,它应该满足这个方程——(EI – C) = 0 的行列式,其中“I”是与“C”维数相同的单位矩阵。您应该检查它们的协方差矩阵是否是对称/方阵,因为这样只能计算特征值。
• 按升序/降序排列特征值并选择较高的特征值。您可以选择要处理的特征值数量。忽略较小的特征值会丢失一些信息,但这些微小的值不会对最终结果产生足够的影响。
选定的更高特征值将成为您更新的特征集的维度。我们还形成了一个特征向量,它是一个由相对选择的特征值的特征向量组成的向量矩阵。
• 使用特征向量,我们找到正在分析的数据集的主要成分。我们将特征向量的转置与缩放矩阵的转置相乘(归一化后数据的缩放版本)以获得包含主成分的矩阵。
我们会注意到最高特征值将适合数据,而其他特征值不会提供有关数据集的太多信息。这证明了我们在减少数据集的维度时并没有丢失数据;我们只是更有效地代表它。
实施这些方法是为了最终减少 PCA 中任何数据集的维度。

PCA的应用

许多部门都会产生数据,因此需要分析数据以了解任何公司/公司的增长。PCA 将有助于减少数据的维度,从而使其更易于分析。PCA的应用有:
• 神经科学——神经科学家使用 PCA 来识别任何神经元或在相变期间绘制大脑结构图。
• 金融——PCA 在金融领域用于降低数据维度以创建固定收益投资组合。金融部门的许多其他方面都涉及 PCA,例如预测收益、制定资产配置算法或股权算法等。
• 图像技术——PCA 也用于图像压缩或数字图像处理。通过绘制每个像素的强度值,可以通过矩阵表示每个图像,然后我们可以对其应用 PCA。
面部识别– 面部识别中的PCA 导致创建特征面部,从而使面部识别更加准确。
• 医疗——PCA 用于大量医疗数据,以找出不同变量之间的相关性。例如,医生使用 PCA 来显示胆固醇和低密度脂蛋白之间的相关性。
• 安全性——使用 PCA 可以轻松发现异常。它用于识别网络/计算机攻击并在 PCA 的帮助下将其可视化。

PCA 可以用于所有数据吗?

是的。主成分分析 (PCA) 是一种数据分析技术,它提供了一种查看和理解非常高维数据的方法。换句话说,PCA 可以应用于具有大量变量的数据。有一个普遍的误解,认为 PCA 只能用于特定形式的数据。例如,许多人认为 PCA 仅对数值变量有用。不是这种情况。事实上,PCA 可以用于所有类型的变量。例如,PCA 可以应用于分类变量、有序变量等。

主成分分析的局限性是什么?

PCA 是分析数据和提取两个或三个最重要因素的绝佳工具。发现异常值和趋势非常好。但是,它有一些限制,例如:它不适合小型数据集(通常,数据集应该超过 30 行)。它不会找到重要因素,而是根据值选择它们。因此,很难找到重要的因素。它背后没有强大的数学结构。很难将数据与 PCA 进行比较。它找不到任何非线性关系。

主成分分析的优点是什么?

主成分分析 (PCA) 是一种统计方法,用于将大量可能相关的变量转换为数量少得多的不相关变量,称为主成分。PCA 可以用作数据缩减技术,因为它允许我们找到描述数据集所需的最重要的变量。PCA 还可用于降低数据空间的维数,以便深入了解数据的内部结构。这在处理大型数据集时很有帮助。

https://www.upgrad.com/blog/pca-in-machine-learning/