统计建模 - 【‼️】因子分析（探索性） - 《数据分析系统知识学习》

#1、作用
#2、输入输出描述">#2、输入输出描述
#3、案例示例">#3、案例示例
#4、案例数据">#4、案例数据
#5、案例操作">#5、案例操作
#6、输出结果">#6、输出结果
#7、注意事项">#7、注意事项
#8、模型理论">#8、模型理论
#">#

https://www.spsspro.com/help/factor-analysis/#_8%E3%80%81%E6%A8%A1%E5%9E%8B%E7%90%86%E8%AE%BA

#1、作用

因子分析是基于降维的思想，在尽可能不损失或者少损失原始数据信息的情况下，将错综复杂的众多变量聚合成少数几个独立的公共因子，这几个公共因子可以反映原来众多变量的主要信息，在减少变量个数的同时，又反映了变量之间的内在联系。通常因子分析有三种作用：一是用于因子降维，二是计算因子权重，三是计算加权计算因子汇总综合得分。

#2、输入输出描述

输入:2 个或两个以上的定量变量（假设为 N 个变量）。
输出:最低可降维成 1 维（一个变量，一般用于综合评价），最多可降维成 N 个变量（一般用于数据脱敏），同时可以获取降维后各个变量的组成权重，用于代表原先变量的数据保留情况。

#3、案例示例

根据该地区 2021 年的生产总值、人均可支配收入等多个指标，量化评估多个省市地区的经济发展水平排名或者各指标的权重。

#4、案例数据

【‼️】因子分析（探索性） - 图1

因子分析数据

#5、案例操作

【‼️】因子分析（探索性） - 图2
Step1：新建项目；
Step2：上传数据；
Step3：选择对应数据打开后进行预览，确认无误后点击开始分析；
【‼️】因子分析（探索性） - 图3

step4：选择【因子分析】；
step5：查看对应的数据数据格式，【因子分析】要求输入数据为放入 [定量] 自变量 X（变量数 ≥2）。
step6：选择主成分个数、因子旋转方式（注意：在因子分析中倾向于描述原始变量之间的相关关系，所以一般情况下在因子分析选取的主成分个数也就是自变量 X 个数，而特征根选择则是根据设定的阈值为界限，以大于该界限对应的主成分个数作为选取的主成分个数，默认为 1。）
step7：点击【开始分析】，完成全部操作。

#6、输出结果

输出结果 1：KMO 检验和 Bartlett 的检验
【‼️】因子分析（探索性） - 图4
图表说明:KMO 检验的结果显示，KMO 的值为 0.775，同时，Bartlett 球形检验的结果显示，显著性 P 值为 0.000，水平上呈现显著性，拒绝原假设，即表明各变量间具有相关性，因子分析的结果是有效的，结果可靠程度为一般。

输出结果 2：方差解释表格
【‼️】因子分析（探索性） - 图5
图表说明:
上表为总方差解释表格，主要是看因子对于变量解释的贡献率（可以理解为究竟需要多少因子才能把变量表达为 100%），一般都要表达到 90%以上才可以，否则就要调整因子数量。方差解释表中，前两个因子累积解释的贡献率达到 94.296%(一般情况下大于 90%即可），说明使用前两个因子就能够很好地评估省市地区的经济发展水平。前三个因子则效果更佳，累积解释的贡献率达到 98.921%。

输出结果 3：碎石图

【‼️】因子分析（探索性） - 图6

图表说明:当折线由陡峭突然变得平稳时，陡峭到平稳对应的主成分个数即为参考提取主成分个数。由图可知，从第三个主成分开始，主成分的特征根值开始缓慢的下降，在满足因子累计解释的贡献度达到 90%的情况下，我们可以选择保留三个主成分。

输出结果 4：因子载荷系数表
【‼️】因子分析（探索性） - 图7
图表说明: 上表为因子载荷系数表，可以分析到每个因子中隐变量的重要性。第一个因子与生产总值、进出口总额、财政预算收入、工业企业流动资产这四个变量的相关程度较大，可以概括为“地方发展况状”；第二个因子与人均可支配收入这一个变量的相关程度较大，可以概括为“人民富裕程度”。

输出结果 5：因子载荷矩阵热力图
【‼️】因子分析（探索性） - 图8
图表说明:上图为载荷矩阵热力图，可以分析到每个因子中隐变量的重要性，热力图颜色越深说明相关性越大。第一个因子与生产总值、进出口总额、财政预算收入、工业企业流动资产这四个变量的相关程度较大，第二个因子与人均可支配收入这一个变量的相关程度较大。

输出结果 6：因子载荷象限分析
【‼️】因子分析（探索性） - 图9 【‼️】因子分析（探索性） - 图10
图表说明:因子载荷图通过将多因子降维成双因子或者三因子，通过象限图的方式呈现因子的空间分布。当保留两个因子时作出二维因子载荷象限。当保留三个因子时作出三维因子载荷象限。

输出结果 7：成分矩阵表
【‼️】因子分析（探索性） - 图11
图表说明: 模型的公式：
F1=0.236× 生产总值(亿元)+0.057× 人均可支配收入(元）+0.192× 进出口总额(千美元)+0.214× 财政预算收入(亿元)+0.23× 工业企业流动资产(亿元)
F2=0.244× 生产总值(亿元)+1.348× 人均可支配收入(元）+0.618× 进出口总额(千美元)+0.552× 财政预算收入(亿元)+0.298× 工业企业流动资产(亿元)
F3=0.063× 生产总值(亿元)+0.821× 人均可支配收入(元）+4.519× 进出口总额(千美元)+2.024× 财政预算收入(亿元)+1.681× 工业企业流动资产(亿元)
F4=-3.888× 生产总值(亿元)+0.164× 人均可支配收入(元）+0.517× 进出口总额(千美元)-0.199× 财政预算收入(亿元)+5.176× 工业企业流动资产(亿元)
F5=-1.375× 生产总值(亿元)+0.605× 人均可支配收入(元）+0.94× 进出口总额(千美元)+8.783× 财政预算收入(亿元)-1.017× 工业企业流动资产(亿元)
由上可以得到： F=(0.669/1.0)×F1+(0.274/1.0)×F2+(0.046/1.0)×F3+(0.006/1.0)×F4+(0.005/1.0)×F5

输出结果 8：因子权重分析
【‼️】因子分析（探索性） - 图12
图表说明: 因子的权重计算结果显示，因子 1 的权重为 66.9%、因子 2 的权重为 27.396%、因子 3 的权重为 4.625%、因子 4 的权重为 0.576%、因子 5 的权重为 0.503%。

输出结果 9：综合得分表
【‼️】因子分析（探索性） - 图13
图表说明:由综合得分可知，广东省的综合得分最高，也就是广东省的经济发展水平排名第一，其次是江苏省。

#7、注意事项

因子分析要求变量之间的共线性或相关关系比较强，否则不能通过 KMO 检验和 Bartlett 球形检验；
因子分析是主成分的推广，相对于主成分分析，更倾向于描述原始变量之间的相关关系（可侧重分析输出结果 4、输出结果 5、输出结果 6）。
因子分析时通常需要综合自己的专业知识，以及软件结果进行综合判断，即使是特征根值小于 1，也一样可以提取主成分；
KMO 值为 null 不存在可能导致的原因为：

（1）样本量过少容易导致相关系数过高，一般希望分析样本量大于 5 倍分析项个数；
（2）各个分析项之间的相关关系过高或过低。

#8、模型理论

因子分析是一种依据变量间相关性将多维变量归结为少数公共因子表示,然后加以分析处理的多维变量统计分析方法。其基本思想是将原始变量分解为两部分:一部分是公共因子的线性组合,浓缩表示了原始变量中的绝大部分信息;另一部分是与公共因子无关的特殊因子,反映了公共因子线性组合与原始变量间的差距。p 维变量
x =[x1 ,…,xi ,…,xp ]T 的因子分析模型为:

【‼️】因子分析（探索性） - 图14

或记为

【‼️】因子分析（探索性） - 图15

其中f =[f 1 ,f 2 ,…,f m ]T 即为提取的公共因子向量,代表了原始变量中不可直接观测但客观存在的 m (m

对多维变量 x 建立因子分析模型的关键在于求解因子载荷矩阵A 和公共因子向量f ,其步骤如下：
1）为消除变量量纲不同的影响,对含 n 个 p 维变量的样本X=[x1 ,x2 ,…,xn ]进行标准化。标准化后,各变量的均值为 0,方差为 1。为表达方便标准化后的变量仍然用 X 表示,其各元素为

【‼️】因子分析（探索性） - 图16

2）求样本的协方差矩阵 S ,其各元素为

【‼️】因子分析（探索性） - 图17

3）对样本协方差矩阵 S做特征值分解,得到 p 个特征值 λ1 ≥λ2≥…≥λp ≥0,对应的特征值向量为 γ1 , γ2 ,…,γp ,可取前 m 个最大特征值的特征向量估计因子载荷矩阵。同时为保证公共因子向量各分量方差为 1,需将其除以对应的标准差 λj 。因子载荷矩阵中对应特征向量 γj 则需乘以 λj 。因此可得因子载荷矩阵

【‼️】因子分析（探索性） - 图18

其中参数 m 由公共因子的累积方差贡献率确定,即

【‼️】因子分析（探索性） - 图19

一般认为,当前 m 个公共因子的累积方差贡献率超过 90%时,可认为前 m 个公共因子的线性组合基本上能够还原原始变量信息。
公共因子向量f ,即原始变量在公共因子上的具体得分可通过回归法估计得到

【‼️】因子分析（探索性） - 图20

通过以上步骤,得到因子载荷矩阵和公共因子向量后,继而可得原始变量特殊因子向量为

【‼️】因子分析（探索性） - 图21