概念
因子分析法是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。
基本思想是:根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构一即公共因子。
因子分析是指研究从变量群中提取共性因子的统计技术。
最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。
因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
目的
对多个具有较高相似性的变量/指标进行降维,前提是这些指标/变量之间必须存在一定的相似性/相关性。
应用因子分析法的主要步骤:
对数据样本进行标准化处理。
计算样本的相关矩阵R。
)求相关矩阵R的特征根和特征向量。
根据系统要求的累积确定主因子的个数。
计算因子载荷矩阵A。
确定因子模型。
根据上述计算结果,对系统进行分析。
使用场景
降维后综合评价
- 想要知道品牌印象的构造(想通过少数的潜在因子来解释印象)\ 想要归纳出消费者的若干种态度 \ 不测量综合满意度,单相通过个别满意度来计算综合满意度指数。
效度检验:探索性因子分析
想要在心理尺度的许多变量之间,归纳出相似的东西
对抽象概念的测量工具进行有效性检验,判断哪些指标需要保留、删除,并对保留的指标进行维度划分。
降维后做其他分析:消除变量之间的相关性/共线性
由于变量存在较高的相关性,不适合做回归分析、聚类等其他分析,需要用依着你分析消除变量间较高的共线性。
分析前提
样本量大小
- 样本量与变量数的比例应在5:1以上
- 总样本量不得少于100,且原则上越大越好
各变量间必须有相关性
- KMO统计量:0.9最佳,0.7尚可,0.6较差,0.5以下放弃
- Bartlett球形校验:若相关矩阵为单位矩阵则因子分析无效。
因子数的推定
在公因子反差的推定结果的基础上,用把相关矩阵的对角元素置换成公因子方差的矩阵,来进行因字数的推定。为了推定因字数要进行主成分分析,求特征值。特征值是表示变量的信息量大小的指标。特征值越大,可以说就是越重要的元素。
主成分分析与因子分析一样,它分析相关关系。以尽可能少的变量的表动来说明所有数据拥有的信息量(方差)
推定因子数的3种方法
1、建立在特征值的数据基础上的方法
以特征值1.0以上的数作为因字数
2、建立在碎石图(saree polt)的基础上的方法
将特征值按从最大值到最小值的顺序排列,看其减少情况。从某个阶段开始,特征值突然变小之后,可以考虑把稳定阶段作为因子数,在这以下则为误差因子。
3、建立在累积特征值的百分比的基础上的方法
计算特征值的累积百分比,把累计百分比变成60%-80%的数作为因子数。
因子轴旋转的目的
为使因子分析法求出因子载荷阵结构简化,便于对主因子进行专业上解释,常对因子载荷阵施行变换或称因子旋转。最常用的方法是方差最大的正交旋转法,使旋转后的因子载荷阵中的每一列元素尽可能地拉开距离,即向0或1两极分化,使每一个主因子只对应少数几个变量具有高载荷,其余载荷很小, 且每一变量也只在少数个主因子上具有高载荷,其余载荷都很小。正交旋转适用于正交因子模型,即主因子是相互独立的情况,如果主因子是彼此相关的,这时要做非正交旋转即斜交旋转。
因子旋转是为了更有利于用现实语言来描述所得因子。正常因子分析得出的因子可能逻辑意义不明显,理解起来很困难。但旋转之后就可能得到有逻辑意义的因子。
- 因子旋转使得一直可以更好的代表原来的变量
- 降低或消除提取因子之间的相关性
方法
- 最大方差法 (Varimax Method). 一种正交旋转方法,它使得对每个因子有高负载的变量的数目达到最小。该方法简化了因子的解释。
- 直接 Oblimin 方法。一种斜交(非正交)旋转方法。当 delta 等于 0(缺省值)时,解是最斜交的。delta 负得越厉害,因子的斜交度越低。要覆盖缺省的 delta 值 0,请输入小于等于 0.8 的数。
- 最大四次方值法 (Quartimax Method). 一种旋转方法,它可使得解释每个变量所需的因子最少。该方法简化了观察到的变量的解释。
- 最大平衡值法 (Equamax Method). 一种旋转方法,它是简化因子的最大方差法与简化变量的最大四次方值法的组合。它可以使得高度依赖因子的变量的个数以及解释变量所需的因子的个数最少。
- 最优斜交旋转 (Promax Rotation). 斜交旋转,可使因子相关联。该旋转可比直接最小斜交旋转更快地计算出来,因此适用于大型数据集。
因子的解释和得分计算
因子解释是根据旋转后的因子载荷矩阵(斜交旋转时的因子模型矩阵)的数字来进行探讨。
适用单纯结构的想法,因子载荷的绝对值在0.4以下时可以忽略。把因子载荷看作因子和项目(变量)的相关关系。因子载荷的绝对值越大,其与它的因子的关系就越强。 每个因子,如果按照因子载荷绝对值大小的顺序,变更排列项目(变量),对解释会更加方便。
因子的命名:一种是简称,还有一种是详细的名字。如果简称可以很好地命名,详细的名字就不需要了。
在调查报告会上,在对因子分析进行说明时,分析能否得到理解的关键是命名。站在报告接受者的立场,请用容易理解的语言,做一个给因子起名的人。
得分计算
按组来划分的因子得分平均值的比较:
- 与交叉统计一样,如果在按性别、年龄等来划分的交叉主项目下对因子得分进行比较,组的特征就会变得明确起来。如果进行方差分析,组间的差异则在统计学意义上得到明确。
按因子得分的顺位来划分的交叉统计:
- 把因子得分划分为排行居前25%,居后25%,居中50%,即使进行前25%、后25%的分析,或许也可以得出令人感兴趣的结果。
新的多变量分析数据 :
- 用因子得分,可以进行聚类分析。由于数据的精华达到了因子得分这样的极致,因此,其他的多变量分析也可以充分地使用。
SPSS
操作:
分析-降维-因子
描述-相关性矩阵-KOM
旋转-最大方差法
得分-保存为变量
选项-按大小排序、排除小系数
结果解读
- KMO>0.7 适合做因子分析
- 累计方差贡献率需要达到多少才合适,如果通过因子分析降维后做综合评价,那么累计方差贡献率需要达到80%;效度检验或其他分析60%以上就可以了
- 因子的划分:根据每个变量在每个因子中的取值是否大于0.5
- 效度检验:
- 第一判断标准:每个变量有且只有一个因子载荷大于0.5,如果所有因子载荷值均小于0.5则说明该变量不具有收敛效度,需要删除。
- 第二判断标准:变量在两个或以上因子中的载荷值同时大于0.5,则说明该变量不具有区分效度,需删除。
- 第三判断标准:某变量单独成为一个因子,则说明该变量也不存在收敛效度,需删除。