一、因子分析

1 目的

当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析(因子分析)是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

2 需要满足的假设

  1. 观测变量是连续变量或有序分类变量(观察)
  2. 变量之间存在线性相关关系(结果中会自行检验)

3 操作位置

3.1 分析-降维-因子

  1. 对话框中需要纳入所有变量;
  2. 描述、提取、旋转、得分等按钮都需要用上;

3.2 分析-降维-因子 —- 描述

3.3 分析-降维-因子 —- 提取

3.4 分析-降维-因子 —- 旋转

3.4 分析-降维-因子 —- 得分

3.4 分析-降维-因子 —- 选项

4 假设的检验

4.1 变量之间线性相关关系检验

  1. 本结果主要用于判断各变量之间的线性相关关系,从而决定变量的取舍;
  2. 如果某一个变量与同一分组中其它变量之间的关联性不强,我们就认为该变量与其它变量测量的内容不同,在主成分分析中不应该纳入该变量;
  3. 一般来说,如果相关系数大于等于0.3,我们就认为变量之间存在较好的线性相关性。

4.2 其他因子成分的检验方式

  1. KMO检验对数据的总体分析
  2. KMO检验对各变量的单独分析
  3. Bartlett’s 检验

4.2.1 KMO检验对数据的总体分析

  1. KMO检验对数据结构的总体分析,反应主成分分析的实用性情况;
  2. KMO对总体检验系数分布在0到1之间,当KMO检验系数值大于等于0.8时,主成分分析的结果才具有较好的实用性。

4.2.2 KMO检验对各变量的单独分析

  1. 此分析的结果反镜像相关性矩阵。反镜像相关性矩阵主要看相同问题之间的反镜像相关性
  2. KMO检验对单个变量的分析结果也在0到1之间分布。如果系数大于0.5,则认为单个变量满足要求;如果系数大于0.8,则认为单个变量结果很好;
  3. 任一变量的KMO检验结果均大于0.7,即各变量结果一般(相关性过强)

4.2.3 Bartlett’s 检验

  1. Bartlett’s检验的H0:研究数据之间的相关矩阵是一个完美矩阵;
  2. 完美矩阵即所有对角线上的系数为1,非对角线上的系数均为0。在这种完美矩阵的情况下,各变量之间没有相关关系。即不能将多个变量简化为少数的成分,没有进行主成分分析的必要。即每个变量都是一个单独的主成分。
  1. 结论中的P<0.001,拒绝原假设,即认为研究数据不是完美矩阵,可以进行因子分析;

5 结果解释

结果解释主要从:公因子方差、提取主成分和强制提取主成分三个方面进行

5.1 公因子方差分析

  1. 初始维度中不做任何信息的剔除,即有多少个变量,就有多少个因子,最终所有因子都地位相同的被纳入解释总方差对变量的解释度总和为100%;
  2. 提取维度中是当我们只保留选中的成分时,变量变异被解释的程度。即每个变量被利用的程度。由于我们只保留了每个变量中部分成分,所有变量变异被解释的程度会降低

5.2 提取主成分

5.2.1 提取因子的原理

  1. 因子分析的目的就是通过对主成分的提取从而达到降维的目的。但在抽提因子时,要尽可能多的包含对数据变异的解释;
  2. 输出的第一主成分包含最多的数据变异,第二主成分次之,之后的主成分包含的变异程度依次递减;
  3. 初始一共25个变量,那么提取25个因子。每个因子的初始特征根如总计所示。解释方差百分比计算方式为:成分1% = 6.517/25*100% = 26.066%;

5.2.2 提取主成分的方法

  1. 特征根大于1

    • 一般如果某项主成分初始特征根小于1,就认为该主成分对总体变异的解释程度较低,应该剔除;

    • 如果出现特征根在1上下且非常接近,如:1.002和0.998则无法判断是否需要剔除,则可用其他方法辅助判断;

  2. 解释数据的变异比例

    都是相对较为主观的判断方式,仅可作为辅助使用

  • 被提取的主成分应该能够解释5%-10%的数据变异,即方差百分比为5%-10%;
  • 主成分累计解释60%-70%的数据变异;

    1. 碎石图检验
  • 碎石图的查看方式时看斜率明显变低之处的因子之前的所有因子可纳入

  1. 解释能力判断

    1. 解释能力判断为旋转后的成分矩阵

    2. 相关性小于0.3的数据需要被剔除;

  2. 很明显在提取第五个主成分时,Q2 Q18 Q7 Q8等题目无法区分是由哪一个主成分反应,所以应该剔除主成分5

5.3 强制提取主成分

由于SPSS自动提取主成分主要是根据在因子分析-提取中选择的特征根边界值(一般大于1)指标进行判断,并不一定能够符合情况,实际工作中往往需要强制提取主成分的情况

6 撰写结论

  1. 本研究采用主成分分析,通过25项问题调查315位应聘者的工作能力。研究变量之间存在线性相关关系(每组变量之间的相关系数均大于0.3),数据结构合理(KMO检验系数为0.828,单个变量的KMO检验系数均大于0.7,Bartlett’s检验结果为P<0.001),提示研究数据可以进行主成分分析;
  2. 主成分分析结果提示,本研究中前五位主成分的特征值大于1,分别解释26.066%、13.823%、11.851%和7.646%的总数据变异。但陡坡图分析提示应提取前四位主成分,同时解释能力判断也提示提取前4位主成分比较符合研究实际需要。
  3. 因此,本研究最终提取前四位主成分。提取后的主成分累计解释59.386%的数据变异,分别反映应聘者的工作积极性、工作自主性、工作热情和工作责任感