概念

先进行相关分析,判断有相关关系后,再进行回归分析。

1)相关性系数 r
2)显著性水平 p
两者的关系为:当p<0.05(或者0.01)的前提下,才可以参考r值,不能仅仅只看r值。

  • 在进行相关分析之前,建议先使用散点图进行查看。
  • 判断是否存在相关关系:使用 P值 判断是否有相关关系。
  • 判断正负相关:判断相关系数(r值) >0 为正相关,<0 为负相关。
  • 判断紧密程度:相关系数一般0.7以上说明关系非常紧密;0.4~0.7之间说明关系紧密;0.2~0.4说明关系一般。
  • 相关系数常用两类:Pearson 和 Spearman,一般使用 Pearson。

Python 实现

  1. import scipy.stats as stats
  2. r,p = stats.pearsonr(data.X,data.Y)
  3. print('相关系数r为 = %6.3f,p值为 = %6.3f'%(r,p))

相关系数r为 = 0.918,p值为 = 0.005
相关关系显著,且高度相关。

Excel 实现

实际举例

投放车辆与订单之间的关系
天气情况与故障率之间的关系