概念
先进行相关分析,判断有相关关系后,再进行回归分析。
1)相关性系数 r
2)显著性水平 p
两者的关系为:当p<0.05(或者0.01)的前提下,才可以参考r值,不能仅仅只看r值。
- 在进行相关分析之前,建议先使用散点图进行查看。
- 判断是否存在相关关系:使用 P值 判断是否有相关关系。
- 判断正负相关:判断相关系数(r值) >0 为正相关,<0 为负相关。
- 判断紧密程度:相关系数一般0.7以上说明关系非常紧密;0.4~0.7之间说明关系紧密;0.2~0.4说明关系一般。
- 相关系数常用两类:Pearson 和 Spearman,一般使用 Pearson。
Python 实现
import scipy.stats as stats
r,p = stats.pearsonr(data.X,data.Y)
print('相关系数r为 = %6.3f,p值为 = %6.3f'%(r,p))
相关系数r为 = 0.918,p值为 = 0.005
相关关系显著,且高度相关。
Excel 实现
实际举例
投放车辆与订单之间的关系
天气情况与故障率之间的关系