• 也叫相关性。
  • 相关性不等于因果关系。

    协方差

    协方差:正负代表了x和y关系的方向,数值大小代表了关系的强弱。但是协方差受到数据计量单位的影响。

05 两变量关系的度量 - 图1
tmp.gif
可以看到,列1分别与列2、列3的协方差,由于列3是列2的10倍,列3的协方差也将近是列2的协方差的10倍。
两组数据量级不同,协方差的量级也不同,因此 协方差不太适合两变量关系的度量。

皮尔逊相关系数

  • 缺点:仅适用于呈现线性直线关系的分布图。(因此得到系数前最好可视化看下图)
  • 皮尔逊相关系数:正负代表了x和y关系的方向,数值大小代表了关系的强弱(数值的范围为-1~1)。

-1 表示完全负相关
0 表示没有相关性
1 表示完全正相关

  • 相关系数提供了显性但不一定是因果关系的一个度量。

05 两变量关系的度量 - 图3

rxy 相关系数
sxy 协方差
sx x的标准差
sy y的标准差
image.png
image.png