可以看到,列1分别与列2、列3的协方差,由于列3是列2的10倍,列3的协方差也将近是列2的协方差的10倍。
两组数据量级不同,协方差的量级也不同,因此 协方差不太适合两变量关系的度量。
皮尔逊相关系数
- 缺点:仅适用于呈现线性直线关系的分布图。(因此得到系数前最好可视化看下图)
- 皮尔逊相关系数:正负代表了x和y关系的方向,数值大小代表了关系的强弱(数值的范围为-1~1)。
-1 表示完全负相关
0 表示没有相关性
1 表示完全正相关
- 相关系数提供了显性但不一定是因果关系的一个度量。
rxy 相关系数
sxy 协方差
sx x的标准差
sy y的标准差