1. 模型介绍
    相关分析,其实就是寻找变量之间相互关联的程度。
    如果一个变量改变的时候,另一个变量也朝着相同的方向发生变化,那么我们就说这两个变量之间存在正相关性。
    反之,我们就说这两个变量之间存在负相关性。
    如果一个变量无论怎么改变,另一个变量都不会跟着变,那么我们就说这两个变量之间没有相关性。
    比如说,个子高的人,通常体重会重一些,个子矮的人,通常体重也会轻一些,所以说身高和体重存在正相关性。
    当然,也会有例外的情况,因为有些人是又高又廋,但总体而言,大多数人是符合相关规律的。
    相关分析通常包括以下几个步骤:
    第一步,收集相关数据
    首先,收集相关数据,一般是成对出现的数据,从而为后面的相关分析做好准备。
    第二步,绘制散点图形。
    把一个变量作为横轴,另一个变量作为纵轴,画出散点图形,观察数据的分布,大致判断相关性。
    11、相关分析模型 - 图1
    一般情况下,我们所说的相关,都是指线性相关。
    第三步,计算相关系数。
    相关系数有两大特点:
    (1)是介于 -1 到 1 之间的常数
    相关系数等于 -1 表示完全负相关,等于 0 表示完全不相关,等于 1 表示完全正相关。
    在实际应用中,我们通常把相关系数的取值,分成几个不同的区间,来表示不同的相关程度:

    • 0.0 ≤ |相关系数| < 0.3,表示不相关
    • 0.3 ≤ |相关系数| < 0.5,表示弱相关
    • 0.5 ≤ |相关系数| < 0.8,表示中度相关
    • 0.8 ≤ |相关系数| < 1.0,表示强相关

    (2)它不受变量单位的限制
    相关系数可以将单位不统一的数据,加工成一个简洁的描述性数据。
    比如说,身高的单位是厘米,体重的单位是千克,我们也能计算出它们的相关系数。
    需要注意的是,相关系数与显著性检验的 p 值不同,相关系数用来反映相关性的强弱,而 p 值用来检验是否存在相关关系,一般情况下,当 p 值小于 0.05 时,才可以判断存在相关关系。
    2. 应用举例
    以 Tableau 自带的超市数据为例,我们应用相关分析模型,分析技术类产品的子类别之间是否有相关关系。
    第一步,收集相关数据
    (1)打开 Tableau Desktop 2021.1 版本,在已保存的数据源中,点击【示例 - 超市】。
    (2)导航到【数据源】选项卡,把左边的【订单】表,拖动到右边的画布区域。
    (3)编辑关系选择【订单 Id = 订单 Id(订单1)】,如下图所示:
    11、相关分析模型 - 图2

    第二步,绘制散点图形。
    (1)双击【工作表 1】,重命名为【散点图】。
    (2)把【子类别】和【销售额】拖到【列】功能区。
    (3)把【子类别(订单1)】和【销售额(订单1)】拖到【行】功能区。
    (4)把【订单 Id】拖到【标记】卡的【详细信息】。
    (5)把【类别】拖到【筛选器】功能区,选中【技术】后,点击【确定】。
    (6)把【类别(订单1)】拖到【筛选器】功能区,选中【技术】后,点击【确定】。
    (7)依次点击菜单:【分析(A)】→【趋势线(T)】→【显示趋势线(T)】。
    11、相关分析模型 - 图3
    把鼠标放在趋势线的上方,可以看到其中的 p 值都大于 0.05,基本可以判断不存在相关关系。
    从散点图的分布中也可以看出,产品的子类别之间基本都没有相关性。
    第三步,计算相关系数。
    (1)复制【散点图】工作表,并重命名为【相关系数】。
    (2)依次点击菜单:【分析(A)】→【创建计算字段(C)…】。
    (3)将字段命名为【相关系数】,输入以下公式并点击【确定】:
    CORR( { INCLUDE [订单 Id] : SUM([销售额 (订单1)])},
    { INCLUDE [订单 Id] : SUM([销售额])})

    (4)分别将【相关系数】拖到【标记】卡的【颜色】和【标签】。
    (5)移除【列】中的【销售额】和【行】中的【销售额 (订单1)】。
    (6)将【标记类型】改为【方形】,移除【标记】卡的【订单 Id】。
    (7)编辑颜色,选择【绿色-蓝色-白色发散】,点击【确定】,调整字体大小之后,如下图所示:
    11、相关分析模型 - 图4
    从上面的相关系数矩阵中,可以看出,除了对角线相同子类别的相关系数为 1 以外,其他相关系数的绝对值都小于 0.3,事实上,其中相关系数的平方,就等于散点图趋势线中的 R 平方值。
    综上进行业务判断,我们可以得出相关分析的结论:从订单层面的销售额指标来看,技术类产品的子类别之间没有相关性。
    最后的话
    即使两个变量之间有相关关系,也不代表其中一个变量的改变,是由另一个变量的变化引起的。
    比如说,国家的诺贝尔奖数量,与巧克力消费量之间呈现正相关关系,但这并不是说,多吃巧克力有助于获得更多的诺贝尔奖。
    11、相关分析模型 - 图5
    一种合理的解释是,诺贝尔奖的数量与巧克力的消费量,很可能都是由其他变量导致的,例如国民的受教育程度和富裕程度。
    最后,请一定要牢牢记住,相关关系不等于因果关系