相关和回归

我们知道,可以通过对指标的维度拆来解寻找指标变化的原因。当我们找到问题的原因时,自然会进一步思考一个问题:指标变化的原因这么多,其中的关键因素又是哪个呢?例如,我们在工作场景中时不时会讨论这些问题:

  1. 电商类产品想知道哪个品类销售对整体销售贡献更大;
  2. 渠道运营想知道哪个渠道的用户对整体活跃作用更大;
  3. 负责留存的想知道哪个客群对整体的留存关系更大;
  4. 产品想知道到底哪些维度(城市、年龄、接入设备等)会影响整体活跃。

还有很多类似的场景,在这种情况下我们不仅要要找到数据变化的原因,还需要明确出不同原因的重要性。因为实际工作中可用资源有限,只能集中优势资源解决核心问题。

相关分析基本概念

相关性分析,指对两个或多个指标进行分析,评估它们两两之间联系或相互影响的程度。相关性分析不仅可以分析出多个指标间是否存在相关关系,还能给出相关程度的量化值。在进行相关性分析时,我们会使用“相关系数”定量给出几个指标间联系和影响的程度,通常用 $ \rho $ 来表示,计算公式为:

77.相关和回归 - 图1%7D%20%7B%5Csqrt%7Bvar(X)%20%5Ccdot%20var(Y)%7D%7D%0A#card=math&code=%5Crho%20%3D%20%5Cfrac%20%7Bcov%28X%2C%20Y%29%7D%20%7B%5Csqrt%7Bvar%28X%29%20%5Ccdot%20var%28Y%29%7D%7D%0A)

需要注意的是,$ \rho $ 只能用来度量线性关系,它的取值在 $ [-1, 1] $ 之间。数据中的离群值会对 $ \rho $ 产生影响,在计算时必须先剔除,实际使用相关关系时,还需要关注相关关系的稳定性

我们用 $ \rho $ 值判断指标的相关性时遵循以下两个步骤。

  1. 判断指标间是正相关、负相关,还是不相关。

    • 当 $ \rho \gt 0 $,认为指标间是正相关,也就是两者的趋势一致。如果指标 A 与指标 B 的 $ \rho \gt 0 $,那么指标 A 上涨,指标 B 也会上涨;反之亦然。
    • 当 $ \rho \lt 0 $,认为指标间是负相关,也就是两者的趋势相反。如果指标 A 与指标 B 的 $ \rho \lt 0 $,那么指标 A 上涨,指标 B 会下降;反之亦然。
    • 当 $ \rho = 0 $,认为指标间是不相关的,但并不代表两个指标是统计独立的。
  2. 判断指标间的相关程度。

    • 当 $ \rho $ 的值在 $ [0.5,1] $ 之间,认为指标间是强相关,指标间的业务联系非常紧密。
    • 当 $ \rho $ 的值在 $ [0.1,0.5) $ 之间,认为指标间是弱相关,指标间的业务联系不太紧密。
    • 当 $ \rho $ 的值在 $ [0,0.1) $ 之间,认为指标间是无相关,指标间的业务联系无任何联系,也就是说当我们去运营指标 A 时,指标 B 不会产生相应的变化。

相关分析应用场景

事实上,相关性分析的应用场景非常多,基本上当问到“这两个东西有什么关系”、“哪个指标的作用(贡献或价值)更大”、“我们应该重点解决哪个问题”这类问题时,都可以用相关性分析给出比较准确的回答,非常便于产品运营找到解决问题的核心抓手。

77.相关和回归 - 图2

在使用相关分析时,应注意以下几个方面:

  1. 业务意义:当我们想知道A指标的情况时,可以监控B指标。
  2. 注意事项:千万不要将相关关系判断为因果关系,相关关系是伴随关系而不是因果关系。
  3. 强相关关系才是有业务价值的,建议寻找相关系数在 0.6 以上甚至 0.8 以上的指标。
  4. 相关关系的本质是 Y 的变化有多少能被 X 解释,跟 X 和 Y 之间的斜率大小无关。

Excel计算相关系数

  1. 方法一:使用 CORREL 函数。
  2. 方法二:使用“数据分析”模块的“相关系数”功能。

77.相关和回归 - 图3

相关分析案例

分析哪个客群的留存对整体留存贡献更大

留存的运营中我们最常看的就是新客的留存和活跃客群的留存,用来评估哪个客群的留存与整体的留存联系更紧密,以便制定后续运营的策略。

77.相关和回归 - 图4

利用Excel进行相关分析的结果如下所示。

77.相关和回归 - 图5

可以看出,活跃访客的留存率与整体留存率的相关是强相关;而新增访客的留存率与整体留存率的相关是弱相关,所以如果要提升整体留存率,我们的产品运营资源应当更多地投放给活跃用户,以提升整体的留存率;而新增访客,虽然不会拿到很多运营资源,但是我们也要去深入分析为什么新增访客的留存的贡献比较小,适时做一些提升这部分客群与整体留存的策略。

案例2:找出对购买转化率贡献最高的渠道

基本上电商运营会同时部署多个渠道,包括线上电商平台以及线下的门店。由于现有某产品从各个渠道获客的用户在产品上的购买转化率,需要评估哪些渠道的用户对整体购买转化率贡献最大,后续将重点营销此渠道。

77.相关和回归 - 图6

案例3:分析哪些因素对 DAU 的影响更大

我们分析 DAU 时常会将它拆解为各种维度来分析,这里我们分析与 DAU 联系最紧密的维度到底是哪些,以帮助我们制定针对性的运营策略,如下图所示。

77.相关和回归 - 图7

对于这样的报表,我们需要找出到底是哪几个城市、哪个操作系统,以及哪个年龄段的用户对于 DAU 的影响最大。如果能找出来这个关系,那么后续要提升 DAU,就有非常清晰的方向。

线性回归

如果只有一个自变量 X,而且因变量 Y 和自变量 X 之间的数量变化关系呈现近似的线性关系,就可以建立一元线性回归方程,通过自变量 X 的值来预测因变量 Y 的值,这就是所谓的一元线性回归预测,回归方程如下所示:

77.相关和回归 - 图8

我们可以通过历史数据(已知的 $ X $ 和 $ Y $ ),确定参数 $ a $ 和 $ b $ 的值,还原出回归方程,从而实现预测。很显然,$ a $和 $ b $ 的取值可以有很多种选择,那么什么才是最好的 $ a $ 和 $ b$ 呢?如果把真实值记为 $ y $,把预测值记为 $ \hat{y} $,那么让 $ SSR $ 值最小的 $ a $ 和 $ b $ 就是最好的 $ a $ 和 $ b $ ,称之为最小二乘解,其中$ SSR $ 值计算公式如下所示:

77.相关和回归 - 图9%5E2%0A#card=math&code=SSR%20%3D%20%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%28y_i%20-%20%5Chat%7By_i%7D%29%5E2%0A)

损失函数是凹函数,找到使函数最小的ab的值,可以通过向凹函数的拐点进行逼近的方式来找到更好的ab的值,具体的公式如下所示:

77.相关和回归 - 图10%20%5Ctimes%20%5Cfrac%20%7B%5Cpartial%20loss(a%2C%20b)%7D%20%7B%5Cpartial%20a%7D%20%5Ctimes%20%5CDelta%20%5C%5C%0Ab%5E%5Cprime%20%3D%20b%20%2B%20(-1)%20%5Ctimes%20%5Cfrac%20%7B%5Cpartial%20loss(a%2C%20b)%7D%20%7B%5Cpartial%20b%7D%20%5Ctimes%20%5CDelta%0A#card=math&code=a%5E%5Cprime%20%3D%20a%20%2B%20%28-1%29%20%5Ctimes%20%5Cfrac%20%7B%5Cpartial%20loss%28a%2C%20b%29%7D%20%7B%5Cpartial%20a%7D%20%5Ctimes%20%5CDelta%20%5C%5C%0Ab%5E%5Cprime%20%3D%20b%20%2B%20%28-1%29%20%5Ctimes%20%5Cfrac%20%7B%5Cpartial%20loss%28a%2C%20b%29%7D%20%7B%5Cpartial%20b%7D%20%5Ctimes%20%5CDelta%0A)

对于上面的求 $ SSR $ 的函数来说,可以用下面的公式计算偏导数:

77.相关和回归 - 图11%20%3D%20%5Cfrac%20%7B1%7D%20%7BN%7D%20%5Csum%7Bi%3D1%7D%5E%7BN%7D(y_i%20-%20(ax_i%20%2B%20b))%5E2%20%20%5C%5C%0A%5Cfrac%20%7B%5Cpartial%20%7Bf(a%2C%20b)%7D%7D%20%7B%5Cpartial%20%7Ba%7D%7D%20%3D%20%5Cfrac%20%7B2%7D%20%7BN%7D%20%5Csum%7Bi%3D1%7D%5E%7BN%7D(-xiy_i%20%2B%20x_i%5E2a%20%2B%20x_ib)%20%5C%5C%0A%5Cfrac%20%7B%5Cpartial%20%7Bf(a%2C%20b)%7D%7D%20%7B%5Cpartial%20%7Bb%7D%7D%20%3D%20%5Cfrac%20%7B2%7D%20%7BN%7D%20%5Csum%7Bi%3D1%7D%5E%7BN%7D(-yi%20%2B%20x_ia%20%2B%20b)%0A#card=math&code=f%28a%2C%20b%29%20%3D%20%5Cfrac%20%7B1%7D%20%7BN%7D%20%5Csum%7Bi%3D1%7D%5E%7BN%7D%28yi%20-%20%28ax_i%20%2B%20b%29%29%5E2%20%20%5C%5C%0A%5Cfrac%20%7B%5Cpartial%20%7Bf%28a%2C%20b%29%7D%7D%20%7B%5Cpartial%20%7Ba%7D%7D%20%3D%20%5Cfrac%20%7B2%7D%20%7BN%7D%20%5Csum%7Bi%3D1%7D%5E%7BN%7D%28-xiy_i%20%2B%20x_i%5E2a%20%2B%20x_ib%29%20%5C%5C%0A%5Cfrac%20%7B%5Cpartial%20%7Bf%28a%2C%20b%29%7D%7D%20%7B%5Cpartial%20%7Bb%7D%7D%20%3D%20%5Cfrac%20%7B2%7D%20%7BN%7D%20%5Csum%7Bi%3D1%7D%5E%7BN%7D%28-y_i%20%2B%20x_ia%20%2B%20b%29%0A)

上面的方法称为梯度下降法

在Excel中,可以使用“数据分析”模块的“”来实现线性回归。

77.相关和回归 - 图12

对于回归分析,最为重要的是评价回归的结果是否理想,这关系到能否通过回归方程去预测将来,我们先看看决定系数(Multiple R-Squared,通常称之为$ R^2 77.相关和回归 - 图13 R^2 $ 的值越接近1越好。

77.相关和回归 - 图14%5E2%20%5C%5C%0ASS%7Bres%7D%20%3D%20%5Csum%7Bi%7D(y%7Bi%7D%20-%20%5Chat%20%7By_i%7D)%5E2%20%5C%5C%0AR%5E2%20%3D%201%20-%20%5Cfrac%20%7BSS%7Bres%7D%7D%20%7BSS%7Btot%7D%7D%0A#card=math&code=SS%7Btot%7D%20%3D%20%5Csum%7Bi%7D%28y%7Bi%7D%20-%20%5Cbar%20%7By%7D%29%5E2%20%5C%5C%0ASS%7Bres%7D%20%3D%20%5Csum%7Bi%7D%28y%7Bi%7D%20-%20%5Chat%20%7By_i%7D%29%5E2%20%5C%5C%0AR%5E2%20%3D%201%20-%20%5Cfrac%20%7BSS%7Bres%7D%7D%20%7BSS_%7Btot%7D%7D%0A)

77.相关和回归 - 图15

接下来我们还要对回归方程的显著性进行检验,主要包括 t 检验(回归系数的检验)和F检验(回归方程的检验)。对于F检验(F-statistic)的结果,主要关注其 p-value ,如果 p-value 小于0.05,那么说明拟合效果是不错的。