第二讲 统计学模型.pdf
本文大纲 2.1 统计学模型—回归模型 - 图1

1. 什么是回归?

回归的定义

研究某个或某些因素能够对目标造成多大程度的影响,也就是求影响因子。

回归分析与相关性分析的关系

  • 研究回归分析前,先要研究相关性分析。
  • 先要知道影响因素有哪些,才能判断其影响程度。
  • 先定性分析(相关性分析),再定量分析(回归性分析)。

2. 什么是相关性分析

定义:研究事物与事物(数据)之间相互关系、因果关系的分析方法。

image.png
美国新建住房与房价的关系图
(具有相关性)
image.png
每年芝士消费量与被床单缠住而死的人数关系图
(具有伪相关性)

3. 避免伪相关,先定性


案例1-相关性分析:员工宿舍入住率与销量有关系么?

image.png

案例1:员工宿舍入住率与销量有关系吗?
image.png

相关性分析:
从折线图来看,员工宿舍入住率与销量增减性是相近的,所以假设二者具有相关性

  • 第一步:拆解 2.1 统计学模型—回归模型 - 图6通过拆解,我们并未发现销量与员工宿舍入住率之间的直接关系

  • 第二步:ABtest

按照单一变量法,找2个或多个极端数据,要求除了“员工宿舍入住率”以外的其他因素,都尽可能一致。对应的图表如下,可以看出员工入住率与销量并无线性关系。

image.png
综上可知:员工入住率与销量是伪相关。


案例2-回归分析:公司应该将资金资金放到哪个渠道上,能够有效提高产品销量?

影响销量的相关因素包括: 2.1 统计学模型—回归模型 - 图8以下是几种因素的对应数据

销量 客单价 库存 广告投入 产品种类 网站流量
54731 194 834 1634 3 30452
53724 196 792 1037 3 36241
59352 186 803 1967 3 32104
50217 200 753 1532 3 29654
51473 193 764 1632 3 30264
56032 184 767 1777 4 31298
60324 179 769 1865 3 33654
58674 183 799 1324 4 30236
55724 190 785 1332 5 34536
62356 175 815 2012 4 35557
66789 170 825 2333 4 36475
63547 186 772 2165 4 33675
70657 169 802 2501 5 35999
74871 106 823 2536 5 36021
57834 188 761 1935 4 30657
49367 256 764 1877 5 29547
36987 293 759 1659 4 28365
50324 206 754 1847 4 30674
61354 186 772 2310 5 30547
69741 164 796 2687 5 33954
67894 169 799 2361 5 33425

对相关因素进行回归性分析

  • 第一步:确定X、Y
    • Y:销量,也就是因变量,在数据分析中是指业务指标或者核心需求。
    • X:自变量,在数据分析中是指用来解释业务指标的因子。
    • 二者的关系如图:多个自变量共同影响着因变量。 2.1 统计学模型—回归模型 - 图9
  • 第二步:建立回归模型

为了找到X与Y之间的变量关系,可以通过建立回归模型来实现,使用Excel的回归功能,得到如下结果:
image.png

    1. 回归分析
      • Multiple R**x和y的相关系数R,一般在-1~1之间,绝对值越靠近1则相关性越强,越靠近0则相关性越弱;**
      • R square:x和y的相关系数R的平方,表达自变量x解释因变量y变差的程度,以测定量y的拟合效果;
      • Adjusted R Square:调整后的R square,说明自变量能说明因变量百分比,和R square的区别在于,通常一元回归的时候看R square项多,而多元回归时候看Adjusted R Square项多;
    1. 方差分析
      • SS:表示均值偏差的平方和和数据的总变化量。
      • Significance F:为显著性水平上的F阈值,用来检验回归方程是否显著,即F检验的P值,表示放弃的概率。
        • P < 0.05 为有统计学差异
        • P < 0.01 为有显著统计学差异
        • P < 0.001为有极其显著的统计学差异
      • DF表示自由度,自由度是在计算某一测量系统时不受限制的变量数。
      • MS代表均方,其值等于对应的SS除以DF。
      • t Stat:T检验中统计量t值,用于对模型参数的检验。
      • Value P:是指系数的显著性检验度,越小越好。

解读上述回归分析结果:

  • 相关性:R和R的平方都大于0.9,说明拟合程度比较理想。
  • 方差分析:显著性F的值小于0.001,说明具有极其显著的统计学差异,至少有1个因子是显著影响销量的。
  • 先找到P值小于0.05的影响因子,即X客单价X广告投入X网站流量;再对比T值的绝对值,X1的T值的绝对值最大,说明接单价对销量的影响最大。
  • 回归方程:Y=-138客单价+34库存+6广告投入+1227产品种类+0.6*网站流量