第二讲 统计学模型.pdf
本文大纲
1. 什么是回归?
回归的定义
研究某个或某些因素能够对目标造成多大程度的影响,也就是求影响因子。
回归分析与相关性分析的关系
- 研究回归分析前,先要研究相关性分析。
- 先要知道影响因素有哪些,才能判断其影响程度。
- 先定性分析(相关性分析),再定量分析(回归性分析)。
2. 什么是相关性分析
定义:研究事物与事物(数据)之间相互关系、因果关系的分析方法。
![]() 美国新建住房与房价的关系图 (具有相关性) |
![]() 每年芝士消费量与被床单缠住而死的人数关系图 (具有伪相关性) |
---|---|
3. 避免伪相关,先定性
案例1-相关性分析:员工宿舍入住率与销量有关系么?
![]() |
案例1:员工宿舍入住率与销量有关系吗? ![]() |
---|---|
相关性分析:
从折线图来看,员工宿舍入住率与销量增减性是相近的,所以假设二者具有相关性
第一步:拆解
通过拆解,我们并未发现销量与员工宿舍入住率之间的直接关系
第二步:ABtest
按照单一变量法,找2个或多个极端数据,要求除了“员工宿舍入住率”以外的其他因素,都尽可能一致。对应的图表如下,可以看出员工入住率与销量并无线性关系。
综上可知:员工入住率与销量是伪相关。
案例2-回归分析:公司应该将资金资金放到哪个渠道上,能够有效提高产品销量?
影响销量的相关因素包括:
以下是几种因素的对应数据
销量 | 客单价 | 库存 | 广告投入 | 产品种类 | 网站流量 |
---|---|---|---|---|---|
54731 | 194 | 834 | 1634 | 3 | 30452 |
53724 | 196 | 792 | 1037 | 3 | 36241 |
59352 | 186 | 803 | 1967 | 3 | 32104 |
50217 | 200 | 753 | 1532 | 3 | 29654 |
51473 | 193 | 764 | 1632 | 3 | 30264 |
56032 | 184 | 767 | 1777 | 4 | 31298 |
60324 | 179 | 769 | 1865 | 3 | 33654 |
58674 | 183 | 799 | 1324 | 4 | 30236 |
55724 | 190 | 785 | 1332 | 5 | 34536 |
62356 | 175 | 815 | 2012 | 4 | 35557 |
66789 | 170 | 825 | 2333 | 4 | 36475 |
63547 | 186 | 772 | 2165 | 4 | 33675 |
70657 | 169 | 802 | 2501 | 5 | 35999 |
74871 | 106 | 823 | 2536 | 5 | 36021 |
57834 | 188 | 761 | 1935 | 4 | 30657 |
49367 | 256 | 764 | 1877 | 5 | 29547 |
36987 | 293 | 759 | 1659 | 4 | 28365 |
50324 | 206 | 754 | 1847 | 4 | 30674 |
61354 | 186 | 772 | 2310 | 5 | 30547 |
69741 | 164 | 796 | 2687 | 5 | 33954 |
67894 | 169 | 799 | 2361 | 5 | 33425 |
对相关因素进行回归性分析
- 第一步:确定X、Y
- Y:销量,也就是因变量,在数据分析中是指业务指标或者核心需求。
- X:自变量,在数据分析中是指用来解释业务指标的因子。
- 二者的关系如图:多个自变量共同影响着因变量。
- 第二步:建立回归模型
为了找到X与Y之间的变量关系,可以通过建立回归模型来实现,使用Excel的回归功能,得到如下结果:
- 回归分析
- Multiple R**:x和y的相关系数R,一般在-1~1之间,绝对值越靠近1则相关性越强,越靠近0则相关性越弱;**
- R square:x和y的相关系数R的平方,表达自变量x解释因变量y变差的程度,以测定量y的拟合效果;
- Adjusted R Square:调整后的R square,说明自变量能说明因变量百分比,和R square的区别在于,通常一元回归的时候看R square项多,而多元回归时候看Adjusted R Square项多;
- 回归分析
- 方差分析
- SS:表示均值偏差的平方和和数据的总变化量。
- Significance F:为显著性水平上的F阈值,用来检验回归方程是否显著,即F检验的P值,表示放弃的概率。
- P < 0.05 为有统计学差异
- P < 0.01 为有显著统计学差异
- P < 0.001为有极其显著的统计学差异
- DF表示自由度,自由度是在计算某一测量系统时不受限制的变量数。
- MS代表均方,其值等于对应的SS除以DF。
- t Stat:T检验中统计量t值,用于对模型参数的检验。
- Value P:是指系数的显著性检验度,越小越好。
- 方差分析
解读上述回归分析结果:
- 相关性:R和R的平方都大于0.9,说明拟合程度比较理想。
- 方差分析:显著性F的值小于0.001,说明具有极其显著的统计学差异,至少有1个因子是显著影响销量的。
- 先找到P值小于0.05的影响因子,即X客单价X广告投入X网站流量;再对比T值的绝对值,X1的T值的绝对值最大,说明接单价对销量的影响最大。
- 回归方程:Y=-138客单价+34库存+6广告投入+1227产品种类+0.6*网站流量