1.1 描述统计学 (Excel描述统计)
分类型数据:频数统计,频数百分比;柱形图
数值型数据:统计度量
平均数(均值):average
中位数:median
平均数>中位数,说明存在大值;否则,相反
众数:mode
1.2 分位数:quartile(数据区域,1/2/3)
十分位数:rank 函数排序,数据总个数/10
1.3 方差:var.p(描述数据离散程度)
开平方:sqrt
标准差:stdev.p
方差与标准差结合,可以判断数值的范围;波动性太大,说明数据有异常
1.4 权重统计
z-score 标准化(零-均值规范化):经过处理的数据的均值为0,标准差为1。
(核心:把量纲去除掉,把数据压缩在一个范围,这个范围根据平均值进行上下波动,呈现了数据的波动性)
新数据=(原数据-均值)/标准差
z = (x - u) / s
其中 z 是新值,x 是原始值,u 是平均值,s 是标准差。
weekday、weeknum、数据透视表(简单趋势分析:开始—条件格式—数据条)
权重预估
总结:数据标准化,可以将两组不能直接对比的数据,转化成可以进行对比的数据,且分析的会更加细致;
数据标准化,还可以对数据所呈现的趋势,进行更清晰明了的观测。
1.5 切比雪夫定理(异常值推断)
用来估算;数据越多,结果越收敛,估算越准确
所有数据中,至少有75%的数据位于均值±2个标准差范围内。
所有数据中,至少有89%的数据位于均值±3个标准差范围内。
所有数据中,至少有96%的数据位于均值±5个标准差范围内。
点击量是渠道曝光率的3%-6%
根据切比雪夫定理,这个值有一定可能(15%概率)是异常的
