切比雪夫定理
- 至少有75%的数据,位于平均数2个标准差范围内
- 至少有89%的数据,位于平均数3个标准差范围内
- 至少有96%的数据,位于平均数5个标准差范围内
应用:估算检查异常值
例:
已知:渠道的曝光量、点击量和点击率如下表所示。
问:渠道12的数据是否异常?
渠道ID | 曝光量 | 点击量 | 点击率 |
---|---|---|---|
1 | 20799 | 1040 | 5% |
2 | 16004 | 160 | 1% |
3 | 10929 | 219 | 2% |
4 | 10652 | 426 | 4% |
5 | 9592 | 384 | 4% |
6 | 10778 | 323 | 3% |
7 | 4732 | 189 | 4% |
8 | 13525 | 271 | 2% |
9 | 10549 | 211 | 2% |
10 | 19806 | 594 | 3% |
11 | 15499 | 465 | 3% |
12 | 12346 | 5000 | 40% |
求:
- 点击率的平均值6%,标准差10%
根据切比雪夫定理,求出正常值的范围 | | 波动值 | min | max | | —- | —- | —- | —- | | 2std | 0.208405863 | -15% | 27% | | 3std | 0.312608794 | -25% | 37% | | 5std | 0.521014657 | -46% | 58% |
渠道12的点击率是40%,介于3~5个标准差之间,说明有90%的概率属于异常值。