点击查看【bilibili】

切比雪夫定理

  • 至少有75%的数据,位于平均数2个标准差范围内
  • 至少有89%的数据,位于平均数3个标准差范围内
  • 至少有96%的数据,位于平均数5个标准差范围内

应用:估算检查异常值

例:
已知:渠道的曝光量、点击量和点击率如下表所示。
问:渠道12的数据是否异常?

渠道ID 曝光量 点击量 点击率
1 20799 1040 5%
2 16004 160 1%
3 10929 219 2%
4 10652 426 4%
5 9592 384 4%
6 10778 323 3%
7 4732 189 4%
8 13525 271 2%
9 10549 211 2%
10 19806 594 3%
11 15499 465 3%
12 12346 5000 40%

求:

  1. 点击率的平均值6%,标准差10%
  2. 根据切比雪夫定理,求出正常值的范围 | | 波动值 | min | max | | —- | —- | —- | —- | | 2std | 0.208405863 | -15% | 27% | | 3std | 0.312608794 | -25% | 37% | | 5std | 0.521014657 | -46% | 58% |

  3. 渠道12的点击率是40%,介于3~5个标准差之间,说明有90%的概率属于异常值。