数据统计陷阱

数据分析、数据应用、统计学、幸存者偏差、辛普森悖论、基本比率谬误、伯克森悖论、罗杰斯现象、赌徒谬误、虚假因果关系、彩票悖论、无票入场者悖论、生日悖论、麦克纳马拉谬误

幸存者偏差

  1. 幸存者偏差讲的目光聚焦于“幸存下来”的群体具备的某些特征,但是忽略了“未幸存下来”的群体是否也是具备相同的特征。这里“幸存”的概念,其实更合理的说法应该是“筛选”。
  2. 在二战中统计学家沃德教授曾收到美国军方邀请,为降低飞机被击落的概率提出建议。经过观察发现机翼是被击中最多的地方,而机尾被击中概率比较小。当时军方的指挥官认为应该加强机翼的防御,但是沃德教授的结论是要加强机尾的防御。原因在于样本仅统计了返航的飞机,机翼被集中多次依然能够返航说明机翼并非是致命的地方。机尾被打中的飞机,会导致引擎受损而无法返航。

辛普森悖论

  1. 辛普森悖论指的是,当对比AB两个群体的数据,并将数据拆分成多个维度时,A组在各个维度下的表现均好于B,整体A组的表现却并不一定好于B
  2. “校长,不好了,有很多男生在校门口抗议,他们说今年研究所女生录取率42%是男生21%的两倍,我们学校遴选学生有性别歧视”,校长满脸疑惑的问秘书:“我不是特别交代,今年要尽量提升男生录取率以免落人口实吗?”
  3. 秘书赶紧回答说:“确实有交代下去,我刚刚也查过,的确是有注意到,今年商学院录取率是男性75%,女性只有49%;而法学院录取率是男性10%,女性为5%。二个学院都是男生录取率比较高,校长这是我作的调查报告。”
学院 女生申请 女生录取 女生录取率 男生申请 男生录取 男生录取率 合计申请 合计录取 合计录取率
商学院 100 49 49% 20 15 75% 120 64 53.3%
法学院 20 1 5% 100 10 10% 120 11 9.2%
总计 120 50 42% 120 25 21% 240 75 31.3%
  1. “秘书,你知道为什么个别录取率男皆大于女,但是总体录取率男却远小于女吗?”
  2. 此例这就是统计上著名的辛普森悖论(Simpson's Paradox)

基本比率谬误

  1. 基本比率谬误是指对统计学上的忽略基本比率而导致的推论谬误。
  2. 王宏去医院作验血实验,检查他患上了X疾病的可能性,其结果居然为阳性,把他吓了一大跳,赶忙到网上查询。网上的资料说,实验总是有误差的,这种实验有“百分之一的假阳性率和百分之一的假阴性率”。这句话的意思是说,在得病的人中做实验,有1%的人是假阳性,99%的人是真阳性。而在未得病的人中做实验,有1%的人是假阴性,99%的人是真阴性。于是,王宏根据这种解释,估计他自己得了X疾病的可能性(即概率)为99%。王宏想,既然只有百分之一的假阳性率,那么,百分之九十九都是真阳性,那我已被感染X病的概率便应该是99%。
  3. 可是,医生却告诉他,他被感染的概率只有0.09左右。这是怎么回事呢?王宏的思路误区在哪里?
  4. 医生说:“百分之九十九?哪有那么大的感染几率啊。99%是测试的准确性,不是你得病的概率。你忘了一件事:这种X疾病的正常比例是不大的,1000个人中只有一个人有X病。”
  5. 医生的计算方法是这样的:因为测试的误报率是1%,1000个人将有10个被报为“假阳性”,而根据X病在人口中的比例(1/1000=0.1%),真阳性只有1个。所以,大约11个测试为阳性的人中只有一个是真阳性(有病)的,因此,王宏被感染的几率是大约1/11,即0.09(9%)。
  6. 王宏想来想去仍感糊涂,但这件事激发了王宏去重温他之前学过的概率论。经过反复阅读,再思考琢磨医生的算法之后,他明白了自己是犯了那种叫做“基本比率谬误”的错误,即忘记使用“X病在人口中的基本比例(1/1000)这个事实。

伯克森悖论

  1. 伯克森悖论,指的是两个本来无关的变量之间体现出貌似强烈的相关关系。
  2. 假设某学校在招收学生时,要求学生要么学习成绩好,要么体育成绩好。
  3. 所有的报考学生需要参加两门考试:文化,和体育。最后,学校仅录取在任一考试中考到90分以上的报考学生。
  4. 所以能够被学校录取的学生,要么在文化考试中考到90分以上,或者在体育考试中考到90分以上,或者在两门考试中都考到90分以上。
  5. 现在如果我们分析这些被入取学生的成绩分布,会发现一个学生的学习成绩,和体育成绩是负相关的。因为那些体育成绩最好的学生(比如体育100分),他们的文化平均分为50分(假设他们的文化考试呈现正态分布)。而体育成绩最差的学生(比如体育成绩10分),其文化平均成绩为95分(因为只有超过90分的学生才被录取)。
  6. 因此,分析人员可能会得出结论:体育越好,文化成绩越差。文化成绩越好,体育越差。但这个结论显然是错误的。

罗杰斯现象

    罗杰斯现象,又称Will Rogers悖论,是指将某些事物从一个组移到另一个组,两组的平均值增大,虽然其中没有值变大。



    假设有6个人,分别为40、50、60、70、80、和90岁。现在将他们分为两组。第一组包括40岁和50岁的两人,因此组平均年龄为45岁。剩下的归入第二组,因此组平均年龄为75岁。现在把第二组中的那位60岁的哥们,移去第一组。移过去以后,第一组的平均年龄变为50岁,而第二组的平均年龄变为80岁。两组的平均年龄都上升了。



    前列腺特异抗原测试(PSA测试)可以帮助我们诊断前列腺癌。在没有发明这项测试前,很多人患了前列腺癌却不自知,因此他们被归入“健康”人群。而那些被确诊前列腺癌的患者,被归入“患者”人群。有了PSA测试这项技术以后,很多人在年纪轻轻时也能通过该测试确诊自己是否患上前列腺癌。这部分人,就被移出“健康”人群,归入“患者”人群。



    由于这个归类的变化,导致患上前列腺癌的“患者”人群,以及“健康”人群的平均寿命都得到了提高。因为“健康”人群中被移去一部分癌症患者,而这些癌症患者属于“轻度病患”(前列腺癌的致死率很低),因此“健康”和“患者”两个人群的寿命平均值均得到了提升,让人误以为PSA测试能够帮助我们延长寿命。

赌徒谬误

    赌徒谬误(Gambler’s Fallacy)亦称为蒙地卡罗谬误,是一种错误的信念,以为随机序列中一个事件发生的机会率与之前发生的事件有关,即其发生的机会率会随着之前没有发生该事件的次数而上升。如重复抛一个公平硬币,而连续多次抛出反面朝上,赌徒可能错误地认为,下一次抛出正面的机会会较大

统计关系$ \neq $因果关系

彩票悖论

    首先根据假设检验,如果原假设概率非常小,就可以拒绝原假设。假设0.0001就是一个非常小的概率,组织一次公正的10000张彩票抽奖活动,按照之前的假设,1号彩票中奖的概率是0.0001,是要拒绝的,依次类推,我们可以拒绝所有的彩票,那么就没有彩票可中奖,但现实情况是总会有中奖的彩票,这是统计和逻辑不相符的一个例子。

无票入场者悖论

    假设在一个有1000个座位的音乐厅举办一场音乐会,主办单位只售出了499张票,但当音乐会开始的时候,1000个坐席却都坐满了,这时主办单位有权向每个人收票钱,因为每个人无票入场的概率都是50.1%,这样音乐厅虽然只有1000个座位,却将会有1499张门票的收入,但实际情况并非如此。

生日悖论

    生日悖论(Birthday paradox)是指,如果一个房间里有23个或23个以上的人,那么至少有两个人的生日相同的概率要大于50%。这就意味着在一个典型的标准小学班级(30人)中,存在两人生日相同的可能性更高。对于60或者更多的人,这种概率要大于99%。从引起逻辑矛盾的角度来说生日悖论并不是一种悖论,从这个数学事实与一般直觉相抵触的意义上,它才称得上是一个悖论。大多数人会认为,23人中有2人生日相同的概率应该远远小于50%。  

    计算与此相关的概率被称为生日问题,在这个问题之后的数学理论已被用于设计著名的密码攻击方法:生日攻击。

麦克纳马拉谬误

    麦克纳马拉谬误以美国前国防部部长罗伯特·麦克纳马拉的名字命名,在越南战争期间,他的有关决定基于那些很容易获得的定量度量,而忽略其他定量度量。这导致他将个体计数(容易获得的指标)作为成功的唯一指标,而以其他所有定量指标为代价。



    不用花很多脑力,你就会发现,简单的个体计数很可能使你在评估战场表现时误入歧途。举一个简单的例子,也许敌人正以不成比例的战斗人员进入你的领土,并控制领土,但阵亡人数比己方略多。另外,也许敌人囚禁你的战士的比例高于你杀死敌人的比例,等等。



    增加统计盲点并把所有信任放在一个简单的度量上,不足以全面了解越南正在发生的事情,也无法全面了解你所做的事情。

参考

[1] https://mp.weixin.qq.com/s/vEQDXOOKs16jyBMlREEUxA

[2] https://blog.csdn.net/weixin_41961559/article/details/106091494

[3] https://xw.qq.com/cmsid/20191206A0BKGP00?f=newdc

[4] https://baijiahao.baidu.com/s?id=1647986143057020810&wfr=spider&for=pc