辛普森悖论

数据中的误区

从数据发现孕妇或者哮喘病人,得了肺炎的致死率低于普通人。这个是因为孕妇和哮喘病人因为是特殊人群,所以会得到更精心的照顾,在发病的第一时间,可以更及时的得到治疗;而普通人平时不注意,所以发现病情较晚,治疗的也较晚,因为死亡率高。如果由此得出哮喘病人的肺炎致死率低,显然是不对的,如果同样的治疗条件,得了哮喘的肺炎病人,死亡率肯定是要高于普通人的。
任何模型都会学习到这个特征,而如果是可解释模型,我们发现这个违反直觉的情况后,应该删除这个特征,帮助模型校对,仅仅依靠数据,而数据有时候是存在bias的,就会得到错误的结论。