辛普森悖论 - Simpson's Paradox

Posted by Yi on December 2, 2019

辛普森悖论

在数据分析过程中,我们通常根据数据本身产生结论,然而我们需要格外小心,以免掉入统计分析的陷阱,得到与事实相悖的结论。辛普森悖论阐述了一种将数据综合考虑而产生的谬误。

加州大学伯克利分校的性别偏差

有人对加州大学伯克利分校的研究生录取情况做调查。研究期间,加州大学伯克利分校共得到$8,442$男性学生与$4,321$名女性学生的入学申请,但仅有$44\%$的男性学生与$35\%$的女性学生得到批准。从数据上看,男生的录取率高于女生,因此我们容易得到结论:加州大学伯克利分校具有性别歧视,学校更倾向招收男学生。

实际上,学校的招生工作由各个专业独立进行。如果大学的招生确实存在性别歧视,我们单独地观察每个专业,我们就可以找出“性别歧视”的“罪魁祸首”。然而,我们在逐个审视每个专业录取情况时,奇怪的事情出现了:在对每个专业独立考察时,并没有发现男女的性别偏差,即男生与女生的录取比率基本一致!到底是哪里出现了问题呢?

下表显示了伯克利分校其中6个较大专业的录取情况。

Men Women
Major Number of applications Percent admitted Number of applications Percent admitted
A 825 62% 108 82%
B 560 63% 25 68%
C 325 37% 593 34%
D 417 33% 375 35%
E 191 28% 393 24%
F 373 6% 341 7%

这种现象似乎与之前得到的结论产生了矛盾,但仔细观察男女申请各专业的人数与录取比例,我们或许能够发现一些端倪。不难发现,大多男生申请的是录取率高的AB专业,而女生倾向于申请录取率低的CDEF专业,所以总体来看,男生显得更容易被录取。在此案例中,专业的选择为隐含变量,学生的性别决定了专业的选择的分布不同,而专业的选择决定了录取比率,录取比率与性别却没有直接关系。

小明求医

小明同学生病了,想去看医生,但他希望自己得到更好的治疗,因此他收集了两家医院的数据,A医院就诊的康复率为$90\%$,而B医院的康复率为$70\%$。那么小明是否应该就诊A医院呢?

细心的你一定发现,如果单纯根据总体康复率来决定医院,很容易掉入数据的陷阱。A医院很可能治疗大部分患者为普通的感冒,而就诊于B医院的患者大部分为疑难杂症,因此很容易得到A医院具有较高的康复率,所以单就康复率而言并不能得出A医院较好的结论,因此小明需要搜集更多的信息来判断了。

造成这种错误的根本原因在于,相加的个体本身就存在不同,就像3个苹果加4个香蕉是否大于2个苹果加5个香蕉,这个问题本身就没有意义。在加州大学伯克利分校的性别偏差例子中,各个学院的入学难度不一,因此不应以相同的权重进行相加。在小明的例子中,他将所有的患病案例放在一起考虑,而忽略了病症不同所带来的治愈难度的不同。

这些案例告诉我们,简单地分析总体情况看似正确,但在许多情况下并没有实际意义,盲目地轻信数据甚至会产生与实际情况相反的结论。因此在作出结论之前,我们需要细心地发现所研究变量的潜在影响因素,在科研、生活与决策中避免产生这类错误。

参考文献: Freedman D, Pisani R, Purves R.Statistics, 4th Edition.[M]. 2007.