伯克松悖论 是医学统计中的一种 偏差 。当不同个体被纳入研究样本的机会不同时,研究样本中的两个变量 X 和 Y 表现出统计相关,而总体中 X 和 Y 却不存在这种 相关性 。这一现象便是伯克松悖论。
伯克森悖论 是美国医生和统计学家约瑟夫·伯克森在 1946 年提出的一个问题。他研究了一个医院中患有糖尿病的病人和患有胆囊炎的病人,结果发现患有糖尿病的人群中,同时患胆囊炎人数较少;而没有糖尿病的人群中,患胆囊炎的人数比例较高。这似乎说明患有糖尿病可以保护病人不受到胆囊炎的折磨,但是从医学上讲无法证明糖尿病能对胆囊炎起到任何保护作用。他将这个研究写成了论文《用四格表分析医院数据的局限性》 [1] ,并发表在杂志《生物学公报》上,这个问题就称为 伯克森悖论 。
伯克森悖论产生的最主要原因是:文章中统计的患者都是医院的病人,从而忽略了那些没有住院的人。
幸存者偏差指的是当取得资讯的渠道,仅来自于幸存者时,此资讯可能会与实际情况存在偏差。
幸存者偏差,是由优胜劣汰之后自然选择出的一个道理:未幸存者已无法发声。 [1] 人们只看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息 [2] 。
与幸存者偏差类似,数据的筛选还导致 “ 伯克松悖论 ”,以及电话民调偏差等。
1941年, 第二次世界大战 中,美国哥伦比亚大学统计学沃德教授(Abraham Wald)应军方要求,利用其在统计方面的专业知识来提供关于《飞机应该如何加强防护,才能降低被炮火击落的几率》的相关建议。沃德教授针对联军的轰炸机遭受攻击后返回营地的轰炸机数据,进行研究后发现:机翼是最容易被击中的位置,机尾则是最少被击中的位置。沃德教授的结论是“我们应该强化机尾的防护”,而军方指挥官认为“应该加强机翼的防护,因为这是最容易被击中的位置”。
沃德教授坚持认为: (1)统计的样本,只涵盖平安返回的轰炸机; (2)被多次击中机翼的轰炸机,似乎还是能够安全返航; (3)并非是机尾不易被击中,而是因为机尾被击中的飞机早已无法返航,寥寥几架返航的飞机都依赖相同的救命稻草— 引擎尚好。 军方采用了教授的建议,并且后来证实该决策是正确的,看不见的弹痕却最致命。 这个故事被后人用一个词语概括——幸存者偏差