最近论文吃紧,本来想搞搞群体多样性的,无奈没时间,为了保持上我这个号残余的一点热乎气,今天晚上分享一篇8年前写的旧文,主要讲Fisher检验的,有些不尽如意的地方稍作了一点点修改,措辞、语句、参考文献等等。 大约是2005年冬天,高中同学再写给我的信中说他挂了一科,并且自我安慰道:“不挂科怎么是完美的大学生涯呢?” 我那个时候还暗自庆幸自己,期末考试成绩时常游走于60-70分之间,但还没挂过。 也许是注定要有一个“完美”的大学生涯。 就是第二个学期,即2006年夏天,我终于完美了一把,《生物统计学》挂了。 具体原因不再赘述,反正呢,你要是说是我笨我是肯定不同意的。 通过了那次补考之后,不禁暗自庆幸,终于啊,可恶的“生物统计学“与我,不仅仅是它走它的阳关道,我过我的独木桥,而且两者之间再也不会有任何交集,即独立且互不相容。 然而,上天很会捉弄人,时至今日,我却喜欢上了生物统计学,这其中原因说来话长,这里也不再赘述,总之一句话:”我是爱《生物统计学》的,可是我挂科了,难道非要自绝于社会不可了么?” 深夜的508,何其寂静,没有群蚊肆虐,没有酷暑难当,真想在在整上一个通宵,无奈已经没了本科时代的那种白天考研备战,晚上浸淫世界杯的那种豪情,更无奈的是明天还要上班。 虽然快11点啦,但今天还是打算分享点东西再回窝睡觉。 首先介绍一种离散概率分布——超几何分布:有N个样本,其中m个是不合格的。超几何分布描述了在该N个样本中抽出n个,其中k个是不合格样本的概率: 上式可如此理解: 表示所有在N个样本中抽出n个的方式有多少; 表示在M个样本中抽出k个的方式的总数;剩下来的样本都是及格的,而及格的样本有 个,剩下的抽法便有 种。两者相乘就表示抽出k个是无效的有多少种抽法,而除以抽法总数即 就表示抽出的n个样本中有k个不合格样本的概率 。 1935年的一个实验:伟大的Fisher得知一个女同事能够从口味分辨出下午茶的调制顺序,为了验证女同事是否在吹牛,做了一个有趣的实验:他调制了8杯茶,其中4杯先放牛奶,4杯先放茶,让女同事分辨,分辨的结果如下表: 事实上,根据小学数学知识,在已知了 和 这两个条件以后,b,c,d和n的值也就能求出来了,所以我们只需要计算在 已发生的情况下a=3的概率(事实上选择a,b,c,d都可以得到同样的效果):接著我们可进一步的算出比表格中极端情况( 在此指Fisher的同事猜得更加准确时) 的概率:如果全部推测对,瞎猜得到这种结果的可能是,由于此概率小于,属于小概率事件,而事实是小概率事件她都猜对了,说明她不是瞎猜的。 因此我们可以再计算出P值:女同事如果是瞎猜的,那么她瞎猜得到这种结果的概率为,这个概率依然很高,不属于小概率事件,因此无法推测女同事不是胡乱猜的。 这个跟超几何分布有什么关系呢?哎,公式都一样的,往里代就是啦! 不过区别是,超几何分布是随机地抽取,但是本例的抽取是依据女同事的判断抽取,但一件事情由随机变成了有依据,那就需要利用P值来判断这种依据的可靠性啦。 我们看一个实际的案例: 一般大众的猜测是:大学生节食的比比男生高。因此我们设定的虚无假设为H0:大学生与男生节食的比相同,对假设为Ha:大学生节食的比比男生高。 计算P值。这里我不再说什么,因为P<,所以大学生节食的比比男生高。 步入正题,涉及到基因组学的内容啦! 水稻项目统计了基因A位点变异与水稻是否易感稻瘟病的资料如下: 依上表,易感稻瘟病的样本中野生型似乎远比变异型为高,因此设定零假设为H0:基因型与稻瘟病易感性无关,备择假设为Ha:野生型更易感染稻瘟病。则我们可依上表中的资算出单边的p 值。因为P<,即基因A位点变异是有利突变。 业务线时代的我曾经想过下面几条, Fisher精确检验的应用如下: 1.研究基因型与基因表达的关系:如SNP与其临近的基因表达上调/下调之间的关系 2.研究基因型与表型的关联性:如变异位点与相关性状的关系检验 3.研究表型与表型的关联性:如男性手指的长度与前列腺癌发病率的关系 PS: 本文言语简陋,比较粗糙,但是已尽述我的理解。 这正如上衣半截袖,下面三五七分裤,拖鞋,一身终极杀人王火云邪神的装备,并非华丽的西装革履,——一看就知这是我们信息部的弟兄们的标准配置;也正如linux系统,一切皆为丑陋的命令行,虽然比不上windows那种高帅富的图形界面,但比之丑陋的0,1似乎好看多了。 本为自用笔记,弟兄们如果喜欢,欢迎拍砖探讨。 布莱特杨 2012年5月6日 22:49 备注 2012年5月6日首发于QQ空间 《我爱统计学之Fisher精确检验》 2020年5月18日 发表于e媛微生态 《生物统计学 | Fisher精确检验》