富集分析(Gene Set Enrichment Analysis, GSEA) 的基本思想是,如果一个生物学过程在当前研究中发生异常,则共同发挥功能的基因被选择出来作为与这一过程相关的基因集是大概率事件。分析比较一种生物学状态的研究群体的【过表达差异基因集】在一通路的富集概率相比在总基因集中【随机抽取的同数目基因集】在该通路的富集概率是否有显著差异,如果有显著差异,则认为该通路对于在当前研究群体是具有意义的。
生物学过程(通路)是受基因表达调控的,一条通路中富集的差异表达基因数目越多,这条通路整体的表达紊乱的可能性就越大。通过富集分析可以用来解读一组基因背后所代表的生物学知识,揭示其在细胞内或细胞外扮演了什么样的角色。
超几何分布是统计学中的一种离散分布,它描述了由有限总体中抽出n个样本,成功抽出指定种类的样本的个数。 是生物信息学中常用的一种统计分布模型。基因的富集分析就采用这个模型来检验一组基因出现在某个通路的显著性。
在概率论中,超几何分布是一个在产品检验和随机抽样中应用广泛的 离散概率分布模型 。超几何分布与二项分布均基于 伯努利试验 。
二项分布是建立在有放回抽样的基础上的,也就是 抽出一个样品测量或处理完后再放回去 ,然后抽下一个,所以二项分布每次试验结果的发生概率是不变的(有放回抽样,每次实验相互独立)。但在实际的工作中通常我们很少会这样抽,一般都属于无放回抽样,这时候需要用超几何分布来计算概率。在一般的教课书上都会要求,当总体的容量N不大时,要用超几何分布来计算,如果N很大而n很小,则可以用二项分布来近似计算,也就是可以将无放回抽样近似看出有放回抽样。至于n要小到什么程度,有的书上说n/N小于就可以了,有的书上则要求小于。
总结:二项分布每次试验结果的发生概率是不变的(有放回抽样,每次实验相互独立),而超几何分布试验是在有限总体中进行无放回抽样(总体数量不断减少),所以每次试验结果发生的概率将发生变化( 不放回抽样,每次实验相互影响 )。
① 概率质量函数 (probability mass function,简称PMF):是离散随机变量X在各特定取值上的概率P(x),其总和为1。与概率密度函数f(x)不同,概率质量函数是对离散随机变量定义的,本身就代表该值的概率;而概率- - 密度函数是对连续随机变量定义的,本身不是概率,它在某区间内的积分才是概率。
② 累积分布函数 (cumulative distribution function, 简称CDF):定义为F(x)=P(X≤x),是单调递增的,且满足:F(-∞)=0和F(+∞)=1。对离散分布而言,它是所有小于等于x的值出现的概率之和。
Fisher's test 用来检验一次随机实验的结果是否支持对于某个随机实验的假设。具体如下:随机事件发生的概率小于则认定该事件为小概率事件。一般原则认为在某个假设前提下,一次随机实验的结果不会出现小概率事件。若一次随机实验的结果出现了小概率事件则认定该假设不被支持。
H0: 已知生物学状态下的研究样本的n个过表达差异基因中富集 个A通路基因的事件是随机事件,说明A通路在该生物学状态下的研究样本中未发生紊乱。 H1: A通路在该生物学状态下的研究样本中发生了紊乱。
统计检验的 值( )是在原假设为真的前提下计算的比观察事件更极端事件的发生概率。对应离散分布型中的单尾概率或双尾概率。富集分析计算的是超几何分布型的 右尾概率 。
关于 值计算的理解: 既然我们需要通过在已知生物学状态下的研究样本的 个DEGs中富集了A通路相关基因的数目来检验A通路在该样本中是否发生紊乱。那么在假设 H0 为真的前提下, 事件 (随机在研究样本的基因集中抽取 个基因,其中富集有 个通路A相关基因)应该是大概率事件,事件的发生概率 。所以如果 事件 (随机在研究样本的基因集中抽取 个基因,其中富集有 个通路A相关基因)的发生概率 ,就可以认为在统计假设为真的前提下发生了小概率事件,我们就有理由怀疑假设的真实性,从而拒绝接受该假设。