祖先重建(或特征映射)是指从个体或种群的测量特征推断其共同祖先的特征,它是系统发育、个体、种群或物种与祖先进化关系的重建和研究的重要应用。 在演化生物学的研究中,祖先重建可以用来重建数百万年前生活的生物的不同类型的祖先特征状态。这些状态包括 遗传序列 (祖先序列重建)、 蛋白质的氨基酸序列 、 基因组组成 、 生物表型 以及 祖先种群或物种的地理范围 (祖先范围重建)。由于现代遗传序列本质上是古代序列的变异,因此进入古代序列可能会发现其他变异和可能由这些序列产生的生物体。除了遗传序列外,生物学家可能会试图追踪一个性状到另一个性状的演化历史,例如,鳍向四肢的转变。
祖先重建常常依赖于一个足够真实的演化统计模型来准确地推断祖先状态,这些模型利用 已经通过系统发育等方法获得的遗传信息 来确定演化历史以及发生演化事件的时间。然而,无论模型多么接近实际的演化历史,准确重建祖先状态的能力都会随着该祖先与其后代之间的演化时间的增加而减弱。 祖先重建的方法主要有三种:最大简约法(maximum parsimony)、最大似然法(maximum likelihood)以及贝叶斯法(bayesian)。 其中,最大简约法认为所有演化事件的可能性相同;而最大似然法认为某些类别演化事件具有不同的可能性;贝叶斯推断则将事件的条件概率与系统发育树的可能性以及与该发育树相关联的不确定性的数量联系起来。
最大简约法主要提供快速和简单的方法来推断祖先的状态,然而,由于演化过程过于简单化(例如,没有考虑分支长度和演化时间),简约法的准确性有限。最大似然法是基于性状演化的概率模型。在各种条件下,利用理论论证和模拟研究,最大似然方法的性能优于简约法。 仿真结果表明,由于考虑了进化时间和分支长度,即使是最简单的模型也能产生比简约更精确的结果,并且对系统发育的不确定性具有稳健性。 贝叶斯方法是利用马尔科夫链蒙特卡洛方法(MCMC)来推断祖先特征状态、系统发育树和模型参数的联合后验分布,这涉及到描述序列演化的复杂概率模型、分子钟、人口统计学以及研究特征的演化。 由于贝叶斯方法具有丰富的选择性以及灵活性而备受欢迎,例如著名的系统发育分析软件BEAST。 然而,MCMC具有较高的计算成本,对于大数据集,无法实现所有树、参数和性状分布的联合推理。
许多模型已经发展起来用以估计从现生后代到祖先的离散和连续型性状的演变。这些模型假设一个性状通过时间的演化可以被建模为一个随机过程。
a. 连续型性状(如,体重、脑重等) 连续型性状演化模型被用来理解许多有趣的演化现象,包括:性状演化的速率,性状演化的模式,这些性状如何随着时间或谱系之间的变化以及理解导致这种变化的生物和非生物因素。
布朗运动模型(Brownian Motion models),最简单的连续性状演化模型假定性状在布朗运动模型下演化。在此模型下,沿分支预期的性状变化量为零,性状变化的方差与时间和速率参数成正比。它可以估算某性状整体的演化速率、检测演化速度随时间的变化、检测不同谱系进化速率的变化、检测与状态相关的演化速率以及检测性状相关性演化(如,性状X与性状Y在演化中是否具有相关性)。 Ornstein-Uhlenbeck 模型主要估计演化最优值以及演化最优的变化检测。
b. 离散型性状(如,花的颜色、形状) 对于这种性状,通常是马尔科夫链模型(Markov chain)-马尔可夫链是描述一系列可能事件的随机模型,其中每个事件的概率仅取决于在前一事件中达到的状态,在连续时间内,它被称为马尔可夫过程。
有许多软件包可以执行祖先状态重建,一般来说,这些软件包是通过相关领域的科学家的努力开发和维护的,并在免费软件许可下发布。下表展示了一些比较经典的软件工具:
最近有两款软件分别发布于MBE期刊( PastML )与BMC evolutionary biology期刊( pastview ),网页版的优点就是使用方便、容易出图。一般只需要准备一颗系统发育树以及对应的性状矩阵文件,即可快速完成祖先状态的重建。
在上述中,我已经列举了许多软件,接下来主要是选择R包 phytools 来进行演示如何重构祖先状态。
参考文献: