历时22年,研究人员终于从头到尾破译了完整的人类基因组序列。
钛媒体App4月1日消息,据科技日报,全球顶级期刊《Science》(科学)杂志今天凌晨连发6篇论文报告,公布了人类基因组测序的最新进展:国家人类基因组研究中心(NHGRI)组成的端粒到端粒 (T2T) 联盟科学团队,通过新的技术研究出全球第一个完整的、无间隙的人类基因组序列,首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异。
这是对标准人类参考基因组,即2013年发布的参考基因组序列(GRCh38)的“重大升级”,增加了之前整条染色体上隐藏的DNA片段,破译了缺失的大约2亿个DNA碱基对以及2000多个新基因——占人类基因组的8%。
这篇研究成果意义重大。科研人员揭示的完整人类基因组序列,是世界上最复杂的谜题之一,这一研究使得人类第一次看到最完整的、无间隙的DNA碱基基因序列,对于人类了解基因组变异的全谱,以及某些疾病的遗传贡献至关重要,将会推动与癌症、出生缺陷和衰老相关的研究与科学发展。
同时,这也是《Science》创刊141年来,首次在同一期杂志中连发6篇论文揭示人类基因组研究。
本论文作者,圣路易斯华盛顿大学医学院遗传学家Ting Wang(音译:王庭)表示,此次拥有完整的基因组,一定会改善生物医学研究。“毫无疑问,这是一项重要的成就。”
据中国科学报,人类基因组计划参与者、中国科学院北京基因组研究所研究员于军表示,假如把人类基因组序列比作一辆非常复杂的汽车,那么与20年前完成的人类基因组草图相比,完整的新序列非常于增添了更多零件。
“我们看到了以前从未阅读过的章节,”本论文通讯作者,华盛顿大学霍华德-休斯医学研究所(HHMI)研究员Evan Eichler(艾希勒)表示,这是全行业的一件大事。
Science封面图研究人员到底破译了什么?人类基因组由超过60亿个独立的DNA碱基、大约2-3万个蛋白质编码基因(整个基因仍未有统一答案)组成,与黑猩猩等其他灵长类动物的数量差不多,分布在23对染色体上。为了读取数以万计的基因组,科学家们首先将所有的DNA链切成几百到几千个单位长度的DNA片段。然后用测序机器读取每个片段中的各个碱基,科学家们试图按照正确的顺序组装这些片段,就像拼凑一个复杂的拼图。
2001年2月12日,由6国科学家共同参与的国际人类基因组计划首次公布人类基因组图谱及初步分析结果;2003年4月15日,公布了人类基因组序列草图。
然而,由于技术限制,当初的人类基因组计划留下了大约8%的“空白”间隙。这部分很难被测序,由高度重复、复杂的DNA块组成,其中包含功能基因以及位于染色体中间和末端的着丝粒和端粒。
实际上,核心的挑战在于,基因组的某些区域反复重复相同的碱基。重复的区域包括着丝粒和核糖体DNA等,过去无法按照正确的顺序组装一些被切碎的片段。这就像拥有相同的拼图碎片一样,科学家们不知道哪块碎片在哪里,因此基因组图中留下了很大的空白。
而且大多数细胞包含两个基因组--一个来自父亲,一个来自母亲。当研究人员试图组装所有的片段时,来自父母双方的序列可能混合在一起,掩盖了个体基因组内的实际变异。
如今,研究人员通过新的纳米机器设备与核心技术,实现了新的无间隙版本T2T-CHM13,由亿个碱基对和19969个蛋白质编码基因组成。增加了近2亿个碱基对的新DNA序列,包括99个可能编码蛋白质的基因和其中近2000个需要进一步研究的候选基因。
这些候选基因大多数是失活的,但其中115个仍然可能表达。团队还在人类基因组中发现了大约200万个额外的变异,其中622个出现在与医学相关的基因中。此外,新序列还纠正了GRCh38中的数千个结构错误。
近端着丝粒染色体的显示图样(来源:论文)
具体而言,新序列填补的空白包括人类5条染色体的整个短臂,并覆盖了基因组中一些最复杂的区域。其中包括在重要的染色体结构中及其周围发现的高度重复的DNA序列,如染色体末端的端粒和在细胞分裂过程中协调复制染色体分离的着丝粒。
此外,新序列还揭示了以前未被发现的节段重复,即在基因组中复制的长DNA片段,并揭示了关于着丝粒周围区域的前所未见的细节。这一区域内的变异性可能为人类祖先如何进化提供新证据。
值得一提的是,本研究成果的关键进展,其实是利用了新的技术设备——英国牛津纳米孔技术公司和太平洋生物科学公司制造的快速迭代的基因测序机器。
早在2017年,国家人类基因组研究中心(NHGRI)负责人Adam Phillippy(亚当-菲利皮),以及加州大学圣克鲁兹分校(UCSC)的凯伦-米加意识到,新的纳米孔机器实现了一次准确读取100万个DNA碱基的能力,可以为最终解决基因组难点打开了大门。
大约在同一时间,华盛顿大学霍华德-休斯医学研究所(HHMI)Evan Eichler(艾希勒)领导的科研团队已经证明,使用太平洋生物科学公司的设备技术,可以解决更复杂形式的遗传变异技术。
因此,三人一起创办了端粒到端粒(T2T)联盟,利用全球约100名科学家团队资源,使其加快了研究佳偶。
随后,该团队连续六个月不间断地利用快速迭代的纳米孔基因测序机器,并请来几十位科学家来组装这些基因片段并分析结果。最终利用设备、技术等,实现了长读数测序读数,并将长读测序与牛津纳米孔的数据相结合,准确率超过了99%,填补了全球基因学研究的空白。
一直到2020年夏天,该团队已经拼上了两条染色体。在新冠疫情爆发的期间,团队通过Slack等通讯工具进行远程工作,获得了另外21条染色体,将每个染色体从一端或端粒排序到另一端。而且,科研人员人员还试图组装基因组中最难的区域,即着丝粒中高度重复的DNA序列。
最终,通过长时间的研究与团队合作,该团队成功实现了对每个染色体进行了测序,包含了编码用于制造核糖体的RNA的基因的多个拷贝,总共400个。
2021年6月,这份研究成果首次发表在预印版平台bioRxiv上。经过同行评议等,如今一系列论文登上了《Science》(科学)杂志。
研究人员在会后采访中表示,下一阶段的研究将对不同人的基因组进行测序,以充分掌握人类基因的多样性、作用以及人类与近亲、其它灵长类动物的关系。
年增速超20%,中国百亿基因市场前景广阔
随着生物学技术的不断发展,新的行业层出不穷,本次研究成果所属的中国基因测序行业是一个百亿级市场,拥有广阔的发展前景。
根据千际投行的研究统计数据显示,早在2019年,基因测序所在的全球生物制品行业市场规模就达到了3172亿元,未来五年有望达到万亿级别。其中,2019年中国基因测序行业市场规模约为149亿元,年增速超20%。
近年来,基因测序行业得到迅速发展,吸引了大量资本和企业的进入。从产业上下游来看,基因测序产业链主要包括了上游仪器、中游服务提供商以及下游终端应用三个环节。涉及到的公司包括华大基因、达安基因、药明康德,以及互联网巨头苹果公司、亚马逊、谷歌、微软等。
整个产业看似简单,但上游的基因测序仪及配套试剂是整个产业链壁垒最高的部分,下游终端应用还涉及领域覆盖面非常广,既包括医疗领域的人体基因组、人体微生物基因组以及基础研究领域,还包括非医疗领域的环境治理、石油存储探测、农牧软文种等。
实际上,早在几十年前,医学界就对此有过尝试,将狒狒的心脏移植给了一个罹患先天性心脏病的孩子。如今,通过嵌合的方式,通过基因编辑的方式,甚至是通过合成生物学的方式,实现了猪心脏在人类身上的移植。
华大集团CEO尹烨曾表示,其实,今天人类进入了生命时代,我们关心的则是自身的基因和健康,以此就将去整合物理世界、信息世界和生命世界。
在应用场景不断拓宽,测序能力进一步加强的共同促进作用下,全球基因测序行业市场规模将不断增长,中国基因行业市场规模虽然与全球头部企业差距较大,但是在国内市场中仍然占据较大的优势,未来要想提高国际市场份额,还需进一步加强技术研发,未来发展具有巨大的想象空间。
今天,新的基因组序列研究成果,是科研人员必不可少的第一步,也是实现商业化的重要一步。
Evan Eichler(艾希勒)表示,“现在我们有了一块罗塞塔石碑(注:一块制作于公元前196年的花岗闪长岩石碑,解读出已经失传千余年的埃及象形文之意义与结构),可以在未来研究数十万个其他基因组的完整编译。”