浅析现阶段高通量测序中的拼接问题论文
摘要:近年来,随着第二代测序技术的普及和第三代测序技术的逐步发展,高通量测序技术在实际研究中的应用越来越广泛。高速率、高性价比是其主要优点。相对于传统的桑格(Sanger)法测序来言,高通量测序得到的片段长度较为短小,故如何拼接得到完整的序列一直是炙手可热的研究方向。本文总结了现阶段高通量测序中拼接问题的研究结果,针对现在流行的各种算法进行了简单介绍。
关键词:高通量测序;reads 拼接;contigs 组装;OLC、De brujin 图
一、测序技术的发展过程和现状[1]
(一)桑格法
桑格法又叫做双脱氧链终止法,由Sanger在1977年提出。通过加入带有放射标记的dd NTP(双脱氧核苷酸)使DNA合成终止。再通过电泳,并使用放射自显影技术读出碱基。此方法得到的片段较长,能达到1000bp左右。
(二)第二代测序技术
随着科学技术的发展,传统的桑格法已经不能满足研究的需要。科学家们需要更快的速度、更高的通量以及更低廉的价格,于是第二代测序技术应运而生。其核心思想是边合成边测序。现在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三个平台。第二代测序是现阶段测序技术的主流,也是高通量测序的开始。
(三)第三代测序技术
第三代测序技术是指单分子测序技术。不需要经过PCR的过程即可测序,速度可以达到每秒十个碱基。通量更大,读长更短,是现阶段测序技术的发展方向。
二、高通量测序中的拼接工作
(一)高通量测序所得片段的特点
高通量测序之后所得到的序列片段称为reads(读取),其主要特点两点。一是长度短,一般在200bp以 下,最长的454平台能达到的长度也不过1000bp,因此需要进行 大量的拼接才能得到整条DNA序列。二是有部分重叠,由于测序位置具有随机性,故各reads总会有一定的重叠,这些重叠是拼接工作的关键。
(二)拼接过程
整个拼接过程分为两步。第一步,考察reads的重复序列,并拼接成更长的片段,称为contigs(重叠群),这一步称为reads的拼接;第二步,确定contigs之间的顺序关系,并按此排列,形成称为scaffolds的序列,这一步叫做contigs的组装。
三、Reads的`拼接
(一)拼接过程的难点
reads拼接过程中要克服的难点主 要有两点,一是高通量测序得到的reads长度较短,故内含信息较少,不易确认相对顺序。二是远程连接信息(Long-range linking information)的不可靠性。 2这两点制约着reads拼接过程的准确率。
(二)方法[3]
reads拼接过程中算法的基本要求是de novo(从头测序),即不需要任何序列信息即可对原料进行测序。由此衍生出两种主流的算法:
OLC,即交叠-排列-共有序列算法(Overlap-layout-consensus),是一个比较传统的算法,其基本思想为根据reads间的重复部分,确定可能性的reads连接顺序。
其步骤为:构建交叠图:对每两个reads进行比对,计算它们的重叠度---排列reads:将reads进行排列,确定它们之间的相对位置,建立overlap图---生成共有序列:通过多序列比对等方法,确立最后的contig.
OLC算法的计算量主要体现在交叠图的构建,而高通量测序得到的海量短序列有大量的交叠,往往需要大量的运算时间。故OLC算法并不适合现在高通量测序的发展趋势。现在某些拼接软件,如Shorty、CABOG等仍在使用基于此的算法。虽然这些软件针对OLC算法有一定的改进和优化,但其拼接速度和准确性仍受到限制。
brujin图
基于De brujin图(DBG)的算法是现在最流行的算法,许多常用的拼接软件如Velvet、ABy SS等都在使用这种算法。其特点为把基因序列的拼接问题转化为了数学上的图论问题,大大提高了拼接效率。
(1)基本思想
reads中 连 续 的k个 碱 基 称 为k -mer,作 为DBG的节点,两个k-mer如 果在同一read中 相邻,则形成一条边。故每个read都会对一些边加权,最后形成一个含有节点、有权值的边的DBG,由此生成最佳的contig.
(2)步骤
筛选reads:对reads进行检测,去除掉可能错误的reads---确定k值:k的值直接影响速度和精度。 K值较大时,精度有所提高,但更容易受覆盖率的影响。故应该根据覆盖率、reads长度等确定合适的k值---处 理DBG:根 据 确 定 的k值,做 出DBG,同时完成化简和修正---根据DBG,拼接成contig.
(3)优缺点
DBG算法在处理海量短reads的时候效果优秀,与现在测序技术的发展趋势相匹配。然而,由于k-mer的长度较短,此方法受重复序列、测序错误的影响较大。
(三)不同拼接软件的效果差异
不同的拼接软件在reads拼接过程中表现为三点:一是比起软件来说,reads质量对拼接结果影响更大;二是与标准序列的接近度随reads和拼接软件的不同有很大改变;三是各软件拼接的正确率差别很大,但与接近度的结果不一致。
四、Contigs的组装
与reads的拼接相比,contigs的组装的难度相对较小。这是因为contigs的长度较reads长很多,所含信息较多。故可以较为准确的组装成scaffold
(一)组装过程的难点[4]
Contigs组 装 过 程 中 的 难 点 主 要 有 二。一 是contigs中 含有大量的重复序列,不易确定contigs之间的相对顺序;二是由于contigs由reads拼接而成,其中不 免 会 有 一 些 错 误,这 些 错 误 也 会 对contigs的组装产生干扰。
(二)方法
Contigs组 装的方法较reads拼 接而言较多,一般常用的有图论法和光学图谱法(Optical mapping)两种。
1.图论法[5]
图论法是比较传统的方法,与reads拼接有相似的地方。它以contigs作为节点,由相连的读取对(Linking reads pair)作为边,由此形成算图。
其一般步骤为:库的构建:构建出含有所有reads的 库---计算相连读取对之 间的距离,并由此计算gap的长度---把长度放在边上,作为算图的数据。
其理想的输出结果是一条scaffold序列,对应一条染色体,包含以正确顺序排 列 的contigs和contigs之间gap的长度。
2.光学图谱法[6]
光学图谱法是一种较为新颖的方法。通过内切酶将DNA切断,此时DNA的片段的谱表现出一种特殊的指纹或是识别码的性质。利用光学方法追踪此信息得到相对位置,由此组装成正确的scaffold.
主要步骤为:将contigs放 置 在 光 学 图 谱上---修正光学图谱---做出contigs的连接图,由此决定最佳的contigs连接顺序。
光学图谱法的组装结果有着很高的覆盖率,巧妙运用光学图谱法可以获得很高的成本效益。
有研究表明,当与454平台获得的实验结果相结合的时候,光学图谱法可以迅速、价廉的得到排列好的定向的contigs组,由此可以产生一个将近完整的基因组。
(三)发展方向
Contigs组装过程的关键点 在于如何得到正确的连接顺序。现阶段此方面研究多集中在这一方向。
五、前景与展望
随着生物学研究向微观、向基因领域逐步延伸,高通量测序作为获得基因序列的主要方法,越来越受到重视,拼接技术也在不断发展。高通量测序的基因片段会变得海量且短小,应对此变化,拼接技术也会由确定“唯一的基因序列”向确定“最可能的基因序列”完成转变。因此,新一代的拼接技术会在准确率、覆盖率和速度上,作出超于现在拼接技术的改进。
参考文献:
[1]Anderson MW, Schrijver I. Next Generation DNASequencing and the Future of Genomic Medicine.?;1(1):38-69. doi:.
[2]Salzberg SL, Phillippy AM, Zimin A, et al. GAGE: Acritical evaluation of genome assemblies and Research. 2012;22 (3):557 -567. doi:.
[3]Deng X, Naccache SN, Ng T, et al. An ensemble strategythat significantly improves de novo assembly of microbialgenomes from metagenomic next -generation Acids Research. 2015;43 (7):e46. doi:.
[4]Latreille P, Norton S, Goldman BS, et al. Opticalmapping as a routine tool for bacterial genome Genomics. 2007;8:321. doi: -2164-8-321.
[5]Hunt M, Newbold C, Berriman M, Otto TD. Acomprehensive evaluation of assembly scaffolding Biology. 2014;15 (3):R42. doi: -2014 -15-3-r42.
[6]Nagarajan N, Read TD, Pop M. Scaffolding andvalidation of bacterial genome assemblies using opticalrestriction . 2008;24 (10):1229 .