生物信息学我有来头
最好是多收集点生物信息方面的资料,题目可以写生物信息的发展历程,等等
生物信息学毕业论文,如果你有范文的话,格式肯定就不用找了,但是选题就不行,必须要你导师认可了才行,我是在志文网写的,我写的是生物芯片技术中的应用方面的,生物信息学结合的,已经拿到了参考文献还有资料。
这种最基本的东西没必要求论文啊,自己随便写写就好了,用个DNAMAN,随便挑个基因,分分钟搞出来。再者没人会拿这种东西单独去发一篇论文吧?这点东西根本不够资格,只够在某篇论文里的两句话的分量。
生物信息学毕业论文,如果你有范文的话,格式肯定就不用找了,但是选题就不行,必须要你导师认可了才行,我是在志文网写的,我写的是生物芯片技术中的应用方面的,生物信息学结合的,已经拿到了参考文献还有资料。
最好先阅读几篇相应文章和相今似的论文,比如你的课题是油菜,你可以搜有关其他物种如小麦的。根据论文写作步骤制定实验计划。要练习使用一些常用软件,如NCBI,GenBank,在用时最好先下载安装有道词典,因为是英文网站,不容易懂,专业名词也太多!不要怕,万事开头难!好好准备,入了门就好了!
最好是多收集点生物信息方面的资料,题目可以写生物信息的发展历程,等等
【论著与综述区别】您好!不能以生物信息学题目本身确定是否属于论著或综述应当具体看成果本身的内容、形式和出版方式论著通常是一本书,以出版社图书方式出版且主要成果为原创综述论文以期刊或论文集心思发表的一篇文章而已大部分以编著为主(编辑他人成果为主要部分)的应当是教材,而不算论著或专著
这类没有自己生产的bench data的文章通常不太可能发布到最最顶尖的杂志,比如Nature或者Science的主刊。投文章时可以分为四个梯队:第一梯队:Nature Methods, 只要能发上面基本上就保证了关注度和引用,也会有很多人follow的;Genome Research, 很老牌的杂志了,文章的质量都很高,当然了editor大部分文章都是直接拒的。Nature Biotechnology,纯方法的文章很难发上来的,一般都是很大的组既有方法又有实验数据。楼主可参见Clinks和That那篇文章,很多个co-author,做了非常多的测序实验来验证。Nature Genetics,同样,很少有纯方法的文章,除非你在圈内已有很大影响力,比如CADD那篇文章。上面有一大堆做统计和GWAS的人,感觉不太欢迎machine learning的文章。第二梯队:Genome Biology, 比较新的杂志,近几年有一些不错的文章。Nature Communication, 非常新的杂志,基本上每期都会有一些生信类的文章。感觉影响因子在不断上涨,顶着Nature的头衔自然不会缺少好文章。审稿周期非常久,不建议需要短时间内发文章毕业的高年级博士。第三梯队:这一类别的杂志就很多了,Bio informatics曾经是最好的生信杂志,近几年因为文章数量太多灌水严重影响因子有所下降。Nucleic Acid Research也是专业的生信杂志。除了这些,Plod系列的Plod Genetics和Plod Computational Biology也都是接受生信文章的不错的杂志。Human Molecular Biology近几年也开始接受生信文章。第四梯队:如果被之前所有杂志都拒了,那基本上在国际上能够得到认可的杂志也就不多了。Explosion和BMC系列是最后选择了。
生物信息学领域的专门期刊:Bioinformatics是作为生物信息学最重要的专门期刊了。另外还有Briefings in Bioinformatics,这个杂志每年的发稿量少,最近几年IF波动很大,第一年24+,后来到9+次一点的杂志,如BMC Bioinformatics,也是生物信息学的专刊。对于计算向的生物信息学,PLOS Computational Biology是一个很好的期刊。除此之外,Nature Method,也会有生物信息学相关的方法发表。
Bio informatics是作为生物信息学最重要的专门期刊了。2012年度IF= 另外还有Briefings in Bio informatics,这个杂志每年的发稿量少,最近几年IF波动很大,第一年24+,后来到9+,2012年度IF=。 稍次一点的杂志,如BMC Bio informatics,也是生物信息学的专刊。2012年度IF= 对于计算向的生物信息学,PLOS Computational Biology是一个很好的期刊。2012年度IF= 除此之外,Nature Method,也会有生物信息学相关的方法发表。2012年度IF=。PLOS Biology也是很好的杂志,2012年度IF=。PLOS One也会经常有生物信息学文章,但被批灌水太多,算不得牛刊,2012年度IF=。生物信息学相关的文章不一定要发到专门的生物信息学杂志,因为生物信息学作为一个工具,已经融入到很多生物问题的研究中,而不仅仅是一门孤立的学科了。
Bio informatics,很多方法类文章都发在上面,但是影响因子一般。如果有实验和数据分析,大多投到生物相关的杂志,比如genome research, nature genetics, nature等,在method里面涉及一些生信的方法,连带把algorithm放出来,供大家使用。所以,不一定非要发到Bio informatics。以前在Adderley学计算机的,研究字符串比较之类的问题,UNIX下的gnu diff就是他的杰作。后来写了blast,blast的重要性就不多说了,在后来在Celerity把string graph 应用到genome assembly,直接把HGP操翻。虽然现在因为2代测序出现D Bruising占了上风,不过随着3代测序的普及,他的string graph based OLC将再一次统治genome assembly界。
生物信息学我有来头
1,序列比对(Sequence Alignment) 序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的. 2, 蛋白质结构比对和预测 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要. 3, 基因识别,非编码区分析研究. 基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等. 4, 分子进化和比较基因组学 分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现. 5, 序列重叠群(Contigs)装配 根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题. 6, 遗传密码的起源 通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材. 7, 基于结构的药物设计 人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益. 8.生物系统的建模和仿真 随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。 9.生物信息学技术方法的研究 生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。 10, 生物图像 没有血缘关系的人,为什么长得那么像呢? 外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合? 有什么生物学基础?基因是不是相似?我不知道,希望专家解答。 11, 其他 如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.
是的,工科界一直在研究生物信息学的各种应用,有不少论文与生物信息学分析相关。比如,Yan et al. (2018) 提出了一种基于强化学习的方法来构建高性能的结构蛋白聚类算法,Jha et al. (2016) 提出了一种新的统计学习方法来检测基因间的关联网络,Babar et al. (2015) 提出了一种可应用于大规模数据集研究中的新机器学习框架,等等。
一, 生物信息学发展简介生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌()中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用.经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础.正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然.2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮.由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域.生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿.二, 生物信息学的主要研究方向生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点.1,序列比对(Sequence Alignment)序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义[3]:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.2, 蛋白质结构比对和预测基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.3, 基因识别,非编码区分析研究.基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(HiddenMarkov Model)和GENSCAN,Splice Alignment等等.4, 分子进化和比较基因组学分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因Paralogous: 相同种族,不同功能的基因Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.5, 序列重叠群(Contigs)装配根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.6, 遗传密码的起源通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.7, 基于结构的药物设计人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.8, 其他如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.三, 生物信息学与机器学习生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能[5].机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因而,生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.四, 生物信息学的数学问题生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明.1, 统计学的悖论数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖论莫过于均值了,如图1:图1 两组同心圆的数据集图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的.2, 度量空间的假设在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.那么,是否这种前提假设具有普适性呢我们不妨给出一般的描述:假定两个向量为A,B,其中,,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:(1)依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关.然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:(2)上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足(3)时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题.五, 几种统计学习理论在生物信息学中应用的困难生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介绍.支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索的空间.六, 讨论与总结人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这些问题做出探讨和思索.启发式方法:Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.乐观中的隐扰生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在的隐扰呢不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现实.反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢 现在说肯定的话也许为时尚早.综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力.毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列以及相关的内容,我们还有相当长的路要走.(来源 ------[ | 生物信息学研讨组])生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学是一门利用计算机技术研究生物系统之规律的学科。目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学 姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。 原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。
哈拉尔德·楚尔·豪森,德国埃朗根-纽伦堡大学病毒学教授。1936年出生于德国,现任职于德国癌症研究中心。他用了十多年时间终于发现某些类型的HPV就是宫颈癌的病原体,这一发现为开发出宫颈癌疫苗打下了基础。因发现了导致宫颈癌病毒,2008年获得诺贝尔生理学或医学奖获。医学发现哈拉尔德·楚尔·豪森1936年出生于德国,他从德国杜塞尔多夫大学获得了医学博士学位,是德国海德堡癌症研究中心的荣誉教授、前主任和科学主管。哈拉尔德·楚尔·豪森发现,致瘤人类乳头状瘤病毒(HPV)导致宫颈癌,这是妇女第二大多发癌症。他意识到,人类乳头状瘤病毒可能在肿瘤中以一种不活跃的状态存在,所以进行病毒DNA的特定检测应当可以查到这种病毒,他发现致瘤人类乳头状瘤病毒属于一个异种病毒家族,只有一些类型的人类乳头状瘤病毒可以引发癌症,他的发现使人类乳头状瘤病毒感染的自然历史被定性,使人们了解到人类乳头状瘤病毒引发癌瘤的机理,从而研发针对人类乳头状瘤病毒的预防疫苗。哈拉尔德·楚尔·豪森曾花了十年的时间来寻找不同的人类乳头状瘤病毒类型,这一工作由于这种病毒DNA只有部分进入基因组而变得很困难。他在宫颈癌切片发现了新的人类乳头状瘤病毒DNA,随后于1983年发现了可致癌的HPV16型病毒。他1984年从患宫颈癌的病人那里克隆了HPV16和18型病毒。在全世界各地百分之七十的宫颈癌切片中都发现了HPV16和18型病毒。人类乳头状瘤病毒对全球公共健康体系造成了很大的负担,全世界所有的癌症百分之五是因为人们持续感染这一病毒所致。人类乳头状瘤病毒是最常见的性病致病病毒,这影响了人类人口的百分之五十至八十。在已知的100多种人类乳头状瘤病毒,近40种人类乳头状瘤病毒影响生殖道,有15种可引发妇女患宫颈癌的高风险。此外,在子宫、阴茎癌、口腔癌和其它癌症中也都发现了人类乳头状瘤病毒。被证实患宫颈癌的患者可以检到人类人类乳头状瘤病毒,每年有50万妇女患这种癌症。哈拉尔德·楚尔·豪森证实了人类乳头状瘤病毒的新构成,这使人们了解了乳头状瘤病毒导致癌症的机理,影响病毒持续感染和细胞变化的因素。他发现了HPV16和18型病毒,这使科学家最终能够研发出保护人们不受高风险HPV16和18型病毒感染的疫苗,疫苗的保护率超过了95%。疫苗还降低了进行手术的必要性和宫颈癌给全球卫生体系造成的负担。获诺贝尔奖诺贝尔奖是根据A-B-诺贝尔遗嘱所设基金提供的奖项(1969年起由5个奖项增加到6个),每年由4个机构(瑞典3个,挪威1个)颁发。1901年12月10日即诺贝尔逝世5周年时首次颁发。诺贝尔在其遗瞩中规定,该奖应每年授予在物理学、化学、生理学或医学、文学与和平领域内“在前一年中对人类作出最大贡献的人”,瑞典银行在1968年增设一项经济科学奖,1969年第一次颁奖。
中外医学家联合研制出了一项可在两个半小时左右快速筛查宫颈癌的技术。9月22日出版的最新一期英国《柳叶刀—肿瘤学》(The Lancet Oncology)杂志,发表了这项研究成果。 这项名为HPV快速筛查法(careHPV)的技术与现在普遍使用的两种宫颈癌检测法相比,能够更加快速而准确地捕捉到由人乳头状瘤病毒(HPV)导致的宫颈癌及癌前病变。 该研究项目临床试验的负责人、中国医学科学院肿瘤研究所乔友林教授说:“临床检测结果显示,这项技术的假阴性率为10%,假阳性率为16%,接近发达国家和地区普遍使用的杂交捕获二代(HC2)技术,比较令人满意。” 在美国比尔/梅林达?盖茨基金会的资助下,流行病学家乔友林和他的研究团队与美国卫生科技推广研究所(PATH)和德国凯杰公司(QIAGEN)合作,历经5年,研究成功了这项筛查技术。 与目前通常使用的巴氏涂片和液基细胞学技术相比,HPV快速检测技术实验设施简单,操作容易。乔友林说:“乡村卫生员经过基本训练,就能很好地掌握这个技术,而且,可以在没有水电的情况下操作。”他率领研究团队在山西襄垣县和武乡县,采用三种方法——HPV快速筛查法(careHPV),醋酸染色后观察(VIA)法,以及杂交捕获二代技术检测(HC2)法对2388名30-54岁妇女进行了对比检测。 结果表明,HPV快速筛查技术,识别宫颈癌与高度病变的敏感度和特异度,都大大优于醋酸染色后观察法,并与杂交捕获二代技术的检测准确度相差不大。 这项技术在中国应用获得成功,改写了宫颈癌生化检测技术的历史。“它的准确度与杂交捕获二代(HC2)技术相差甚小,但费用却比它少10倍,”乔友林说。 作为一种面向低收入国家和地区的宫颈癌预防的实用方法,HPV快速筛查技术拥有广阔的前景。 HPV病毒几乎在所有子宫颈癌病例中都存在,是引发子宫颈癌的元凶。在妇科恶性肿瘤中,子宫颈癌是仅次于乳腺癌的威胁妇女健康的第二杀手。全球每年大约有47万妇女罹患宫颈癌,中国约有10万,其中70%是农村妇女。著名艺人梅艳芳和李媛媛,都不幸死于这一疾病。 自巴氏涂片1941年问世以来,宫颈癌早期病变检出率增加,全球宫颈癌发病率下降了80%。但是,在发展中国家广泛推行该技术却比较困难。 乔友林说,“首先,它需要建立高标准的细胞学检查系统,以及培养训练有素、能准确阅读巴氏涂片的细胞学技术人员,这两方面所需的费用都相当可观。”另外,巴氏涂片的敏感度并不令人满意,假阴性率约可高达40%。 从理论上讲,液基细胞学加杂交捕获二代的HPV检测技术是最佳检测方法,其假阴性率为2%,假阳率为15%。“唯一的问题是,做一次这样的检测需要花费500多元人民币,即便是对大城市的工薪阶层妇女也太高了。它只适合深圳等高收入城市,”乔友林说。目前,醋酸染色观察法是贫困地区宫颈癌筛查的主要模式。这个检测只需要10元人民币,但效果不尽如人意。他说,“如果妇科医生不熟练,或没有接受良好的培训,肉眼观察的假阴性和假阳性率可以高达40%和20%。” 尽管国际上研究开发的预防宫颈癌的疫苗已在很多国家和地区获准上市,但是,疫苗只能预防70%左右的宫颈癌,而且对已经感染HPV病毒的妇女不起作用。 因此,HPV病毒的检测对防治宫颈癌仍然至关重要。研究出经济、准确、安全、有效的宫颈癌筛查方法也因此成为学术界和国际社会关注的焦点。“如果妇女一生中能做一次,作到早诊早治疗,那么,宫颈癌的发病率和死亡率可望下降三分之一,”美国卫生科技推广研究所的约翰·瑟拉斯(John Sellors)博士说。
【综述】几种用于发现未知病毒核酸序列的技术及其应用翁康生 病毒是引发人类传染性疾病的主要病原体之一, 它们极大地威胁着人类健康。目前还存在人类尚未认知或新出现的病毒, 随时可能严重危害人类健康安全〔1 - 3〕。及早地发现,鉴别未知的或新出现的病毒, 是有效的预防和控制的先决条件之一。因此, 建立、储备、改良、发展、乃至创新应用于发现、鉴别未知或新出现病毒的技术方法是十分必要的。近20 多年来, 常采用传统的微生物学技术方法和现代分子生物学技术方法相结合的途径, 发现和鉴别未知病毒。通过细胞培养的方法分离病毒、电镜观察、用已知病毒的抗血清建立的免疫学方法作排他性检测、用已知病毒核酸序列建立的PCR、杂交等方法, 作特异核酸序列的检测、用分子生物学技术获得未知病毒核酸序列, 查询基因数据库, 检出并确定未知病毒基因组序列, 最终发现鉴别出未知病毒。对于无法用细胞分离培养的未知病毒, 有的采用免疫学与分子生物学技术相结合, 筛选获取病毒特异抗原编码基因的克隆, 进而发现鉴别出该病毒。更多的则是采用相应的分子生物学技术, 从被检样品中发现获取未知病毒的核酸序列,进而发现鉴别未知病毒。无论未知病毒是否可以用细胞培养分离, 最终对其基因组序列的测定分析, 是鉴别和判断的决定性依据之一, 而获取未知病毒的核酸序列是前提条件。从少量样品中, 从高度复杂的宿主细胞核酸物质中, 分离、扩增、获取足够量的无基因序列资料的未知病毒的核酸片段, 供进一步克隆、测序、生物信息学分析, 是用分子生物学技术发现、鉴别未知和新出现病毒的关键之一〔4〕, 也是最终测定分析, 拼接出未知和新出现病毒基因组序列的瓶颈步骤。病毒所携核酸物质有DNA 和RNA 之分, 可采用的技术方法也有所不同, 现将有关技术与其应用作一简介, 以供参考。1 代表性差异分析法代表性差异分析法是为寻找分析两个生物样品复杂的基因组间有何差异而发展建立起来的分子生物学技术方法, 并不断得到演化, 发展和应用。病毒感染宿主细胞后, 与未感染的同类细胞相比, 二者核酸物质间的差异主要在于是否存在病毒核酸。消减去二者核酸间相同序列的背景部分, 扩增、比较、选取余下可能存在差异的部分, 进一步分析以发现未知病毒的核酸序列。病毒的核酸结构各有不同, 可选用相应的代表性差异分析法, 见表1 。111 DNA 代表性差异分析法(DNA Representation differenceanalysis , DNA RDA)此方法是Lisitsyn 等〔5〕利用核酸消减杂交技术〔6〕、PCR 方法和双链DNA 热变性后互补链退火复性的二级动力学原理〔7 - 8〕作者单位:上海市疾病预防控制中心 200336表1 病毒核酸类型与各代表性差异分析法的选用病毒核酸类型DNA RDA c DNA RDA非rRNA 序列6 核苷酸引导c DNA RDAds DNA 线状√ds DNA 环状√ss RNA polyA( + ) √ss RNA polyA( - ) 3 √ds RNA polyA( - ) √ 3 负链ss RNA polyA( - ) 视病毒在宿主细胞的转录机制而定。而建立的。方法中将需分析的样品DNA(Test DNA ,T- DNA) 和对照DNA(Driver DNA ,D - DNA) 设为二组,分别用同一种限制性内切酶酶切处理,并接上5′端去磷酸化的人工接头,补齐接头后,加入与接头序列互补的引物作PCR 扩增。切除扩增产物上的人工接头后,切出的T - DNA 连上第二种人工接头,变性后与过量的变性D - DNA 杂交。通过杂交,消减去T- DNA 中与D - DNA 中同源的核酸序列,而只存在于T - DNA 中的靶序列DNA(Target DNA) 则自我退火复性,其两端连有第二种人工接头。加入与第二种接头互补的引物作PCR ,只有靶序列DNA呈指数扩增,因而得到进一步富集。进过如此重复的几个轮回后,以电泳检测比较T- DNA 和D - DNA ,将T- DNA 中呈现的差异部分作分离,克隆,序列分析。Lisitsyn 等以10μg 人淋巴细胞基因组DNA 作为D - DNA ,在相同的人DNA 中加入相当于单拷贝量的120 pg 腺病毒DNA作T- DNA。以此作为实验模型,用DNA 代表性差异分析法成功的寻找、鉴定出外加入的腺病毒DNA 序列。应用此技术,Chang 等〔9〕在艾滋病相关的卡波西肉瘤(Kaposis Sarcoma) 中发现一段类似人类疱疹病毒的基因, 并由此发现一种新的病毒HPV8。以后人们又以此技术发现鉴定了HPV6、TTV 病毒、黄热病毒样基因组、MDV 等〔10 - 13〕DNA 病毒。112 cDNA 代表性差异分析法(cDNA Representation differenceanalysis , cDNA RDA)Hubank 等〔14〕针对mRNA 所含序列相对简单的特点,提出了cDNA 代表性差异分析法。它的基本原理与DNA RDA 相同,主要不同在于,采用识别4 核苷酸序列的限制性内切酶,它的识别位点在mRNA 反转录成的cDNA 中出现的频率更高,平均酶切片段长度约256 bp ,保证了cDNA 序列群中绝大多数序列,至少被切出一个片段可扩增,供差异分析,分离鉴定。cDNA RDA 技术相对经济,可高效灵敏地用于非常少的起始材料而获得结果〔15〕。具有polyA( + ) - RNA 病毒,其核酸可类似于mRNA 分离纯化,因此可应用此技术。利用cDNA RDA技术,发现鉴定了TiV、MenV ,等〔16 ,17〕RNA 病毒。113 非rRNA 序列6 聚核苷酸引导反转录的cDNA RDA中国预防医学杂志2007 年6 月第8 卷第3 期 Chin Prev Med , June 2007 , Vol18 No13 ·317 ·© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. ( - ) - RNA 病毒,其核酸物质不似于mRNA ,需和宿主细胞总RNA 同时分离,并用随机引物作反转录。因为宿主细胞总RNA 中rRNA 约占80 % ,由于竞争反应、靶序列信号被湮灭等原因,从这样的总RNA 抽提物中,用随机6 聚核苷酸引物引导反转录的cDNA RDA 技术,发现鉴别polyA( - ) - RNA 病毒核酸序列是困难的。Endoh 等〔18〕罗列了6 聚核苷酸所有可能的排列组合,共计4 096 个序列模式,以大鼠18S、518S、28S 等rRNA、微卫星重复序列、SARS - CoV、BI - 3 病毒等的序列数据为模型,筛选出在rRNA 序列中出现频率极低或不出现的6 聚核苷酸序列模式共96 种。将这些序列分别合成并混合后,称之为非rRNA 序列6 聚核苷酸引物。生物信息学分析96 种序列模式在哺乳动物病毒科具代表性的1 791 个病毒基因组序列中出现的频率,数据表明,非rRNA 序列6 核苷酸引物可引导绝大多数病毒的cDNA 合成。分别用非rRNA 序列6 聚核苷酸引物和随机6 核苷酸引物作cDNA 反转录效率、cDNA RDA 试验,结果表明,二类引物对人工合成的RNA (二类引物在其序列中出现的频率相似) 反转录效率几乎相等,而前者对细胞总RNA反转录效率远低于随机引物。用二类引物作cDNA RDA ,检测人工合成的RNA ,前者灵敏度是用随机引物的30 倍。在模拟实验中用非rRNA 序列6 聚核苷酸引物引导反转录,串联cDNARDA 技术,检测鉴别出感染细胞的BI - 3 和SRAS - Cov 核酸序列片段。此方法能从1μg 总RNA 中检测出3 ng 的外来RNA ,其检测灵敏度不及普通的PCR 检测方法,但对于检测鉴别在宿主细胞中复制,但不知其基因序列的poly A( - ) - RNA 病毒而言,也是一个可选择的方法。114 抑制消减杂交cDNA RDA 技术结合消减杂交和PCR 抑制作用〔19〕的技术原理,Diatchenks 等〔20〕等发展出了抑制消减杂交技术( suppressionsubtractive hybridization ,SSH) 。与前两种RDA 技术不同点在于,SSH 技术将内切酶酶切处理的T - cDNA 分为两份,分别接上不同序列的去磷酸化的接头1 和2 ,分别于过量的D - cDNA作第一轮杂交。杂交过程中两组中的单链T - cDNA 浓度趋同,T- cDNA 中的非靶序列单链cDNA 与D - cDNA 中相应序列形成杂交双链而被消减, T - cDNA 中差异表达的单链cDNA被显著富集。合并一轮杂交物,加入过量变性D - cDNA ,作第二轮杂交。合并的二组份一轮杂交物中剩下的趋同化、经消减杂交后的单链T - cDNA 能互补杂交, 可以形成: 原组内T- cDNA 单链间的杂交、T - cDNA 与D - cDNA 单链间的杂交、二组间T- cDNA 单链间的杂交。补齐杂交反应后双链cD2NA 末端,用分别与接头1 和2 的外侧部分序列互补的寡核苷酸为引物,作PCR 扩增。二组份间T- cDNA 互补单链杂交物,因两端分别具有接头1 和2 ,可被指数扩增;T - cDNA 与D -cDNA 杂交物和剩余单链T- cDNA ,因一端具接头序列,被线性扩增;而同组间T- cDNA 杂交物两端具反转重复长序列,因抑制性PCR 效应,在PCR 反应循环中分子内退火形成稳定的“锅柄结构”〔19〕而不被扩增。因此,SSH 技术通过二轮消减杂交和抑制性PCR 特异扩增,使假阳性大大降低,提高了检出低丰度靶mRNA 的灵敏度。Hu 等〔21〕应用SSH 技术,结合反转录酶的模板切换(tem2plate - switching) 功能, 以HCV RNA 阳性血清体外感染的人MOLT- 4 急性淋巴母细胞白血病T 细胞系为模型,通过反转录合成全长cDNA、抑制性消减杂交、消减的cDNA 文库构建、反相斑点杂交筛选,在被筛的96 个克隆里,T- cDNA 探针杂交呈特异阳性的16 克隆中,序列分析后得到4 个插入HCV 序列的克隆。2 非特异多重引导滚环式扩增法乳头瘤病毒、痘病毒等,其基因物质为环状DNA 分子。在事前未知基因序列的情况下,发现和鉴别这类病毒核酸序列还可选择非特异多重引导滚环式扩增法(multiply primed rolling -circle amplification ,RCA) ,扩增、分离、获取其基因片段供进一步分析。自然状况下,环状DNA 经常以滚环方式进行复制。Dean等〔22〕应用随机6 聚核苷酸作引物,加入φ29 DNA 聚合酶,以质粒DNA 和噬菌体DNA 为模型,建立了多重引物引导的滚环式扩增法。φ29 DNA 聚合酶可长距离( > 70 000 nt) 地结合于DNA模板,进行链置换DNA 合成。而随机6 聚核苷酸引物可多位点的与单链环状DNA 互补复性。在φ29 DNA 聚合酶作用下,以随机引物引导,合成与模板互补的DNA 链。当合成链延伸到与模板结合的随机引物5′端时,在φ29 DNA 聚合酶的链置换活性作用下,下游被延伸的随机引物链被“甩”出模板。而上游的延伸链继续在环状模板上复制合成。同时,被从单链环状模板上“甩”出的互补链,又成为新的模板,随机引物与之结合,在φ29 DNA 聚合酶作用下,继续以枝杈的形式进行链延伸和链置换,最后以双链DNA 串联体形式释放。用此法可使1 ng 纯pCU18 环状DNA 模板延展式地扩增至107倍。Rector 等〔23〕以此原理建立了不依赖已知的特定基因序列(非序列依赖性) 的多重引导滚环式扩增环状DNA 病毒基因组方法,并应用其扩增获取了HPV 16 的基因组DNA。在接近实样的试验样品中,由于稀释倍数和环状DNA 分子较大等原因,将HPV 16 基因组DNA 扩增了214 ×104 倍。3 病毒颗粒相关核酸的非序列依赖性PCR 扩增病毒核酸可包裹于病毒外壳内,病毒的蛋白外壳或脂膜对病毒核酸具有保护作用。而病毒颗粒具有不同于细菌或其他真核细胞的理化特性。利用这样的特点Allender 等〔24〕和Stang等〔25〕各自建立了病毒颗粒相关核酸的非序列依赖性PCR 扩增方法(sequence - independent amplification) 。两种方法的共同点在于,依据病毒颗粒小、具一定密度,用0122μm 滤器过滤、或再串上超速密度梯度离心,从样品中分离出病毒颗粒,DNA 酶酶解游离的DNA ,裂解病毒颗粒,抽提获取较纯的病毒颗粒相关核酸。Allender 等〔24〕借鉴RDA 原理,对病毒颗粒相关核酸用限制性内切酶酶切后,作非序列依赖性单引物PCR 扩增( sequence -independent single primer amplification ,SISPA) :将抽提获取的DNA或RNA 分别补齐,合成第二链DNA ,或反转录,合成双链cDNA。限制性内切酶酶切后,酶切片段两端连接一种接头,并以与接头同序列的单一寡核苷酸为引物,作PCR 扩增。扩增产物进一步克隆与序列分析。用此法检验HBV 阳性血清和GBV - B 阳性血清样品,结果在相当于106/ ml 个基因组拷贝浓度的50μl样品中,可重复试验检出相应的病毒基因片段。Stang 等〔25〕则在得到双链DNA 或双链cDNA 后加入k - 随机引物,此种引物5′端含有20 个固定序列的核苷酸,3′端则有·318 · 中国预防医学杂志2007 年6 月第8 卷第3 期 Chin Prev Med , June 2007 , Vol18 No13© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. 核苷酸随机简并序列。与变性模板退火时,6 核苷酸随机简并序列随机地与模板相应序列互补退火,在T4 DNA聚合酶作用下作链延伸。然后在延伸产物中加入k - 随机引物中固定序列部分的20 寡核苷酸作引物,进行PCR 扩增。扩增产物电泳分析、克隆、测序。用此方法检验由实时- PCR 定量,包括病毒颗粒相关核酸及游离核酸在内的病毒基因组拷贝数为109/ ml 的Cox - 3 和MAV - 1 培养物。前者的12 克隆中,9 个克隆插入有肠道病毒的四个不同区域的同源基因片段;而6 个MAV - 1 中分离的克隆内,5 个含有99 % 同源MAV - 1 基因片段。基于病毒颗粒分离纯化、DNase 处理、病毒颗粒相关核酸的非序列依赖性PCR 扩增,获取、鉴定未知病毒的基因片段,尽管灵敏度不够高,但其实验时间较短,步骤相对简单,对于病毒拷贝数高,时间紧急的样品鉴别,是较适宜的一套方法。病毒的种类、结构、特性多种多样,感染病毒后需要检验的样品又各不相同,因此用于发现鉴别未知病毒的核酸序列的技术,也不是固定不变和完全通用的。以上的技术方法各有优缺点和适用范围。而针对扩增获取未知病毒基因组序列片断,这一发现鉴定未知病毒的分子生物学技术的要点或瓶颈,必然还会有新的改进、创新技术出现,将会更快、更灵敏、更简便、更准确的发现鉴别未知病毒。参 考 文 献〔1〕 Drosten C , Gunther S , Preiser W, et al1 Identification of novel corona2virus in patients with severe acute respiratory syndrome1 N Engl J Med ,2003 , 348 : 1967 - 19761〔2〕 ven den Hoogen BG, de Jong JC , Groen J , et al , A newly discoveredhuman pneumovirus isolated from young children with respiratory tractdisease1 Nat Med , 2001 , 7 : 719 - 7241〔3〕 Fouchier RA , Hartwig NG, Bestebroer TM, et al1 A previously unde2scribed coronavirus associated with respiratory disease in human1 ProcNatl Acad Sci U S A , 2004 , 101 : 6212 - 62161〔4〕 Muerhoff AS , Leary TP , Desai SM, et al1 Amplification and subtractionmethods and their application to the discovery at novel human viruses1 JMed Virol , 1997 , 53 : 96 - 1031〔5〕 Lisitsyn N , Lisitsyn N , Wigler M1 Cloning the differences between twocomplex genomes1 Science , 1993 , 259 : 946 - 9511〔6〕 Lamar EE , Palmer E1 Y- encoded1 Species - specific DNA in mice :evidence that the Y chromosome exists in two polymorphic forms in in2bred strains1 Cell , 1984 , 37 : 171 - 1771〔7〕 Wieland I , Bolger G, Asouline G, et al1 A method for differencecloning : geng amplification following subtractive hybridization1 Proc NatlAcad Sci USA , 1990 , 87 : 2720 - 27241〔8〕 Milner JJ , Cecchini E , Doming PD1 A kinetic model for subtractive hy2bridizationg1 Nucleic Acids Res , 1995 , 23 : 176 - 1871〔9〕 Chang Y, Cesarman E , Pessin MS , et al1 Identification of herpesvirus- like DNA sequence in AIDS - Associated Kaposi’s Sarcoma1 Scie2nce , 1994 , 266 : 1865 - 18691〔10〕 Challoner PB , Smith KT , Parker JD , et al1 Plaque - associated expres2sion of human herpesvirus 6 in multiple selerosis1 Proc Natl Acad SciUSA , 1995 , 92 : 7440 - 74441〔11〕 Nishizawa T , Okamoto H , Konishi K, et al1 A novel DNA virus (TTV)associated with elevated transaminase levels in pasttransfusion hepatitisof unknown etiology1 Biochem Biophy Res Commun , 1997 , 24 : 92 -971〔12〕 Simons JN , Pilot - Matios TJ , Leary TP , et al1 Identification of two fla2vivirus - like genomes in the GB hepatitis agent1 Proc Natl Acad SciUSA , 1995 , 92 : 3401 - 34051〔13〕 Endoh D , Cho KO , Tsukamoto K, et al1 Application of representationaldifference analysis to genomic fragments of Mark’s disease virus1 J ClinMicrobiol , 2000 , 38 : 4310 - 43141〔14〕 Hubank M, Schatz DG1 Identifying differences in mRNA - expression byrepresentational difference analysis of cDNA1 Nucleic Acids Res ,1994 , 22 : 5640 - 56481〔15〕 Bowler LD1 Representational difference analysis of cDNA1 Methods MolMed , 2004 , 94 : 49 - 661〔16〕 Chua KB , Wang LF , Lam SK, et al1 Tioman virus , a novel paramyxo2virus isolated fromfruit bats in Malaysia1Virology , 2001 , 283 : 215 -2291〔17〕 Bowden TR , Westenberg M, Wang LF , et al1 Molecular characteriza2tion of Menangle virus , a novel paramyxovirus which infects pigs , frutbats , and humans1 Virology , 2001 , 283 : 358 - 373〔18〕 Endoh D , Mizatanil T , Kirisawa R , et al1 Species - independent detec2tion of RNA virus by representational difference analysis using non - ri2bosomal hexanncleotides for reverse transcription1 Nucleic Acids Res ,2005 , 33 : e651〔19〕 Siebert PD , Chenchik A , Kellogg DE , et al1 An improved PCR methodfor walking in uncloned genomic DNA1 Nucleic Acids Res , 1995 , 23 :1087 - 10881〔20〕 Diatchenko L , Lau YF , Campbell AP1 Suppression subtractive hy2bridization : a method for generating differentially regulated or tissue -specific cDNA probes and libraries1 Proc Natl Acad Sci U S A , 1996 ,93 : 6025 - 60301〔21〕 Hu Y, Hirshfield I1 Rapid approach to identify an unrecognized viral a2gent1 J Virol Methods , 2005 , 127 : 80 - 861〔22〕 Dean FB , Nelson JR , Giesler TL , et al1 Rapid amlification of plasmidand phage DNA using phi 29 DNA polymerase and multiply - primedrolling circle amplificationg1 Genome Res , 2001 , 11 : 1095 - 10991〔23〕 Rector A , Tachezy R , Ranst MV1 A sequence - independent strategyfor detection and cloning of circular DNA virus genomes by using multi2ply primed rolling - circle amplification1 J Virol , 2004 , 78 : 4993 -49981〔24〕 Allander T , Emerson SU , Engle RE , et al1 A virus discovery methodincorporating DNase treatment and its applicationg to the identificationgof two bovine parvovirus species1 Proc Natl Aced Sci USA , 2001 , 98 :11609 - 116141〔25〕 Stang A , Korn K, Wildner O , et al1 Characterization of virus isolates byparticle - associated nucleic acid PCR1 J Clin Microbiol , 2005 , 43 :716 - 7201(收稿日期: 2006 - 05 - 15)中国预防医学杂志2007 年6 月第8 卷第3 期 Chin Prev Med , June 2007 , Vol18 No13 ·319 ·© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved.
.....我也有兴趣知道,不过ls的是通讯嘛,没有详细介绍的。