论文的标准格式模板要包含题目、论文摘要及关键词、目录、引言或序言、正文、结论、参考文献和注释、附录这八个部分的内容。题目应概括整个论文最重要的内容,一般不宜超过20字。论文摘要应当阐述学位论文的主要观点,说明本论文的研究目的、方法、成果及结论,尽可能保留论文的基本信息,关键词需要反映论文主旨。
目录是论文的提纲和每一部分的标题,要将相应的页码标注清楚。引言或序言应该包括论文研究领域的国内外现状,论文要解决的问题及研究工作在经济建设、科技进步和社会发展等方面的理论意义和实用价值。正文是论文的主体,需要内容详实,论证有据。结论要求明确完整,要阐述自己的创造性成果、新见解。
参考文献是期刊时,书写格式为:[编号]、作者、文章题目、期刊名(外文可缩写)、年份、卷号、期数、页码;参考文献是图书时,书写格式为:[编号]、作者、书名、出版单位、年份、版次、页码。注释要按论文中所引用文献或注释编号的顺序列在论文正文之后,参考文献之前,图表或数据必须注明来源和出处。
参考文献
参考文献的规范及其作用,为了反映文章的科学依据、作者尊重他人研究成果的严肃态度以及向读者提供有关信息的出处,正文之后一般应列出参考文献表。引文应以原始文献和第一手资料为原则,
所有引用别人的观点或文字,无论曾否发表,无论是纸质或电子版,都必须注明出处或加以注释,凡转引文献资料,应如实说明。对已有学术成果的介绍、评论、引用和注释,应力求客观、公允、准确,伪注、伪造、篡改文献和数据等,均属学术不端行为。
致谢,一项科研成果或技术创新,往往不是独自一人可以完成的,还需要各方面的人力,财力,物力的支持和帮助。因此,在许多论文的末尾都列有"致谢"。主要对论文完成期间得到的帮助表示感谢,这是学术界谦逊和有礼貌的一种表现。
生物信息学推荐系统设计关键词:推荐系统;生物信息学推荐系统(RecommenderSystem)[1]是个性化信息服务的主要技术之一,它实现的是“信息找人,按需服务”;通过对用户信息需要、兴趣爱好和访问历史等的收集分析,建立用户模型,并将用户模型应用于网上信息的过滤和排序,从而为用户提供感兴趣的资源和信息。生物信息学(Bioinformatics)[2,3]是由生物学、应用数学和计算机科学相互交叉所形成的一门新型学科;其实质是利用信息科学的方法和技术来解决生物学问题。20世纪末生物信息学迅速发展,在信息的数量和质量上都极大地丰富了生物科学的数据资源,而数据资源的急剧膨胀需要寻求一种科学而有力的工具来组织它们,基于生物信息学的二次数据库[4]能比较好地规范生物数据的分类与组织,但是用户无法从大量的生物数据中寻求自己感兴趣的部分(著名的生物信息学网站NCBI(美国国立生物技术信息中心),仅仅是小孢子虫(Microsporidia)的DNA序列就达3399种),因此在生物二次数据库上建立个性化推荐系统,能使用户快速找到自己感兴趣的生物信息。特别是在当前生物信息数据量急剧增长的情况下,生物信息学推荐系统将发挥强大的优势。1推荐系统的工作流程应用在不同领域的推荐系统,其体系结构也不完全相同。一般而言,推荐系统的工作流程[5]如图1所示。(1)信息获取。推荐系统工作的基础是用户信息。用户信息包括用户输入的关键词、项目的有关属性、用户对项目的文本评价或等级评价及用户的行为特征等,所有这些信息均可以作为形成推荐的依据。信息获取有两种类型[6],即显式获取(Explicit)和隐式获取(Implicit),由于用户的很多行为都能暗示用户的喜好,因此隐式获取信息的准确性比显式高一些。(2)信息处理。信息获取阶段所获得的用户信息,一般根据推荐技术的不同对信息进行相应的处理。用户信息的存储格式中用得最多的是基于数值的矩阵格式,最常用的是用m×n维的用户—项目矩阵R来表示,矩阵中的每个元素Rij=第i个用户对第j个项目的评价,可以当做数值处理,矩阵R被称为用户—项目矩阵。(3)个性化推荐。根据形成推荐的方法的不同可以分为三种,即基于规则的系统、基于内容过滤的系统和协同过滤系统。基于规则的推荐系统和基于内容过滤的推荐系统均只能为用户推荐过去喜欢的项目和相似的项目,并不能推荐用户潜在感兴趣的项目。而协同过滤系统能推荐出用户近邻所喜欢的项目,通过用户与近邻之间的“交流”,发现用户潜在的兴趣。因此本文所用的算法是基于协同过滤的推荐算法。(4)推荐结果。显示的任务是把推荐算法生成的推荐显示给用户,完成对用户的推荐。目前最常用的推荐可视化方法是Top-N列表[7],按照从大到小顺序把推荐分值最高的N个事物或者最权威的N条评价以列表的形式显示给用户。2生物信息学推荐系统的设计综合各种推荐技术的性能与优缺点,本文构造的生物信息学推荐系统的总体结构如图2所示。生物信息学推荐系统实现的主要功能是在用户登录生物信息学网站时,所留下的登录信息通过网站传递到推荐算法部分;推荐算法根据该用户的用户名从数据库提取出推荐列表,并返回到网站的用户界面;用户访问的记录返回到数据库,系统定时调用推荐算法,对数据库中用户访问信息的数据进行分析计算,形成推荐列表。本系统采用基于近邻的协同过滤推荐算法,其结构可以进一步细化为如图3所示。算法分为邻居形成和推荐形成两大部分,两部分可以独立进行。这是该推荐系统有别于其他系统的优势之一。由于信息获取后的用户—项目矩阵维数较大,使得系统的可扩展性降低。本系统采用SVD矩阵降维方法,减少用户—项目矩阵的维数,在计算用户相似度时大大降低了运算的次数,提高了推荐算法的效率。(1)信息获取。用户对项目的评价是基于用户对某一个项目(为表示简单,以下提及的项目均指网站上的生物物种)的点击次数来衡量的。当一个用户注册并填写好个人情况以后,系统会自动为该用户创建一个“信息矩阵”,该矩阵保存了所有项目的ID号以及相应的用户评价,保存的格式为:S+编号+用户评价,S用于标记项目,每个项目编号及其评价都以“S”相隔开;编号是唯一的,占5位;用户评价是用户点击该项目的次数,规定其范围是0~100,系统设定当增加到100时不再变化。这样做可防止形成矩阵时矩阵评价相差值过大而使推荐结果不准确。(2)信息处理。信息处理是将所有用户的信息矩阵转换为用户—项目矩阵,使用户信息矩阵数值化,假设系统中有M个用户和N个项目,信息处理的目的就是创建一个M×N的矩阵R,R[I][J]代表用户I对项目J的评价。(3)矩阵处理。协同过滤技术的用户—项目矩阵的数据表述方法所带来的稀疏性严重制约了推荐效果,而且在系统较大的情况下,它既不能精确地产生推荐集,又忽视了数据之间潜在的关系,发现不了用户潜在的兴趣,而且庞大的矩阵增加了计算的复杂度,因此有必要对该矩阵的表述方式做优化,进行矩阵处理。维数简化是一种较好的方法,本文提出的算法应用单值分解(SingularValueDecomposition,SVD)技术[8],对用户—项目矩阵进行维数简化。(4)相似度计算。得到降维以后的用户矩阵US,就可以寻找每个用户的近邻。近邻的确定是通过两个用户的相似度来度量的。本文采用Pearson相关度因子[9]求相似度。(5)计算用户邻居。该方法有两种[10],即基于中心的邻居(Center-BasedNeighbor)和集合邻居(AggregateNeighbor)。本系统采用了第一种方法,直接找出与用户相似度最高的前N个用户作为邻居,邻居个数N由系统设定,比如规定N=5。(6)推荐形成。推荐形成的前提是把当前用户的邻居ID号及其与当前用户的相似度保存到数据库中,而在前面的工作中已找出各用户的邻居以及与用户的相似度,推荐形成部分只需要对当前登录用户进行计算。推荐策略是:对当前用户已经访问过的项目不再进行推荐,推荐的范围是用户没有访问的项目,其目的是推荐用户潜在感兴趣的项目;考虑到系统的项目比较多,用户交互项目的数量很大,所以只筛选出推荐度最大的N个项目,形成Top-N推荐集,设定N=5。3生物信息学推荐系统的实现生物信息学推荐系统的实现可以用图4来表示。数据库部分主要存储用户信息和项目信息,用SQLServer2000实现。数据访问层实现了与用户交互必需的存储过程以及触发器,也使用SQLServer2000,主要完成以下功能:初始化新用户信息矩阵;插入新项目时更新所有用户的信息矩阵;用户点击项目时更新该用户对项目的评价;删除项目时更新所有用户的信息矩阵。用户访问层主要涉及网页与用户的交互和调用数据访问层的存储过程,在这里不做详细的介绍。推荐算法完成整个个性化推荐的任务,用Java实现。(1)数据连接类DataCon。该类完成与SQLServer2000数据库的连接,在连接之前必须要下载三个与SQLServer连接相关的包,即、和。(2)数据操作类DataControl。该类负责推荐算法与数据库的数据交换,静态成员Con调用()获得数据库连接,然后对数据库进行各种操作。把所有方法编写成静态,便于推荐算法中不创建对象就可以直接调用。(3)RecmmendSource与CurrentUserNeighbor。这两个类作为FCRecommand类的内部类,RecmmendSource用于保存当前用户的推荐列表,包括推荐项目号和推荐度;CurrentUserNeighbor用于保存邻居信息,包括邻居ID号、相似度及其访问信息。(4)协同过滤推荐算法FCRecommand。该类实现了整个推荐算法,主要分为邻居形成方法FCArithmetic和推荐形成方法GenerateRecommend。下面给出方法FCArithmetic的关键代码:Matrixuser_item=();//获取用户—项目矩阵user_item=(user_item);//调用SVD降维方法Vectorc_uservector=newVector();//当前用户向量Vectoro_uservector=newVector();//其他用户向量Vectorc_user_correlate_vector=newVector();//当前用户与其他用户之间相似度向量for(inti=0;ifor(intj=0;((i,j));//1.获得当前用户向量for(intk=0;();for(intl=0;((k,l));//2.获得其他用户的向量//3.计算当前用户与其他用户的相似度usercorrelativity=(c_uservector,o_uservector);(usercorrelativity);}//4.根据当前用户与其他用户的相似度,计算其邻居(i,c_user_correlate_vector);}根据邻居形成方法FCArithmetic,可以得到每个用户的邻居。作为测试用例,图6显示用户Jack与系统中一部分用户的相似度,可以看出它与自己的相似度必定最高;并且它与用户Sugx访问了相同的项目,它们之间的相似度也为1,具有极高的相似度。4结束语在传统推荐系统的基础上,结合当前生物信息学网站的特点,提出一个基于生物信息平台的推荐系统,解决了传统生物信息网站平台信息迷茫的缺点,为用户推荐其感兴趣物种的DNA或蛋白质序列。优点在于协同过滤的推荐算法能发现用户潜在的兴趣,能促进生物学家之间的交流;推荐算法的邻居形成与推荐形成两部分可以单独运行,减少了系统的开销。进一步的工作是分析生物数据的特点及生物数据之间的关系,增加用户和项目数量,更好地发挥推荐系统的优势。参考文献:[1]PAULR,[J].CommunicationsoftheACM,1997,40(3):56-58.[2]陈新.生物信息学简介[EB/OL].(2001)..[3]林毅申,林丕源.基于WebServices的生物信息解决方案[J].计算机应用研究,2005,22(6):157-158,164.[4]邢仲璟,林丕源,林毅申.基于Bioperl的生物二次数据库建立及应用[J].计算机系统应用,2004(11):58-60.
fasta 是一种 基于文本 用于表示 核酸序列 或 多肽序列 的格式。其中核酸或氨基酸均以单个字母来表示,且允许在序列前添加序列名及注释。
特征:2部分-- id行 和 序列行 。 > id行以“>”开头, 后跟序列名称&序列描述。有时候会包含注释信息 > 序列行一个字母表示一个 碱基/氨基酸 (A、T、C、G、N (N表示不知道是什么)/20种常见氨基酸)。序列中允许空格,换行,空行,直到下一个“>”,表示该序列结束。
高通量测序(如Illumina NovaSeq等测序平台)得到的原始图像数据文件,经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(Reads)的 序列信息 以及其对应的 测序质量信息 。测序样品中真实数据随机截取结果如下图:
特征: 每4行代表一个reads信息
fastq格式是由fasta (记录id和序列) 和QUAL (记录id和碱基质量) 合并而来。fastq文件第三行往往是个+,其实就是和第一行一样都是id。
第四行碱基质量值 碱基质量值(Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。通常使用的碱基质量值Q公式[1]为: Q=-10 * log10P 。其中P为碱基识别出错的概率。下表给出了碱基质量值与碱基识别出错的概率的对应关系。
碱基质量值越高表明碱基识别越可靠,准确度越高。比如,对于碱基质量值为Q20的碱基识别,100个碱基中有1个会识别出错,以此类推。
碱基质量值+33(前32个不是单个值),查表找到对应ASCII码
fastq与fasta文件转换
GFF,全称为Generic Feature Format,主要用来描述 基因的结构与功能信息 ,对基因组进行注释。记录序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息。现在用得比较多的是第3版,即gff3。gff是一个三级嵌套结构。格式文件为文本文件,分为9列,以TAB分开。控制符使用RFC 3986 Percent-Encoding 编码。比如:%20 代表着ASCII的空格。
gff文件一共有9列:
第九列的详解
GTF全称为gene transfer format,主要是用来对基因进行注释。现在用得比较多的是第2版,即gtf2。gtf文件也是分为9列,前八个字段与GFF相同(有一些小的差别),重点在第九列的不同。
两种文件差异比较:
bam文件和sam文件内容其实是一样的,只是bam是二进制的压缩文件,占内存空间更小。需要通过特定的软件来进行查看。(sam文件可以直接使用 less -S 查看;bam文件使用 samtools view -h | less -S 查看)
SAM(The Sequence Alignment / Map format)格式,即序列比对文件的格式,详细介绍文档:
SAM文件由两部分组成,头部区和主体区,都以tab分列。 头部区 :以’@'开始,体现了比对的一些总体信息。比如比对的SAM格式版本,比对的参考序列,比对使用的软件等。 主体区 :比对结果,每一个比对结果是一行,有11个主列和一个可选列。
头部区:
@HD VN: SO:unsorted (排序类型) 头部区第一行:VN是格式版本;SO表示比对排序的类型,有unknown(default),unsorted,queryname和coordinate几种。samtools软件在进行行排序后不能自动更新bam文件的SO值,而picard却可以。 @SQ SN:contig1 LN:9401 (序列ID及长度) 参考序列名,这些参考序列决定了比对结果sort的顺序,SN是参考序列名;LN是参考序列长度;每个参考序列为一行。 例如:@SQ SN: LN:195471971 @RG ID:sample01 (样品基本信息) Read Group。1个sample的测序结果为1个Read Group;该sample可以有多个library的测序结果,可以利用bwa mem -R 加上去这些信息。 例如:@RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq ID:样品的ID号 SM:样品名 LB:文库名 PU:测序以 PL:测序平台 这些信息可以在形成sam文件时加入,ID是必须要有的后面是否添加看分析要求 @PG ID:bowtie2 PN:bowtie2 VN: (比对所使用的软件及版本) 例如:@PG ID:bwa PN:bwa VN: CL:bwa sampe -a 400 -f -r @RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq …/0_Reference/ …/2_HQData/ …/2_HQData/ 这里的ID是bwa,PN是bwa,VN是版本。CL可以认为是运行程序@RG是上面RG表示的内容,后面是程序内容,这里的@GR内容是可以自己在运行程序是加入的
主体部分介绍:
主体部分有11个主列和1个可选列
FLAG详解: 例如:想要查看FLAG 99是什么意思:samtools flags 99
CIGAR详解 CIGAR string,简要比对信息表达式(Compact Idiosyncratic Gapped AlignmentReport),其以参考序列为基础,使用数字加字母表示比对结果,比如3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,然后打开了一个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的,字母的含义如下
sam/bam文件查看 samtools工具: Samtools常用命令的总结:
参考: sam格式文件解读
生信分析论文写法如下:
这次我们来讲解的这边文献是 2019-10-12 发表的 OTT 杂志上的一篇生信加少量实验验证的文章。实话实说,目前对于生信最最最基本的,如果没有实验验证还是不好发文章的。所以一般都会加一些实验验证的。
这个文章的主要流程是个这样的:这里我们就基于文童的材料方法来说一下具体的内容:公共数据获取:当中关于公共数据获取部分提到了这些东西。使用了 GEO 数据库来进行候选数据筛选。
这 GEO 里面找到了三个芯片,其中描述了这三个芯片的平台。差异表达分析:作者使用了 GEO2R 来进行数据的筛选。富集分析:接着作者对差异表达的基因进行了富集分析,其中包括 GO 分析和 KEGG 分析。
作者使用的富集分析的软件是 DAVID,这个软件我们也吐槽过说,更新不及时,是很好用,所以推荐是 WebSestalt 富集分析软件,或者 clusterprofiler。蛋白相互作用分析:5TCGA 数据库验证再往下作者做的其实是 TCGA 的数据库验证,但是在材料方法里面没写。我们可以在结果当中具体的过程。
对于肿瘤研究,现在如果只是用 GEO 数据集分析,不用 TCGA 再看一下的话,都觉得不好意思,所以一般的肿瘤研究可能都会用到 TCGA 的验证的。其目的也就类似于多加了一个数据集来增加结果准确性。但是对于 TCGA 有些肿瘤正常样本很少。分析的结果可能偏差更大。文章使用的 GEPIA 的数据库。这个数据库对于查询 TCGA 表达结果还是很好用的,简单上手。
核心基因甲基化相关分析:在核心基因选择之后,利用了 TCGA 的甲基化数据MEXPRESS 来查看基因的田基化水平有没有变化。由于版本的更新。现在的这个数据库的 版本的结果会比之前的更加详细一些。
空手套白狼,实现有难度。你要熟悉各种生物的基因组,要分析能力很强才行。
电子文献载体类型标识:
DB/OL—联机网上数据库 DB/MT—磁带数据库 M/CD—光盘图书
CP/DK—磁盘软件 J/OL—网上期刊 EB/OL—网上电子广告
电子文献的著录格式:
[序号]主要责任者.电子文献题名[电子文献类型标识/载体类型标识].电子文献的出处或可获得的地址,发表或更新日期/引用日期(任选)。
NCBI (National Center for Biotechnology Information[1] )是指美国国立生物技术信息中心。理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表DNA化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类。阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。挑战在于发现新的手段去处理这些数据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们遗传之物和其在健康和疾病中角色的理解。
后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了在1988年11月4日建立国立生物技术信息中心(NCBI)的立法。NCBI是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。
NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分析,和结构的预测。目前研究计划的一些代表是:检测和分析基因组织,重复序列形式,蛋白domain和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜索中的序列错误影响的分析,开发新的数据库搜索和多重序列对齐算法,建立非冗余序列数据库,序列相似性的统计显著性评估的数学模型和文本检索的矢量模型。另外,NCBI研究者还坚持推动与NIH内部其他研究所及许多科学院和政府的研究实验室的合作。
生物信息学推荐系统设计关键词:推荐系统;生物信息学推荐系统(RecommenderSystem)[1]是个性化信息服务的主要技术之一,它实现的是“信息找人,按需服务”;通过对用户信息需要、兴趣爱好和访问历史等的收集分析,建立用户模型,并将用户模型应用于网上信息的过滤和排序,从而为用户提供感兴趣的资源和信息。生物信息学(Bioinformatics)[2,3]是由生物学、应用数学和计算机科学相互交叉所形成的一门新型学科;其实质是利用信息科学的方法和技术来解决生物学问题。20世纪末生物信息学迅速发展,在信息的数量和质量上都极大地丰富了生物科学的数据资源,而数据资源的急剧膨胀需要寻求一种科学而有力的工具来组织它们,基于生物信息学的二次数据库[4]能比较好地规范生物数据的分类与组织,但是用户无法从大量的生物数据中寻求自己感兴趣的部分(著名的生物信息学网站NCBI(美国国立生物技术信息中心),仅仅是小孢子虫(Microsporidia)的DNA序列就达3399种),因此在生物二次数据库上建立个性化推荐系统,能使用户快速找到自己感兴趣的生物信息。特别是在当前生物信息数据量急剧增长的情况下,生物信息学推荐系统将发挥强大的优势。1推荐系统的工作流程应用在不同领域的推荐系统,其体系结构也不完全相同。一般而言,推荐系统的工作流程[5]如图1所示。(1)信息获取。推荐系统工作的基础是用户信息。用户信息包括用户输入的关键词、项目的有关属性、用户对项目的文本评价或等级评价及用户的行为特征等,所有这些信息均可以作为形成推荐的依据。信息获取有两种类型[6],即显式获取(Explicit)和隐式获取(Implicit),由于用户的很多行为都能暗示用户的喜好,因此隐式获取信息的准确性比显式高一些。(2)信息处理。信息获取阶段所获得的用户信息,一般根据推荐技术的不同对信息进行相应的处理。用户信息的存储格式中用得最多的是基于数值的矩阵格式,最常用的是用m×n维的用户—项目矩阵R来表示,矩阵中的每个元素Rij=第i个用户对第j个项目的评价,可以当做数值处理,矩阵R被称为用户—项目矩阵。(3)个性化推荐。根据形成推荐的方法的不同可以分为三种,即基于规则的系统、基于内容过滤的系统和协同过滤系统。基于规则的推荐系统和基于内容过滤的推荐系统均只能为用户推荐过去喜欢的项目和相似的项目,并不能推荐用户潜在感兴趣的项目。而协同过滤系统能推荐出用户近邻所喜欢的项目,通过用户与近邻之间的“交流”,发现用户潜在的兴趣。因此本文所用的算法是基于协同过滤的推荐算法。(4)推荐结果。显示的任务是把推荐算法生成的推荐显示给用户,完成对用户的推荐。目前最常用的推荐可视化方法是Top-N列表[7],按照从大到小顺序把推荐分值最高的N个事物或者最权威的N条评价以列表的形式显示给用户。2生物信息学推荐系统的设计综合各种推荐技术的性能与优缺点,本文构造的生物信息学推荐系统的总体结构如图2所示。生物信息学推荐系统实现的主要功能是在用户登录生物信息学网站时,所留下的登录信息通过网站传递到推荐算法部分;推荐算法根据该用户的用户名从数据库提取出推荐列表,并返回到网站的用户界面;用户访问的记录返回到数据库,系统定时调用推荐算法,对数据库中用户访问信息的数据进行分析计算,形成推荐列表。本系统采用基于近邻的协同过滤推荐算法,其结构可以进一步细化为如图3所示。算法分为邻居形成和推荐形成两大部分,两部分可以独立进行。这是该推荐系统有别于其他系统的优势之一。由于信息获取后的用户—项目矩阵维数较大,使得系统的可扩展性降低。本系统采用SVD矩阵降维方法,减少用户—项目矩阵的维数,在计算用户相似度时大大降低了运算的次数,提高了推荐算法的效率。(1)信息获取。用户对项目的评价是基于用户对某一个项目(为表示简单,以下提及的项目均指网站上的生物物种)的点击次数来衡量的。当一个用户注册并填写好个人情况以后,系统会自动为该用户创建一个“信息矩阵”,该矩阵保存了所有项目的ID号以及相应的用户评价,保存的格式为:S+编号+用户评价,S用于标记项目,每个项目编号及其评价都以“S”相隔开;编号是唯一的,占5位;用户评价是用户点击该项目的次数,规定其范围是0~100,系统设定当增加到100时不再变化。这样做可防止形成矩阵时矩阵评价相差值过大而使推荐结果不准确。(2)信息处理。信息处理是将所有用户的信息矩阵转换为用户—项目矩阵,使用户信息矩阵数值化,假设系统中有M个用户和N个项目,信息处理的目的就是创建一个M×N的矩阵R,R[I][J]代表用户I对项目J的评价。(3)矩阵处理。协同过滤技术的用户—项目矩阵的数据表述方法所带来的稀疏性严重制约了推荐效果,而且在系统较大的情况下,它既不能精确地产生推荐集,又忽视了数据之间潜在的关系,发现不了用户潜在的兴趣,而且庞大的矩阵增加了计算的复杂度,因此有必要对该矩阵的表述方式做优化,进行矩阵处理。维数简化是一种较好的方法,本文提出的算法应用单值分解(SingularValueDecomposition,SVD)技术[8],对用户—项目矩阵进行维数简化。(4)相似度计算。得到降维以后的用户矩阵US,就可以寻找每个用户的近邻。近邻的确定是通过两个用户的相似度来度量的。本文采用Pearson相关度因子[9]求相似度。(5)计算用户邻居。该方法有两种[10],即基于中心的邻居(Center-BasedNeighbor)和集合邻居(AggregateNeighbor)。本系统采用了第一种方法,直接找出与用户相似度最高的前N个用户作为邻居,邻居个数N由系统设定,比如规定N=5。(6)推荐形成。推荐形成的前提是把当前用户的邻居ID号及其与当前用户的相似度保存到数据库中,而在前面的工作中已找出各用户的邻居以及与用户的相似度,推荐形成部分只需要对当前登录用户进行计算。推荐策略是:对当前用户已经访问过的项目不再进行推荐,推荐的范围是用户没有访问的项目,其目的是推荐用户潜在感兴趣的项目;考虑到系统的项目比较多,用户交互项目的数量很大,所以只筛选出推荐度最大的N个项目,形成Top-N推荐集,设定N=5。3生物信息学推荐系统的实现生物信息学推荐系统的实现可以用图4来表示。数据库部分主要存储用户信息和项目信息,用SQLServer2000实现。数据访问层实现了与用户交互必需的存储过程以及触发器,也使用SQLServer2000,主要完成以下功能:初始化新用户信息矩阵;插入新项目时更新所有用户的信息矩阵;用户点击项目时更新该用户对项目的评价;删除项目时更新所有用户的信息矩阵。用户访问层主要涉及网页与用户的交互和调用数据访问层的存储过程,在这里不做详细的介绍。推荐算法完成整个个性化推荐的任务,用Java实现。(1)数据连接类DataCon。该类完成与SQLServer2000数据库的连接,在连接之前必须要下载三个与SQLServer连接相关的包,即、和。(2)数据操作类DataControl。该类负责推荐算法与数据库的数据交换,静态成员Con调用()获得数据库连接,然后对数据库进行各种操作。把所有方法编写成静态,便于推荐算法中不创建对象就可以直接调用。(3)RecmmendSource与CurrentUserNeighbor。这两个类作为FCRecommand类的内部类,RecmmendSource用于保存当前用户的推荐列表,包括推荐项目号和推荐度;CurrentUserNeighbor用于保存邻居信息,包括邻居ID号、相似度及其访问信息。(4)协同过滤推荐算法FCRecommand。该类实现了整个推荐算法,主要分为邻居形成方法FCArithmetic和推荐形成方法GenerateRecommend。下面给出方法FCArithmetic的关键代码:Matrixuser_item=();//获取用户—项目矩阵user_item=(user_item);//调用SVD降维方法Vectorc_uservector=newVector();//当前用户向量Vectoro_uservector=newVector();//其他用户向量Vectorc_user_correlate_vector=newVector();//当前用户与其他用户之间相似度向量for(inti=0;ifor(intj=0;((i,j));//1.获得当前用户向量for(intk=0;();for(intl=0;((k,l));//2.获得其他用户的向量//3.计算当前用户与其他用户的相似度usercorrelativity=(c_uservector,o_uservector);(usercorrelativity);}//4.根据当前用户与其他用户的相似度,计算其邻居(i,c_user_correlate_vector);}根据邻居形成方法FCArithmetic,可以得到每个用户的邻居。作为测试用例,图6显示用户Jack与系统中一部分用户的相似度,可以看出它与自己的相似度必定最高;并且它与用户Sugx访问了相同的项目,它们之间的相似度也为1,具有极高的相似度。4结束语在传统推荐系统的基础上,结合当前生物信息学网站的特点,提出一个基于生物信息平台的推荐系统,解决了传统生物信息网站平台信息迷茫的缺点,为用户推荐其感兴趣物种的DNA或蛋白质序列。优点在于协同过滤的推荐算法能发现用户潜在的兴趣,能促进生物学家之间的交流;推荐算法的邻居形成与推荐形成两部分可以单独运行,减少了系统的开销。进一步的工作是分析生物数据的特点及生物数据之间的关系,增加用户和项目数量,更好地发挥推荐系统的优势。参考文献:[1]PAULR,[J].CommunicationsoftheACM,1997,40(3):56-58.[2]陈新.生物信息学简介[EB/OL].(2001)..[3]林毅申,林丕源.基于WebServices的生物信息解决方案[J].计算机应用研究,2005,22(6):157-158,164.[4]邢仲璟,林丕源,林毅申.基于Bioperl的生物二次数据库建立及应用[J].计算机系统应用,2004(11):58-60.
分子生物技术在微生物降解环境 污染物中的应用 [摘要〕介绍了与环境微生物关键降解酶基因的筛选、克隆及应用相关的分r生物技术,包括聚合酶链式反应技 术、基因重组技术、荧光原位杂交技术和生物信息学等技术,并对这些技术在污染物降解基因检测、筛选和克隆方 面的应用进行了阐述与探讨、 [关键词]分子生物技术;微生物;基因;环境污染物;降解 随着现代j:\地技术的发展,多环芳烃、含氯有 机物和硝基苯类化合物等人工合成井难以降解的 污染物大量排放,造成世界范围内的环境污染和生 态破坏,严重地威胁人类和其他生物的正常生存和 发展。利用微生物修复技术对受污染的水体及土 壤进行处理,凸显了其重要的意义和可行性。研究 人员发现并筛选到一些微生物,它们不仅对环境有 较高的适应性、对污染物有较高的耐受性,而且对 污染物有较强的降解效率和专一性。然而环境中 存在的大量微生物中仅有少于1%可通过传统的培 养方法进行培养、分离和纯化,绝大多数细菌需要 非常严格的营养条件川。因此,为了对修复环境有 所贡献却难以培养的微生物进行更全面了解,也为 了筛选到更多有利于降解环境污染物的微生物菌 种及其关键酶基因,分子生物技术和手段逐渐被广 泛应用到环境可降解污染物及降解机理方面的研 究中。 本文对近年来发展起来的聚合酶链式反应 (PCR)技术、基因重组技术、荧光原位杂交(FISH) 技术和生物信息学等多种分子生物技术进行了介 绍,并总结了它们在污染物降解基因检测、筛选和 克隆方面的应用。 1与环境污染物降解相关的分子生 物技术 及其相关技术 PCR是一种利用脱氧核糖核酸(DNA)半保留 复制原理,在体外扩增位于两段已知序列之间的 DNA区段从而得到大量拷贝的分子生物技术。根 据其模板、引物来源或扩增条件的不同,PcR技术 可分为以下几种:(l)反转录pCR(RT一PeR)技 术,将mRNA反转录为cDNA后再对其进行PCR 扩增,可用来构建cDNA文库,分析不同生长时期 的mRNA表达状况和相关性以及mRNA的定量测 定等;(2)巢式PCR技术,在扩增大片段目的DNA 时,先用非特意性引物扩增再用特意性引物对第一 次扩增产物进行第二次扩增,以获得可供分析的 DNA;(3)竞争PCR技术,是一种定量PCR,向PCR 反应体系中加人人工构建的带有突变的竞争模板, 通过控制竞争模板的浓度来确定目的模板的浓度, 对目的模板作定量研究;(4)实时荧光定量PCR技 术,在PCR反应体系中加人荧光基团,利用荧光信 号积累实时监测整个PCR进程,最后通过标准曲线 对未知模板进行定量分析,该法已广泛用于基因表 达研究、转基因研究等方面;(5)扩增的rDNA限制 酶切分析技术,根据原核生物rDNA序列的保守性, 将扩增的rDNA片段进行酶切,通过酶切图谱来分 析菌间的多样性;(6)RNA随机引导PCR技术,基 于任意寡核昔酸引物与RNA之间可能的配对,在 低严谨度条件下经聚合酶催化使链延伸,将细胞总 RNA或InRNA作为反转录反应的模板,此技术结 合单链构象多态性,用非变性胶分辨大小相同而构 象不同的片段,可用于诊断遗传突变及分析污染条 件下序列的多态性;(7)随机扩增多态DNA (RAPD)技术,是一种基于PCR检测PCR引物结合 位点序列改变的方法,通常以10bp的寡核昔酸序 列为引物,对基因组DNA随机扩增,电泳分离染色 扩‘增产物,再分析多态性。 技术 FISH技术利用荧光标记的探针在细胞内与特 异的互补核酸序列杂交,通过激发杂交探针的荧光 来检测信号。荧光探针比放射性探针更安全,具有 较好的分辨力,不需要额外的检测步骤。近年来, 由于FISH技术具有灵敏、便捷等优点,迅速发展完 善成为研究环境微生物的有力工具。此外,可用不 同激发和散射波长的荧光染料标记探针,在一步反 应中同时检测几个靶序列。该技术主要包括试样 固定、预处理、预杂交、探针和试样变性、杂交、漂洗 去除未结合的探针、检测杂交信号等步骤。由于 165rRNA具有遗传稳定性,因此成为FISH技术检 测最常用的靶序列。 基因重组技术 基因重组技术是从供体生物的基因组中通过 酶切扩增等手段获取目的基因,与载体连接形成重 组DNA分子,再导入到受体细胞中,让外源基因得 以表达。在已经分离出的许多菌株中,与降解能力 有关的基因多在质粒体上。由于质粒很容易在细 菌的繁殖过程中遗失,对细菌降解能力的长期稳定 非常不利,可将其与污染物降解有关的酶基因重组 到大肠杆菌等微生物中进行表达,以此构建的各种 生物降解特性增强的重组菌可用于污染环境的治 理修复或发酵某些废弃物。 生物信息学 20世纪后期,生物学的迅猛发展,从数量上和 质量上极大地丰富了基因组数据库、蛋白质数据 库、酶数据库和文献数据库等许多生物科学的数据 资源。已有多个国家和国际科研组织建立了生物 信息数据库,如欧洲分子生物学实验室(Eur叩ean MolecularBiologyLaboratory)核酸序列数据库和美 国国家生物技术情报中心(Nationaleente:fo:Bio- technologyInformation,NCBI)基因序列数据库等。 科学家利用计算机及生物信息分析软件分析这些 数据资源,确定大分子序列、结构、表达模式和生化 途径与生物数据之间的关系,区分生物个体间遗传 差异,揭示DNA多样性。例如,基本局部比对搜索 工具(BasieLoealAlignmentSearehTool,BLAST), 是一套在蛋白质数据库或DNA数据库中进行相似 性比较的分析工具。它基于Altschul等的方法「2〕, 在序列数据库中对查询序列进行同源性比对工作。 BLAST程序可对一条或多条、任何数量、任何形式的 序列在一个或多个核酸或蛋白序列库中进行比对,甚 至将有缺口的比对序列也考虑在内,利用比较结果中 的得分对序列进行相似性说明。基因的序列分析可 揭示出生物物种之间的关系,在污染治理研究中可用 于生物基因组特殊区域或特异基因的测序。 2分子生物技术在环境污染物降解 中的应用 土壤试样总DNA的提取 用适当方法直接从土壤中提取DNA并纯化, 是从分子生物学角度对土壤微生物进行研究的前 提条件,而后可进行酶切、PCR扩增、核酸分子杂交 等分子生物学技术操作。从土壤中提取微生物 DNA主要分为汽接法和间接法}’{。直接法是在 ogram等的方法基础卜发展起来的,其主要包括2 个步骤:(l)原位细胞裂解;(2)DNA提取和纯化。 直接法提取的DNA超过细菌总DNA的60%且省 力,但提取的DNA常常有折断、腐殖酸污染、甚至 提取物中还夹杂有未知的胞外DNA和真核生物的 DNA。最先报道间接法的是Faegri等[‘〕,其主要包 括4个步骤:(l)分散土壤;(2)分离细胞与土壤; (3)细胞裂解;(4)DNA纯化。间接法提取DNA 产量低且费力,但纯度较高、DNA损伤小,提取的 大片段DNA可用来构建cos而d和细菌人工染色体 文库等。 采用PCR及相关技术扩增分析DNA片段 可降解污染物的微生物必然能产生分解代谢 该污染物的酶。selvaratnam等L’l用编码苯酚单加 氧酶dmpN摹因的RT一PCR技术来检测序列间歇 式活性污泥反应器‘{一,降解酚的假单胞菌。检测结 果表明,RT一PCR技术不仅能检测微生物降解酚的 能力,还能测量dmpN基因的转录水平,从而确定假 单胞菌特殊的分解活性,发现了在转录水平下,酚 浓度与通气时间之问存在正相关关系。 将PCR技术和变性梯度凝胶电泳(DGGE)结 合起来,在变性条件适当的情况下能分辨一个碱基 对,分辨率较高。染色后的凝胶用成像系统进行分 析,可在一定程度l几反应试样的复杂性。条带的多 少能反应试样「 一 }1微生物组成的差异,条带的亮度能 反应试样中微生物的多少。基于以上优点,日前该 技术在微生物群落结构的分析和动态研究方面得 到了厂‘泛应用。DGGE可通过分析PCR扩增的基 因点突变来探索微生物的复杂性。徐玉泉等[“〕从 某废水中分离出一株能以苯酚为惟一碳源的菌株 PHEA一2,使用PCR一DGGE技术对该菌165 rDNA进行分析,发现该菌与醋酸钙不动杆菌同源。 M盯sh等r了)利用PcR一DGGE技术获得了活性污泥 中真核微生物的种群变化情况。王峰等下8〕采用 PCR一DGGE技术对城市污水化学生物絮凝处理中 活性污泥和生物膜微生物种群结构进行了分析,结 果表明活性污泥培养前后微生物种群结构发生r 很大改变。 RAPD技术也是一种应用比较广泛的以多态性 引物来扩增某些片段的技术。RAPD技术可用于检 测含有混合微生物种群的各种微生物反应器中微 生物的多样性。用RAPD技术分析检测实验室规 模的油脂淤泥培养料中的细菌菌群发现,用油脂淤 泥改良过的培养料比未改良的更适于不同的微生 物种群生长[9j。vainio等t’。〕从516种孤立的菌落 中提取出165rDNA,经PCR扩增后进行测序,检测 活性污泥中微生物种群的结构。这些组合技术的 应用显著增强r对微生物的检测和鉴定能力,为理 论研究工艺优化及提高生物处理效率提供了条件。 基因重组 基因工程技术应用于环境保护起始于20世纪 80年代。其基本原理是通过基因分离和重组技术, 将目的基因片段,比如可编码降解某种污染物的 酶,转移到受体生物细胞中并表达,使受体生物具 有该目的基因表达显现的特殊性状,从而达到治理 污染的目的。找到特定污染的抗性基因,利用基因 重组技术转基因后也可获得其他抗性植株以及筛 选到可转化污染物的植物,还可开发超量积累植物 进行污染土壤的生物修复。 罗如新等L”〕用放射性同位素标记tfdc基因片 段作探针,Southemblot杂交定位Ll菌株的邻苯二 酚1,2一双加氧酶基因位于Pstl的I片段和BamH I的M、N片段,回收并将其直接克隆至表达载体 pKT230卜,获得的重组子能转化不具开环酶活性 的甲胺磷降解菌P2,得到高于天然宿主21倍的邻 苯二酚1,2一双加氧酶。stingley等{”〕通过构建基 因文库和重组质粒等基因工程方法证实了NidAB 双加氧酶是降解菲的关键酶类,并首次鉴定出此基 因通过磷苯二甲酸实现降解功能。chae等‘”}发现 不能降解苯酚的su如lobusso扣taricu、98/2菌株中 的儿茶酚2,3一双加氧酶基因与能降解苯酚的 sulfolo右u,,o如taricu、咫有[6J源区,分析得知它们 是山共同祖先进化而来。把儿茶酚2,3一双加氧酶 基因克隆到大肠杆菌中表达,可获得有较高降解活 性的双加氧酶。 重金属污染是环境污染的重要方面之一。随 着分子生物学技术的发展,越来越多的修复性蛋白 基因正被从植物、微生物和动物中陆续分离出来, 如汞离子还原酶基因、有机汞裂解酶基因、汞转运 蛋自基因、金属硫蛋白基因、植物络合素合成酶基 因、铁离子还原酶基因和锌转运蛋白基因L’‘〕。这些 基因通过基因工程的改造,重组到合适的受休细胞 中表达相应的蛋白质和酶,达到治理难以降解的有 毒有害污染物的目的。sorsa等〔”〕把MTS插人 LamB序列的153位点,在中表达MTs,解决 r细胞内MTs对金属离子有限的吸附能力。综L 所述,基因重组技术具有快速、高效的特性,已逐渐 成为环境生物技术的研究热点。 技术 FISH技术利用核糖体内长度适中(约1500bp)、 高度保守的165:RNA序列作为理想的基因分类靶 序列,其中使用的165:RNA寡核普酸探针一般是 进行了荧光标记的20bp左右特异性核昔酸片段, 利用该报告分子(如生物素、地高辛)与荧光素标记 的特异亲和素之间的免疫化学反应,经荧光检测系 统对待测DNA进行定性、定量或相对定位分析。 FISH技术能提供处理过程中微生物的数量、空间分 布和原位生理学等信息。 硝化细菌是一类生理上非常特殊的化能自氧 菌,传统的研究方法要经过富集、分离、分类和鉴定 步骤,耗时长。HSH技术的引人解决了上述困难。 FlsH技术还被广泛用于活性污泥系统、硝化流化床 反应器和膜生物反应器等废水处理系统}’61。 基因工程微生物越来越多地被用于农业害虫 控制和环境污染的生物修复,对人类健康和环境的 影响引起广泛关注。1994年出现了一种新的标记 系统:绿色荧光蛋白(GFP),由于GFP基因表达产 物对细胞没有毒害作用,且由GFP产生的荧光标记 检测卜分方便、简单。在某些被污染的环境中可分 离出降解该污染物的细菌,通过基因重组等手段使 用GFP分子标记,可更容易的分离检测被标记的 细胞叫。 Bastes等[’8]进行了苯酚降解菌染色体GFP基 因标记实验。通过PCR和Southemblot分析,证明 GFP基因已成功整合到宿主细胞的染色体中。对 标记菌与野生型的降解能力比较结果证明,GFP分 子标记的插人并不影响细胞的苯酚降解能力。 用G即标记Pseudomonasputida,研究活性淤 泥中细菌存活情况{’9飞。Pseudomonasputida被转到 活性淤泥2min后,观察到细胞在淤泥絮凝物间自 由游动;培养3d后,发现荧光细胞减少,大部分已 被合并到淤泥絮凝物中,以防止细菌被原生动物捕 食。用oFP标记石.eozi和Serraliamarceseern,考 察菌株附到絮凝物卜的过程{’()j。使用表面荧光显 微镜能将带有GFP标记的细胞从活性污泥中区分 开,井进行观察和记数。而聚焦激光扫描显微镜 (cLsM)可使GFP标记细菌产生三维轮廓,结合表 面荧光显微镜和CLSM观察GFP标记细胞,结果表 明,细胞表面疏水性在细菌附到絮凝物的过程中起 重要作用,两种细菌附在絮凝物上的模式有很大不 同,通过这种方法可更好地理解细菌赫附机理,有 助于提高废水处理效果。 3结语 分子生物技术的应用使研究人员可从微观的 角度更细致深人地了解微生物对污染物降解的具 体生理生化机制,在分子水平 _ _ [揭示生物体吸收、 迁移、积累有害物质最终被毒害,及适应、抗性等生 态问题,从而筛选到更多有利用价值的微生物。随 着越来越多微生物全部基因序列的解码,对各种细 菌体内可降解基因的分布和表达会有更深人的了 解,有关技术的发展和成熟必将对污染物的降解过 程有一个整体的、生态水平上的认识。 参考文献 l李凤,刘世贵 . 分子生物学技术在环境微生物研究中的 应用 . 世界科技研究与发展,2003,25(4):88一92 2AltsehulSF,GishW,MillerW, mentsearehtool . JMolBiol,1990,215(3):403一410 3魏志琴,曾秀敏,宋培勇 . 土壤微生物DNA提取方法研 究进展 . 遵义师范学院学报,2006,8(4):53一56 4FaegriA,TorsvikVL,]andfunga] aetivitiesin5011:seParationofbacteriaandfungibyaraPid fraetionatedeentrifugationteehnique5011BiolBioehem, 1977,9(2):105一112 5SelvaratnamS,SehoedelBA,MeFarlandBL,etal APPlieationofreversetranseriPtasePCRformonitoring exPressionoftheeataboliedmPNgeneinaPhenol- degradingsequencingbatehreaetor . APPIEnviron Microbiol,1995,61(11):3981一3985 6徐玉泉,张维,陈明等 . 一株苯酚降解菌的分离和鉴 定 . 环境科学学报,2000,20(4):450一455 7MarshTL,LiuWT,ForneyLJ . Beginningamoleeular analysisoftheeukiU洲aleollllllunityinaetivatedsludge. WaterSeiTechnol,1998,37(4一5):455一460 8王峰,傅以钢,夏四清等.PCR一DGGE技术在城市污 水化学生物絮凝处理中的特点 . 环境科学,2004,25 (6):74一79 9涂书新,韦朝阳 . 我国生物修复技术的现状与展望 . 地 理科学进展,2004,23(6):20一31 10VainioEJ,MoilanenA,KoivulaTT,etal . ComParison ofpartial165rRNAgenesequeneesobtainedfromactiva- tedsludgebaeteria . APPIMierobiolBioteehnol,1997,48 (l):73一79 11罗如新,张素琴,李顺鹏 . 邻苯二酚1,2一双加氧酶
生物信息学毕业论文,如果你有范文的话,格式肯定就不用找了,但是选题就不行,必须要你导师认可了才行,我是在志文网写的,我写的是生物芯片技术中的应用方面的,生物信息学结合的,已经拿到了参考文献还有资料。
最好先阅读几篇相应文章和相今似的论文,比如你的课题是油菜,你可以搜有关其他物种如小麦的。根据论文写作步骤制定实验计划。要练习使用一些常用软件,如NCBI,GenBank,在用时最好先下载安装有道词典,因为是英文网站,不容易懂,专业名词也太多!不要怕,万事开头难!好好准备,入了门就好了!
最好是多收集点生物信息方面的资料,题目可以写生物信息的发展历程,等等
【论著与综述区别】您好!不能以生物信息学题目本身确定是否属于论著或综述应当具体看成果本身的内容、形式和出版方式论著通常是一本书,以出版社图书方式出版且主要成果为原创综述论文以期刊或论文集心思发表的一篇文章而已大部分以编著为主(编辑他人成果为主要部分)的应当是教材,而不算论著或专著
这类没有自己生产的bench data的文章通常不太可能发布到最最顶尖的杂志,比如Nature或者Science的主刊。投文章时可以分为四个梯队:第一梯队:Nature Methods, 只要能发上面基本上就保证了关注度和引用,也会有很多人follow的;Genome Research, 很老牌的杂志了,文章的质量都很高,当然了editor大部分文章都是直接拒的。Nature Biotechnology,纯方法的文章很难发上来的,一般都是很大的组既有方法又有实验数据。楼主可参见Clinks和That那篇文章,很多个co-author,做了非常多的测序实验来验证。Nature Genetics,同样,很少有纯方法的文章,除非你在圈内已有很大影响力,比如CADD那篇文章。上面有一大堆做统计和GWAS的人,感觉不太欢迎machine learning的文章。第二梯队:Genome Biology, 比较新的杂志,近几年有一些不错的文章。Nature Communication, 非常新的杂志,基本上每期都会有一些生信类的文章。感觉影响因子在不断上涨,顶着Nature的头衔自然不会缺少好文章。审稿周期非常久,不建议需要短时间内发文章毕业的高年级博士。第三梯队:这一类别的杂志就很多了,Bio informatics曾经是最好的生信杂志,近几年因为文章数量太多灌水严重影响因子有所下降。Nucleic Acid Research也是专业的生信杂志。除了这些,Plod系列的Plod Genetics和Plod Computational Biology也都是接受生信文章的不错的杂志。Human Molecular Biology近几年也开始接受生信文章。第四梯队:如果被之前所有杂志都拒了,那基本上在国际上能够得到认可的杂志也就不多了。Explosion和BMC系列是最后选择了。
生物信息学领域的专门期刊:Bioinformatics是作为生物信息学最重要的专门期刊了。另外还有Briefings in Bioinformatics,这个杂志每年的发稿量少,最近几年IF波动很大,第一年24+,后来到9+次一点的杂志,如BMC Bioinformatics,也是生物信息学的专刊。对于计算向的生物信息学,PLOS Computational Biology是一个很好的期刊。除此之外,Nature Method,也会有生物信息学相关的方法发表。
Bio informatics是作为生物信息学最重要的专门期刊了。2012年度IF= 另外还有Briefings in Bio informatics,这个杂志每年的发稿量少,最近几年IF波动很大,第一年24+,后来到9+,2012年度IF=。 稍次一点的杂志,如BMC Bio informatics,也是生物信息学的专刊。2012年度IF= 对于计算向的生物信息学,PLOS Computational Biology是一个很好的期刊。2012年度IF= 除此之外,Nature Method,也会有生物信息学相关的方法发表。2012年度IF=。PLOS Biology也是很好的杂志,2012年度IF=。PLOS One也会经常有生物信息学文章,但被批灌水太多,算不得牛刊,2012年度IF=。生物信息学相关的文章不一定要发到专门的生物信息学杂志,因为生物信息学作为一个工具,已经融入到很多生物问题的研究中,而不仅仅是一门孤立的学科了。
Bio informatics,很多方法类文章都发在上面,但是影响因子一般。如果有实验和数据分析,大多投到生物相关的杂志,比如genome research, nature genetics, nature等,在method里面涉及一些生信的方法,连带把algorithm放出来,供大家使用。所以,不一定非要发到Bio informatics。以前在Adderley学计算机的,研究字符串比较之类的问题,UNIX下的gnu diff就是他的杰作。后来写了blast,blast的重要性就不多说了,在后来在Celerity把string graph 应用到genome assembly,直接把HGP操翻。虽然现在因为2代测序出现D Bruising占了上风,不过随着3代测序的普及,他的string graph based OLC将再一次统治genome assembly界。
哈拉尔德·楚尔·豪森,德国埃朗根-纽伦堡大学病毒学教授。1936年出生于德国,现任职于德国癌症研究中心。他用了十多年时间终于发现某些类型的HPV就是宫颈癌的病原体,这一发现为开发出宫颈癌疫苗打下了基础。因发现了导致宫颈癌病毒,2008年获得诺贝尔生理学或医学奖获。医学发现哈拉尔德·楚尔·豪森1936年出生于德国,他从德国杜塞尔多夫大学获得了医学博士学位,是德国海德堡癌症研究中心的荣誉教授、前主任和科学主管。哈拉尔德·楚尔·豪森发现,致瘤人类乳头状瘤病毒(HPV)导致宫颈癌,这是妇女第二大多发癌症。他意识到,人类乳头状瘤病毒可能在肿瘤中以一种不活跃的状态存在,所以进行病毒DNA的特定检测应当可以查到这种病毒,他发现致瘤人类乳头状瘤病毒属于一个异种病毒家族,只有一些类型的人类乳头状瘤病毒可以引发癌症,他的发现使人类乳头状瘤病毒感染的自然历史被定性,使人们了解到人类乳头状瘤病毒引发癌瘤的机理,从而研发针对人类乳头状瘤病毒的预防疫苗。哈拉尔德·楚尔·豪森曾花了十年的时间来寻找不同的人类乳头状瘤病毒类型,这一工作由于这种病毒DNA只有部分进入基因组而变得很困难。他在宫颈癌切片发现了新的人类乳头状瘤病毒DNA,随后于1983年发现了可致癌的HPV16型病毒。他1984年从患宫颈癌的病人那里克隆了HPV16和18型病毒。在全世界各地百分之七十的宫颈癌切片中都发现了HPV16和18型病毒。人类乳头状瘤病毒对全球公共健康体系造成了很大的负担,全世界所有的癌症百分之五是因为人们持续感染这一病毒所致。人类乳头状瘤病毒是最常见的性病致病病毒,这影响了人类人口的百分之五十至八十。在已知的100多种人类乳头状瘤病毒,近40种人类乳头状瘤病毒影响生殖道,有15种可引发妇女患宫颈癌的高风险。此外,在子宫、阴茎癌、口腔癌和其它癌症中也都发现了人类乳头状瘤病毒。被证实患宫颈癌的患者可以检到人类人类乳头状瘤病毒,每年有50万妇女患这种癌症。哈拉尔德·楚尔·豪森证实了人类乳头状瘤病毒的新构成,这使人们了解了乳头状瘤病毒导致癌症的机理,影响病毒持续感染和细胞变化的因素。他发现了HPV16和18型病毒,这使科学家最终能够研发出保护人们不受高风险HPV16和18型病毒感染的疫苗,疫苗的保护率超过了95%。疫苗还降低了进行手术的必要性和宫颈癌给全球卫生体系造成的负担。获诺贝尔奖诺贝尔奖是根据A-B-诺贝尔遗嘱所设基金提供的奖项(1969年起由5个奖项增加到6个),每年由4个机构(瑞典3个,挪威1个)颁发。1901年12月10日即诺贝尔逝世5周年时首次颁发。诺贝尔在其遗瞩中规定,该奖应每年授予在物理学、化学、生理学或医学、文学与和平领域内“在前一年中对人类作出最大贡献的人”,瑞典银行在1968年增设一项经济科学奖,1969年第一次颁奖。
中外医学家联合研制出了一项可在两个半小时左右快速筛查宫颈癌的技术。9月22日出版的最新一期英国《柳叶刀—肿瘤学》(The Lancet Oncology)杂志,发表了这项研究成果。 这项名为HPV快速筛查法(careHPV)的技术与现在普遍使用的两种宫颈癌检测法相比,能够更加快速而准确地捕捉到由人乳头状瘤病毒(HPV)导致的宫颈癌及癌前病变。 该研究项目临床试验的负责人、中国医学科学院肿瘤研究所乔友林教授说:“临床检测结果显示,这项技术的假阴性率为10%,假阳性率为16%,接近发达国家和地区普遍使用的杂交捕获二代(HC2)技术,比较令人满意。” 在美国比尔/梅林达?盖茨基金会的资助下,流行病学家乔友林和他的研究团队与美国卫生科技推广研究所(PATH)和德国凯杰公司(QIAGEN)合作,历经5年,研究成功了这项筛查技术。 与目前通常使用的巴氏涂片和液基细胞学技术相比,HPV快速检测技术实验设施简单,操作容易。乔友林说:“乡村卫生员经过基本训练,就能很好地掌握这个技术,而且,可以在没有水电的情况下操作。”他率领研究团队在山西襄垣县和武乡县,采用三种方法——HPV快速筛查法(careHPV),醋酸染色后观察(VIA)法,以及杂交捕获二代技术检测(HC2)法对2388名30-54岁妇女进行了对比检测。 结果表明,HPV快速筛查技术,识别宫颈癌与高度病变的敏感度和特异度,都大大优于醋酸染色后观察法,并与杂交捕获二代技术的检测准确度相差不大。 这项技术在中国应用获得成功,改写了宫颈癌生化检测技术的历史。“它的准确度与杂交捕获二代(HC2)技术相差甚小,但费用却比它少10倍,”乔友林说。 作为一种面向低收入国家和地区的宫颈癌预防的实用方法,HPV快速筛查技术拥有广阔的前景。 HPV病毒几乎在所有子宫颈癌病例中都存在,是引发子宫颈癌的元凶。在妇科恶性肿瘤中,子宫颈癌是仅次于乳腺癌的威胁妇女健康的第二杀手。全球每年大约有47万妇女罹患宫颈癌,中国约有10万,其中70%是农村妇女。著名艺人梅艳芳和李媛媛,都不幸死于这一疾病。 自巴氏涂片1941年问世以来,宫颈癌早期病变检出率增加,全球宫颈癌发病率下降了80%。但是,在发展中国家广泛推行该技术却比较困难。 乔友林说,“首先,它需要建立高标准的细胞学检查系统,以及培养训练有素、能准确阅读巴氏涂片的细胞学技术人员,这两方面所需的费用都相当可观。”另外,巴氏涂片的敏感度并不令人满意,假阴性率约可高达40%。 从理论上讲,液基细胞学加杂交捕获二代的HPV检测技术是最佳检测方法,其假阴性率为2%,假阳率为15%。“唯一的问题是,做一次这样的检测需要花费500多元人民币,即便是对大城市的工薪阶层妇女也太高了。它只适合深圳等高收入城市,”乔友林说。目前,醋酸染色观察法是贫困地区宫颈癌筛查的主要模式。这个检测只需要10元人民币,但效果不尽如人意。他说,“如果妇科医生不熟练,或没有接受良好的培训,肉眼观察的假阴性和假阳性率可以高达40%和20%。” 尽管国际上研究开发的预防宫颈癌的疫苗已在很多国家和地区获准上市,但是,疫苗只能预防70%左右的宫颈癌,而且对已经感染HPV病毒的妇女不起作用。 因此,HPV病毒的检测对防治宫颈癌仍然至关重要。研究出经济、准确、安全、有效的宫颈癌筛查方法也因此成为学术界和国际社会关注的焦点。“如果妇女一生中能做一次,作到早诊早治疗,那么,宫颈癌的发病率和死亡率可望下降三分之一,”美国卫生科技推广研究所的约翰·瑟拉斯(John Sellors)博士说。
【综述】几种用于发现未知病毒核酸序列的技术及其应用翁康生 病毒是引发人类传染性疾病的主要病原体之一, 它们极大地威胁着人类健康。目前还存在人类尚未认知或新出现的病毒, 随时可能严重危害人类健康安全〔1 - 3〕。及早地发现,鉴别未知的或新出现的病毒, 是有效的预防和控制的先决条件之一。因此, 建立、储备、改良、发展、乃至创新应用于发现、鉴别未知或新出现病毒的技术方法是十分必要的。近20 多年来, 常采用传统的微生物学技术方法和现代分子生物学技术方法相结合的途径, 发现和鉴别未知病毒。通过细胞培养的方法分离病毒、电镜观察、用已知病毒的抗血清建立的免疫学方法作排他性检测、用已知病毒核酸序列建立的PCR、杂交等方法, 作特异核酸序列的检测、用分子生物学技术获得未知病毒核酸序列, 查询基因数据库, 检出并确定未知病毒基因组序列, 最终发现鉴别出未知病毒。对于无法用细胞分离培养的未知病毒, 有的采用免疫学与分子生物学技术相结合, 筛选获取病毒特异抗原编码基因的克隆, 进而发现鉴别出该病毒。更多的则是采用相应的分子生物学技术, 从被检样品中发现获取未知病毒的核酸序列,进而发现鉴别未知病毒。无论未知病毒是否可以用细胞培养分离, 最终对其基因组序列的测定分析, 是鉴别和判断的决定性依据之一, 而获取未知病毒的核酸序列是前提条件。从少量样品中, 从高度复杂的宿主细胞核酸物质中, 分离、扩增、获取足够量的无基因序列资料的未知病毒的核酸片段, 供进一步克隆、测序、生物信息学分析, 是用分子生物学技术发现、鉴别未知和新出现病毒的关键之一〔4〕, 也是最终测定分析, 拼接出未知和新出现病毒基因组序列的瓶颈步骤。病毒所携核酸物质有DNA 和RNA 之分, 可采用的技术方法也有所不同, 现将有关技术与其应用作一简介, 以供参考。1 代表性差异分析法代表性差异分析法是为寻找分析两个生物样品复杂的基因组间有何差异而发展建立起来的分子生物学技术方法, 并不断得到演化, 发展和应用。病毒感染宿主细胞后, 与未感染的同类细胞相比, 二者核酸物质间的差异主要在于是否存在病毒核酸。消减去二者核酸间相同序列的背景部分, 扩增、比较、选取余下可能存在差异的部分, 进一步分析以发现未知病毒的核酸序列。病毒的核酸结构各有不同, 可选用相应的代表性差异分析法, 见表1 。111 DNA 代表性差异分析法(DNA Representation differenceanalysis , DNA RDA)此方法是Lisitsyn 等〔5〕利用核酸消减杂交技术〔6〕、PCR 方法和双链DNA 热变性后互补链退火复性的二级动力学原理〔7 - 8〕作者单位:上海市疾病预防控制中心 200336表1 病毒核酸类型与各代表性差异分析法的选用病毒核酸类型DNA RDA c DNA RDA非rRNA 序列6 核苷酸引导c DNA RDAds DNA 线状√ds DNA 环状√ss RNA polyA( + ) √ss RNA polyA( - ) 3 √ds RNA polyA( - ) √ 3 负链ss RNA polyA( - ) 视病毒在宿主细胞的转录机制而定。而建立的。方法中将需分析的样品DNA(Test DNA ,T- DNA) 和对照DNA(Driver DNA ,D - DNA) 设为二组,分别用同一种限制性内切酶酶切处理,并接上5′端去磷酸化的人工接头,补齐接头后,加入与接头序列互补的引物作PCR 扩增。切除扩增产物上的人工接头后,切出的T - DNA 连上第二种人工接头,变性后与过量的变性D - DNA 杂交。通过杂交,消减去T- DNA 中与D - DNA 中同源的核酸序列,而只存在于T - DNA 中的靶序列DNA(Target DNA) 则自我退火复性,其两端连有第二种人工接头。加入与第二种接头互补的引物作PCR ,只有靶序列DNA呈指数扩增,因而得到进一步富集。进过如此重复的几个轮回后,以电泳检测比较T- DNA 和D - DNA ,将T- DNA 中呈现的差异部分作分离,克隆,序列分析。Lisitsyn 等以10μg 人淋巴细胞基因组DNA 作为D - DNA ,在相同的人DNA 中加入相当于单拷贝量的120 pg 腺病毒DNA作T- DNA。以此作为实验模型,用DNA 代表性差异分析法成功的寻找、鉴定出外加入的腺病毒DNA 序列。应用此技术,Chang 等〔9〕在艾滋病相关的卡波西肉瘤(Kaposis Sarcoma) 中发现一段类似人类疱疹病毒的基因, 并由此发现一种新的病毒HPV8。以后人们又以此技术发现鉴定了HPV6、TTV 病毒、黄热病毒样基因组、MDV 等〔10 - 13〕DNA 病毒。112 cDNA 代表性差异分析法(cDNA Representation differenceanalysis , cDNA RDA)Hubank 等〔14〕针对mRNA 所含序列相对简单的特点,提出了cDNA 代表性差异分析法。它的基本原理与DNA RDA 相同,主要不同在于,采用识别4 核苷酸序列的限制性内切酶,它的识别位点在mRNA 反转录成的cDNA 中出现的频率更高,平均酶切片段长度约256 bp ,保证了cDNA 序列群中绝大多数序列,至少被切出一个片段可扩增,供差异分析,分离鉴定。cDNA RDA 技术相对经济,可高效灵敏地用于非常少的起始材料而获得结果〔15〕。具有polyA( + ) - RNA 病毒,其核酸可类似于mRNA 分离纯化,因此可应用此技术。利用cDNA RDA技术,发现鉴定了TiV、MenV ,等〔16 ,17〕RNA 病毒。113 非rRNA 序列6 聚核苷酸引导反转录的cDNA RDA中国预防医学杂志2007 年6 月第8 卷第3 期 Chin Prev Med , June 2007 , Vol18 No13 ·317 ·© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. ( - ) - RNA 病毒,其核酸物质不似于mRNA ,需和宿主细胞总RNA 同时分离,并用随机引物作反转录。因为宿主细胞总RNA 中rRNA 约占80 % ,由于竞争反应、靶序列信号被湮灭等原因,从这样的总RNA 抽提物中,用随机6 聚核苷酸引物引导反转录的cDNA RDA 技术,发现鉴别polyA( - ) - RNA 病毒核酸序列是困难的。Endoh 等〔18〕罗列了6 聚核苷酸所有可能的排列组合,共计4 096 个序列模式,以大鼠18S、518S、28S 等rRNA、微卫星重复序列、SARS - CoV、BI - 3 病毒等的序列数据为模型,筛选出在rRNA 序列中出现频率极低或不出现的6 聚核苷酸序列模式共96 种。将这些序列分别合成并混合后,称之为非rRNA 序列6 聚核苷酸引物。生物信息学分析96 种序列模式在哺乳动物病毒科具代表性的1 791 个病毒基因组序列中出现的频率,数据表明,非rRNA 序列6 核苷酸引物可引导绝大多数病毒的cDNA 合成。分别用非rRNA 序列6 聚核苷酸引物和随机6 核苷酸引物作cDNA 反转录效率、cDNA RDA 试验,结果表明,二类引物对人工合成的RNA (二类引物在其序列中出现的频率相似) 反转录效率几乎相等,而前者对细胞总RNA反转录效率远低于随机引物。用二类引物作cDNA RDA ,检测人工合成的RNA ,前者灵敏度是用随机引物的30 倍。在模拟实验中用非rRNA 序列6 聚核苷酸引物引导反转录,串联cDNARDA 技术,检测鉴别出感染细胞的BI - 3 和SRAS - Cov 核酸序列片段。此方法能从1μg 总RNA 中检测出3 ng 的外来RNA ,其检测灵敏度不及普通的PCR 检测方法,但对于检测鉴别在宿主细胞中复制,但不知其基因序列的poly A( - ) - RNA 病毒而言,也是一个可选择的方法。114 抑制消减杂交cDNA RDA 技术结合消减杂交和PCR 抑制作用〔19〕的技术原理,Diatchenks 等〔20〕等发展出了抑制消减杂交技术( suppressionsubtractive hybridization ,SSH) 。与前两种RDA 技术不同点在于,SSH 技术将内切酶酶切处理的T - cDNA 分为两份,分别接上不同序列的去磷酸化的接头1 和2 ,分别于过量的D - cDNA作第一轮杂交。杂交过程中两组中的单链T - cDNA 浓度趋同,T- cDNA 中的非靶序列单链cDNA 与D - cDNA 中相应序列形成杂交双链而被消减, T - cDNA 中差异表达的单链cDNA被显著富集。合并一轮杂交物,加入过量变性D - cDNA ,作第二轮杂交。合并的二组份一轮杂交物中剩下的趋同化、经消减杂交后的单链T - cDNA 能互补杂交, 可以形成: 原组内T- cDNA 单链间的杂交、T - cDNA 与D - cDNA 单链间的杂交、二组间T- cDNA 单链间的杂交。补齐杂交反应后双链cD2NA 末端,用分别与接头1 和2 的外侧部分序列互补的寡核苷酸为引物,作PCR 扩增。二组份间T- cDNA 互补单链杂交物,因两端分别具有接头1 和2 ,可被指数扩增;T - cDNA 与D -cDNA 杂交物和剩余单链T- cDNA ,因一端具接头序列,被线性扩增;而同组间T- cDNA 杂交物两端具反转重复长序列,因抑制性PCR 效应,在PCR 反应循环中分子内退火形成稳定的“锅柄结构”〔19〕而不被扩增。因此,SSH 技术通过二轮消减杂交和抑制性PCR 特异扩增,使假阳性大大降低,提高了检出低丰度靶mRNA 的灵敏度。Hu 等〔21〕应用SSH 技术,结合反转录酶的模板切换(tem2plate - switching) 功能, 以HCV RNA 阳性血清体外感染的人MOLT- 4 急性淋巴母细胞白血病T 细胞系为模型,通过反转录合成全长cDNA、抑制性消减杂交、消减的cDNA 文库构建、反相斑点杂交筛选,在被筛的96 个克隆里,T- cDNA 探针杂交呈特异阳性的16 克隆中,序列分析后得到4 个插入HCV 序列的克隆。2 非特异多重引导滚环式扩增法乳头瘤病毒、痘病毒等,其基因物质为环状DNA 分子。在事前未知基因序列的情况下,发现和鉴别这类病毒核酸序列还可选择非特异多重引导滚环式扩增法(multiply primed rolling -circle amplification ,RCA) ,扩增、分离、获取其基因片段供进一步分析。自然状况下,环状DNA 经常以滚环方式进行复制。Dean等〔22〕应用随机6 聚核苷酸作引物,加入φ29 DNA 聚合酶,以质粒DNA 和噬菌体DNA 为模型,建立了多重引物引导的滚环式扩增法。φ29 DNA 聚合酶可长距离( > 70 000 nt) 地结合于DNA模板,进行链置换DNA 合成。而随机6 聚核苷酸引物可多位点的与单链环状DNA 互补复性。在φ29 DNA 聚合酶作用下,以随机引物引导,合成与模板互补的DNA 链。当合成链延伸到与模板结合的随机引物5′端时,在φ29 DNA 聚合酶的链置换活性作用下,下游被延伸的随机引物链被“甩”出模板。而上游的延伸链继续在环状模板上复制合成。同时,被从单链环状模板上“甩”出的互补链,又成为新的模板,随机引物与之结合,在φ29 DNA 聚合酶作用下,继续以枝杈的形式进行链延伸和链置换,最后以双链DNA 串联体形式释放。用此法可使1 ng 纯pCU18 环状DNA 模板延展式地扩增至107倍。Rector 等〔23〕以此原理建立了不依赖已知的特定基因序列(非序列依赖性) 的多重引导滚环式扩增环状DNA 病毒基因组方法,并应用其扩增获取了HPV 16 的基因组DNA。在接近实样的试验样品中,由于稀释倍数和环状DNA 分子较大等原因,将HPV 16 基因组DNA 扩增了214 ×104 倍。3 病毒颗粒相关核酸的非序列依赖性PCR 扩增病毒核酸可包裹于病毒外壳内,病毒的蛋白外壳或脂膜对病毒核酸具有保护作用。而病毒颗粒具有不同于细菌或其他真核细胞的理化特性。利用这样的特点Allender 等〔24〕和Stang等〔25〕各自建立了病毒颗粒相关核酸的非序列依赖性PCR 扩增方法(sequence - independent amplification) 。两种方法的共同点在于,依据病毒颗粒小、具一定密度,用0122μm 滤器过滤、或再串上超速密度梯度离心,从样品中分离出病毒颗粒,DNA 酶酶解游离的DNA ,裂解病毒颗粒,抽提获取较纯的病毒颗粒相关核酸。Allender 等〔24〕借鉴RDA 原理,对病毒颗粒相关核酸用限制性内切酶酶切后,作非序列依赖性单引物PCR 扩增( sequence -independent single primer amplification ,SISPA) :将抽提获取的DNA或RNA 分别补齐,合成第二链DNA ,或反转录,合成双链cDNA。限制性内切酶酶切后,酶切片段两端连接一种接头,并以与接头同序列的单一寡核苷酸为引物,作PCR 扩增。扩增产物进一步克隆与序列分析。用此法检验HBV 阳性血清和GBV - B 阳性血清样品,结果在相当于106/ ml 个基因组拷贝浓度的50μl样品中,可重复试验检出相应的病毒基因片段。Stang 等〔25〕则在得到双链DNA 或双链cDNA 后加入k - 随机引物,此种引物5′端含有20 个固定序列的核苷酸,3′端则有·318 · 中国预防医学杂志2007 年6 月第8 卷第3 期 Chin Prev Med , June 2007 , Vol18 No13© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. 核苷酸随机简并序列。与变性模板退火时,6 核苷酸随机简并序列随机地与模板相应序列互补退火,在T4 DNA聚合酶作用下作链延伸。然后在延伸产物中加入k - 随机引物中固定序列部分的20 寡核苷酸作引物,进行PCR 扩增。扩增产物电泳分析、克隆、测序。用此方法检验由实时- PCR 定量,包括病毒颗粒相关核酸及游离核酸在内的病毒基因组拷贝数为109/ ml 的Cox - 3 和MAV - 1 培养物。前者的12 克隆中,9 个克隆插入有肠道病毒的四个不同区域的同源基因片段;而6 个MAV - 1 中分离的克隆内,5 个含有99 % 同源MAV - 1 基因片段。基于病毒颗粒分离纯化、DNase 处理、病毒颗粒相关核酸的非序列依赖性PCR 扩增,获取、鉴定未知病毒的基因片段,尽管灵敏度不够高,但其实验时间较短,步骤相对简单,对于病毒拷贝数高,时间紧急的样品鉴别,是较适宜的一套方法。病毒的种类、结构、特性多种多样,感染病毒后需要检验的样品又各不相同,因此用于发现鉴别未知病毒的核酸序列的技术,也不是固定不变和完全通用的。以上的技术方法各有优缺点和适用范围。而针对扩增获取未知病毒基因组序列片断,这一发现鉴定未知病毒的分子生物学技术的要点或瓶颈,必然还会有新的改进、创新技术出现,将会更快、更灵敏、更简便、更准确的发现鉴别未知病毒。参 考 文 献〔1〕 Drosten C , Gunther S , Preiser W, et al1 Identification of novel corona2virus in patients with severe acute respiratory syndrome1 N Engl J Med ,2003 , 348 : 1967 - 19761〔2〕 ven den Hoogen BG, de Jong JC , Groen J , et al , A newly discoveredhuman pneumovirus isolated from young children with respiratory tractdisease1 Nat Med , 2001 , 7 : 719 - 7241〔3〕 Fouchier RA , Hartwig NG, Bestebroer TM, et al1 A previously unde2scribed coronavirus associated with respiratory disease in human1 ProcNatl Acad Sci U S A , 2004 , 101 : 6212 - 62161〔4〕 Muerhoff AS , Leary TP , Desai SM, et al1 Amplification and subtractionmethods and their application to the discovery at novel human viruses1 JMed Virol , 1997 , 53 : 96 - 1031〔5〕 Lisitsyn N , Lisitsyn N , Wigler M1 Cloning the differences between twocomplex genomes1 Science , 1993 , 259 : 946 - 9511〔6〕 Lamar EE , Palmer E1 Y- encoded1 Species - specific DNA in mice :evidence that the Y chromosome exists in two polymorphic forms in in2bred strains1 Cell , 1984 , 37 : 171 - 1771〔7〕 Wieland I , Bolger G, Asouline G, et al1 A method for differencecloning : geng amplification following subtractive hybridization1 Proc NatlAcad Sci USA , 1990 , 87 : 2720 - 27241〔8〕 Milner JJ , Cecchini E , Doming PD1 A kinetic model for subtractive hy2bridizationg1 Nucleic Acids Res , 1995 , 23 : 176 - 1871〔9〕 Chang Y, Cesarman E , Pessin MS , et al1 Identification of herpesvirus- like DNA sequence in AIDS - Associated Kaposi’s Sarcoma1 Scie2nce , 1994 , 266 : 1865 - 18691〔10〕 Challoner PB , Smith KT , Parker JD , et al1 Plaque - associated expres2sion of human herpesvirus 6 in multiple selerosis1 Proc Natl Acad SciUSA , 1995 , 92 : 7440 - 74441〔11〕 Nishizawa T , Okamoto H , Konishi K, et al1 A novel DNA virus (TTV)associated with elevated transaminase levels in pasttransfusion hepatitisof unknown etiology1 Biochem Biophy Res Commun , 1997 , 24 : 92 -971〔12〕 Simons JN , Pilot - Matios TJ , Leary TP , et al1 Identification of two fla2vivirus - like genomes in the GB hepatitis agent1 Proc Natl Acad SciUSA , 1995 , 92 : 3401 - 34051〔13〕 Endoh D , Cho KO , Tsukamoto K, et al1 Application of representationaldifference analysis to genomic fragments of Mark’s disease virus1 J ClinMicrobiol , 2000 , 38 : 4310 - 43141〔14〕 Hubank M, Schatz DG1 Identifying differences in mRNA - expression byrepresentational difference analysis of cDNA1 Nucleic Acids Res ,1994 , 22 : 5640 - 56481〔15〕 Bowler LD1 Representational difference analysis of cDNA1 Methods MolMed , 2004 , 94 : 49 - 661〔16〕 Chua KB , Wang LF , Lam SK, et al1 Tioman virus , a novel paramyxo2virus isolated fromfruit bats in Malaysia1Virology , 2001 , 283 : 215 -2291〔17〕 Bowden TR , Westenberg M, Wang LF , et al1 Molecular characteriza2tion of Menangle virus , a novel paramyxovirus which infects pigs , frutbats , and humans1 Virology , 2001 , 283 : 358 - 373〔18〕 Endoh D , Mizatanil T , Kirisawa R , et al1 Species - independent detec2tion of RNA virus by representational difference analysis using non - ri2bosomal hexanncleotides for reverse transcription1 Nucleic Acids Res ,2005 , 33 : e651〔19〕 Siebert PD , Chenchik A , Kellogg DE , et al1 An improved PCR methodfor walking in uncloned genomic DNA1 Nucleic Acids Res , 1995 , 23 :1087 - 10881〔20〕 Diatchenko L , Lau YF , Campbell AP1 Suppression subtractive hy2bridization : a method for generating differentially regulated or tissue -specific cDNA probes and libraries1 Proc Natl Acad Sci U S A , 1996 ,93 : 6025 - 60301〔21〕 Hu Y, Hirshfield I1 Rapid approach to identify an unrecognized viral a2gent1 J Virol Methods , 2005 , 127 : 80 - 861〔22〕 Dean FB , Nelson JR , Giesler TL , et al1 Rapid amlification of plasmidand phage DNA using phi 29 DNA polymerase and multiply - primedrolling circle amplificationg1 Genome Res , 2001 , 11 : 1095 - 10991〔23〕 Rector A , Tachezy R , Ranst MV1 A sequence - independent strategyfor detection and cloning of circular DNA virus genomes by using multi2ply primed rolling - circle amplification1 J Virol , 2004 , 78 : 4993 -49981〔24〕 Allander T , Emerson SU , Engle RE , et al1 A virus discovery methodincorporating DNase treatment and its applicationg to the identificationgof two bovine parvovirus species1 Proc Natl Aced Sci USA , 2001 , 98 :11609 - 116141〔25〕 Stang A , Korn K, Wildner O , et al1 Characterization of virus isolates byparticle - associated nucleic acid PCR1 J Clin Microbiol , 2005 , 43 :716 - 7201(收稿日期: 2006 - 05 - 15)中国预防医学杂志2007 年6 月第8 卷第3 期 Chin Prev Med , June 2007 , Vol18 No13 ·319 ·© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved.
.....我也有兴趣知道,不过ls的是通讯嘛,没有详细介绍的。