首页

> 期刊投稿知识库

首页 期刊投稿知识库 问题

生物信息学相关论文范文文献

发布时间:

生物信息学相关论文范文文献

一, 生物信息学发展简介生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA.DNA的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用.经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础.正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然.2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮.由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域.生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿.二, 生物信息学的主要研究方向生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点.1,序列比对(Sequence Alignment)序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义[3]:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.2, 蛋白质结构比对和预测基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.3, 基因识别,非编码区分析研究.基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(HiddenMarkov Model)和GENSCAN,Splice Alignment等等.4, 分子进化和比较基因组学分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因Paralogous: 相同种族,不同功能的基因Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.5, 序列重叠群(Contigs)装配根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.6, 遗传密码的起源通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.7, 基于结构的药物设计人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.8, 其他如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.三, 生物信息学与机器学习生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能[5].机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因而,生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.四, 生物信息学的数学问题生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明.1, 统计学的悖论数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖论莫过于均值了,如图1:图1 两组同心圆的数据集图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的.2, 度量空间的假设在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.那么,是否这种前提假设具有普适性呢我们不妨给出一般的描述:假定两个向量为A,B,其中,,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:(1)依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关.然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:(2)上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足(3)时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题.五, 几种统计学习理论在生物信息学中应用的困难生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介绍.支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索的空间.六, 讨论与总结人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这些问题做出探讨和思索.启发式方法:Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.乐观中的隐扰生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在的隐扰呢不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现实.反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢 现在说肯定的话也许为时尚早.综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力.毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列以及相关的内容,我们还有相当长的路要走.(来源 ------[InfoBio.org | 生物信息学研讨组])生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学是一门利用计算机技术研究生物系统之规律的学科。目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学 姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。 原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。

生物信息学我有来头

1. 王哲(2002),生物信息学概论,第四军医大学出版社,第1版,ISBN: 78108602322. 张春霆(2000),生物信息学概论,西部大开发 科教先行与可持续发展—中国科协2000年学术年会文集3. 克兰,雷默(2004),生物信息学概论,清华大学出版社4. K Attwood, DJ Parry-Smith(2002),[罗静初,罗洪,曲红,等译], 生物信息学概论.北京大学出版社5. 简兴(2004),生物信息数据库简介及在农业上的应用,农业网络信息6. 徐小平(2004),生物信息学的现状与前景,郧阳医学院学报7. 韩彬, 惠军, 祝长青(2005),生物芯片及其应用,新疆师范大学学报自然科学版8. 孙琳琳, 蒋继志(2006),生物信息学及在农作物抗性基因研究中的应用,安徽农学通报9. 张阳德(2006),生物信息学:概论,外科理论与实践10. 钟扬, 张亮,赵琼( 2001),简明生物信息学11. 高亚梅(2007),生物信息学12. 张春霆(2000), 生物信息学的现状与展望,世界科技研究与发展 13. 陈润生(1999),当前生物信息学的重要研究任务,生物工程进展14. 欧阳曙光(1999 ),生物信息学: 生物实验数据和计算技术结合的新领域,科学通报15. 何红波, 谭晓超, 李斌(2005),生物信息学对计算机科学发展的机遇与挑战16. 张成岗(2002 ),生物信息学方法与实践,科学出版社17. 朱杰 (2005),生物信息学的研究现状及其发展问题的探讨18. 李维忠(1999),国内外生物信息学数据库服务新进展,生物化学与生物物理进展我不是学生物或信息专业的。可能比较外行。找到这些文献,你看看有没有用吧。

生物信息学相关的学术期刊

Bio informatics,很多方法类文章都发在上面,但是影响因子一般。如果有实验和数据分析,大多投到生物相关的杂志,比如genome research, nature genetics, nature等,在method里面涉及一些生信的方法,连带把algorithm放出来,供大家使用。所以,不一定非要发到Bio informatics。以前在Adderley学计算机的,研究字符串比较之类的问题,UNIX下的gnu diff就是他的杰作。后来写了blast,blast的重要性就不多说了,在后来在Celerity把string graph 应用到genome assembly,直接把HGP操翻。虽然现在因为2代测序出现D Bruising占了上风,不过随着3代测序的普及,他的string graph based OLC将再一次统治genome assembly界。

不是,从来没入选过《生物信息学》(Chinese Journal of BioInformatics)是经国家新闻出版总署批准,由中国工业和信息化部主管,哈尔滨工业大学主办的公开发行的生物类学术期刊,主要报道国内外生物信息技术研究开发的重要成果和国内外生物信息技术及其产业化最新进创刊于2003年,创刊号2003年12月,季刊,国内统一连续出版物号:CN23-1513/Q,国际标准连续出版物号:ISSN 1672-5565。 《生物信息学》主要刊载生物信息及相关领域的研究进展、综述、研究论文、研究简报、技术与方法、专题评论、科学新闻等等学术文章;还刊登有关生物信息技术国内外研究开发动态、简讯、产业政策与产业发展动态、学术活动与展会通知、书评、短评、启事、生物信息学教育研究等文章。《生物信息学》自2003年以来入选如下数据库:中国期刊全文数据库(CJFD)(知网);万方数据库、中国核心期刊(遴选)数据库;中国学术期刊综合评价数据库(CAJCED);中国科学引文数据库(2007~2010);中国生物医学文献数据库(SinoMed);美国《乌利希期刊指南》(网络版);美国《史蒂芬斯全文数据库》(EBSCO host)。

这类没有自己生产的bench data的文章通常不太可能发布到最最顶尖的杂志,比如Nature或者Science的主刊。投文章时可以分为四个梯队:第一梯队:Nature Methods, 只要能发上面基本上就保证了关注度和引用,也会有很多人follow的;Genome Research, 很老牌的杂志了,文章的质量都很高,当然了editor大部分文章都是直接拒的。Nature Biotechnology,纯方法的文章很难发上来的,一般都是很大的组既有方法又有实验数据。楼主可参见Clinks和That那篇文章,很多个co-author,做了非常多的测序实验来验证。Nature Genetics,同样,很少有纯方法的文章,除非你在圈内已有很大影响力,比如CADD那篇文章。上面有一大堆做统计和GWAS的人,感觉不太欢迎machine learning的文章。第二梯队:Genome Biology, 比较新的杂志,近几年有一些不错的文章。Nature Communication, 非常新的杂志,基本上每期都会有一些生信类的文章。感觉影响因子在不断上涨,顶着Nature的头衔自然不会缺少好文章。审稿周期非常久,不建议需要短时间内发文章毕业的高年级博士。第三梯队:这一类别的杂志就很多了,Bio informatics曾经是最好的生信杂志,近几年因为文章数量太多灌水严重影响因子有所下降。Nucleic Acid Research也是专业的生信杂志。除了这些,Plod系列的Plod Genetics和Plod Computational Biology也都是接受生信文章的不错的杂志。Human Molecular Biology近几年也开始接受生信文章。第四梯队:如果被之前所有杂志都拒了,那基本上在国际上能够得到认可的杂志也就不多了。Explosion和BMC系列是最后选择了。

生物信息学陈铭主编

关于生物信息学类毕业论文范文

微生物技术在城市生活垃圾处理中的应用 摘要:本文结合堆肥化、卫生填埋两种现行的城市生活垃圾处理工艺,主要介绍了城市生活垃圾生物处理过程中的微生物种群,以及通过分析开发出的新的微生物技术,指出了应用于城市生活垃圾处理的高效的微生物技术的研究方向。 关键词:城市生活垃圾 微生物 强化微生物处理技术 基因工程 ; 随着城市化进程在全球范围的加速,城市化带来的污染和人类聚居状况恶化等问题,已成为世界各国共同关心的问题。城市生活垃圾(Municipal solid waste, 简称MSW)是在城市日常生活及为城市生活提供服务的活动中产生的固体废弃物,是城市环境的主要污染物之一。目前,城市生活垃圾处理处置的方法主要包括卫生填埋(Sanitary landfill)、堆肥化(Composting)、焚烧(Incineration)三种,其中前两种处理方式均属于生物处理技术。具体来说,MSW生物处理技术就是城市生活垃圾中固有的或外添加的微生物,在一定控制条件下,进行一系列的生物化学反应,使得MSW中的不稳定的有机物代谢后释放能量或转化为新的细胞物质,从而MSW逐步达稳定化的一个生化过程。 1. 城市生活垃圾生物处理中主要的微生物。。。

分子生物技术在微生物降解环境 污染物中的应用 [摘要〕介绍了与环境微生物关键降解酶基因的筛选、克隆及应用相关的分r生物技术,包括聚合酶链式反应技 术、基因重组技术、荧光原位杂交技术和生物信息学等技术,并对这些技术在污染物降解基因检测、筛选和克隆方 面的应用进行了阐述与探讨、 [关键词]分子生物技术;微生物;基因;环境污染物;降解 随着现代j:\地技术的发展,多环芳烃、含氯有 机物和硝基苯类化合物等人工合成井难以降解的 污染物大量排放,造成世界范围内的环境污染和生 态破坏,严重地威胁人类和其他生物的正常生存和 发展。利用微生物修复技术对受污染的水体及土 壤进行处理,凸显了其重要的意义和可行性。研究 人员发现并筛选到一些微生物,它们不仅对环境有 较高的适应性、对污染物有较高的耐受性,而且对 污染物有较强的降解效率和专一性。然而环境中 存在的大量微生物中仅有少于1%可通过传统的培 养方法进行培养、分离和纯化,绝大多数细菌需要 非常严格的营养条件川。因此,为了对修复环境有 所贡献却难以培养的微生物进行更全面了解,也为 了筛选到更多有利于降解环境污染物的微生物菌 种及其关键酶基因,分子生物技术和手段逐渐被广 泛应用到环境可降解污染物及降解机理方面的研 究中。 本文对近年来发展起来的聚合酶链式反应 (PCR)技术、基因重组技术、荧光原位杂交(FISH) 技术和生物信息学等多种分子生物技术进行了介 绍,并总结了它们在污染物降解基因检测、筛选和 克隆方面的应用。 1与环境污染物降解相关的分子生 物技术 1.1PCR及其相关技术 PCR是一种利用脱氧核糖核酸(DNA)半保留 复制原理,在体外扩增位于两段已知序列之间的 DNA区段从而得到大量拷贝的分子生物技术。根 据其模板、引物来源或扩增条件的不同,PcR技术 可分为以下几种:(l)反转录pCR(RT一PeR)技 术,将mRNA反转录为cDNA后再对其进行PCR 扩增,可用来构建cDNA文库,分析不同生长时期 的mRNA表达状况和相关性以及mRNA的定量测 定等;(2)巢式PCR技术,在扩增大片段目的DNA 时,先用非特意性引物扩增再用特意性引物对第一 次扩增产物进行第二次扩增,以获得可供分析的 DNA;(3)竞争PCR技术,是一种定量PCR,向PCR 反应体系中加人人工构建的带有突变的竞争模板, 通过控制竞争模板的浓度来确定目的模板的浓度, 对目的模板作定量研究;(4)实时荧光定量PCR技 术,在PCR反应体系中加人荧光基团,利用荧光信 号积累实时监测整个PCR进程,最后通过标准曲线 对未知模板进行定量分析,该法已广泛用于基因表 达研究、转基因研究等方面;(5)扩增的rDNA限制 酶切分析技术,根据原核生物rDNA序列的保守性, 将扩增的rDNA片段进行酶切,通过酶切图谱来分 析菌间的多样性;(6)RNA随机引导PCR技术,基 于任意寡核昔酸引物与RNA之间可能的配对,在 低严谨度条件下经聚合酶催化使链延伸,将细胞总 RNA或InRNA作为反转录反应的模板,此技术结 合单链构象多态性,用非变性胶分辨大小相同而构 象不同的片段,可用于诊断遗传突变及分析污染条 件下序列的多态性;(7)随机扩增多态DNA (RAPD)技术,是一种基于PCR检测PCR引物结合 位点序列改变的方法,通常以10bp的寡核昔酸序 列为引物,对基因组DNA随机扩增,电泳分离染色 扩‘增产物,再分析多态性。 1.2FISH技术 FISH技术利用荧光标记的探针在细胞内与特 异的互补核酸序列杂交,通过激发杂交探针的荧光 来检测信号。荧光探针比放射性探针更安全,具有 较好的分辨力,不需要额外的检测步骤。近年来, 由于FISH技术具有灵敏、便捷等优点,迅速发展完 善成为研究环境微生物的有力工具。此外,可用不 同激发和散射波长的荧光染料标记探针,在一步反 应中同时检测几个靶序列。该技术主要包括试样 固定、预处理、预杂交、探针和试样变性、杂交、漂洗 去除未结合的探针、检测杂交信号等步骤。由于 165rRNA具有遗传稳定性,因此成为FISH技术检 测最常用的靶序列。 1.3基因重组技术 基因重组技术是从供体生物的基因组中通过 酶切扩增等手段获取目的基因,与载体连接形成重 组DNA分子,再导入到受体细胞中,让外源基因得 以表达。在已经分离出的许多菌株中,与降解能力 有关的基因多在质粒体上。由于质粒很容易在细 菌的繁殖过程中遗失,对细菌降解能力的长期稳定 非常不利,可将其与污染物降解有关的酶基因重组 到大肠杆菌等微生物中进行表达,以此构建的各种 生物降解特性增强的重组菌可用于污染环境的治 理修复或发酵某些废弃物。 1.4生物信息学 20世纪后期,生物学的迅猛发展,从数量上和 质量上极大地丰富了基因组数据库、蛋白质数据 库、酶数据库和文献数据库等许多生物科学的数据 资源。已有多个国家和国际科研组织建立了生物 信息数据库,如欧洲分子生物学实验室(Eur叩ean MolecularBiologyLaboratory)核酸序列数据库和美 国国家生物技术情报中心(Nationaleente:fo:Bio- technologyInformation,NCBI)基因序列数据库等。 科学家利用计算机及生物信息分析软件分析这些 数据资源,确定大分子序列、结构、表达模式和生化 途径与生物数据之间的关系,区分生物个体间遗传 差异,揭示DNA多样性。例如,基本局部比对搜索 工具(BasieLoealAlignmentSearehTool,BLAST), 是一套在蛋白质数据库或DNA数据库中进行相似 性比较的分析工具。它基于Altschul等的方法「2〕, 在序列数据库中对查询序列进行同源性比对工作。 BLAST程序可对一条或多条、任何数量、任何形式的 序列在一个或多个核酸或蛋白序列库中进行比对,甚 至将有缺口的比对序列也考虑在内,利用比较结果中 的得分对序列进行相似性说明。基因的序列分析可 揭示出生物物种之间的关系,在污染治理研究中可用 于生物基因组特殊区域或特异基因的测序。 2分子生物技术在环境污染物降解 中的应用 2.1土壤试样总DNA的提取 用适当方法直接从土壤中提取DNA并纯化, 是从分子生物学角度对土壤微生物进行研究的前 提条件,而后可进行酶切、PCR扩增、核酸分子杂交 等分子生物学技术操作。从土壤中提取微生物 DNA主要分为汽接法和间接法}’{。直接法是在 ogram等的方法基础卜发展起来的,其主要包括2 个步骤:(l)原位细胞裂解;(2)DNA提取和纯化。 直接法提取的DNA超过细菌总DNA的60%且省 力,但提取的DNA常常有折断、腐殖酸污染、甚至 提取物中还夹杂有未知的胞外DNA和真核生物的 DNA。最先报道间接法的是Faegri等[‘〕,其主要包 括4个步骤:(l)分散土壤;(2)分离细胞与土壤; (3)细胞裂解;(4)DNA纯化。间接法提取DNA 产量低且费力,但纯度较高、DNA损伤小,提取的 大片段DNA可用来构建cos而d和细菌人工染色体 文库等。 2.2采用PCR及相关技术扩增分析DNA片段 可降解污染物的微生物必然能产生分解代谢 该污染物的酶。selvaratnam等L’l用编码苯酚单加 氧酶dmpN摹因的RT一PCR技术来检测序列间歇 式活性污泥反应器‘{一,降解酚的假单胞菌。检测结 果表明,RT一PCR技术不仅能检测微生物降解酚的 能力,还能测量dmpN基因的转录水平,从而确定假 单胞菌特殊的分解活性,发现了在转录水平下,酚 浓度与通气时间之问存在正相关关系。 将PCR技术和变性梯度凝胶电泳(DGGE)结 合起来,在变性条件适当的情况下能分辨一个碱基 对,分辨率较高。染色后的凝胶用成像系统进行分 析,可在一定程度l几反应试样的复杂性。条带的多 少能反应试样「 一 }1微生物组成的差异,条带的亮度能 反应试样中微生物的多少。基于以上优点,日前该 技术在微生物群落结构的分析和动态研究方面得 到了厂‘泛应用。DGGE可通过分析PCR扩增的基 因点突变来探索微生物的复杂性。徐玉泉等[“〕从 某废水中分离出一株能以苯酚为惟一碳源的菌株 PHEA一2,使用PCR一DGGE技术对该菌165 rDNA进行分析,发现该菌与醋酸钙不动杆菌同源。 M盯sh等r了)利用PcR一DGGE技术获得了活性污泥 中真核微生物的种群变化情况。王峰等下8〕采用 PCR一DGGE技术对城市污水化学生物絮凝处理中 活性污泥和生物膜微生物种群结构进行了分析,结 果表明活性污泥培养前后微生物种群结构发生r 很大改变。 RAPD技术也是一种应用比较广泛的以多态性 引物来扩增某些片段的技术。RAPD技术可用于检 测含有混合微生物种群的各种微生物反应器中微 生物的多样性。用RAPD技术分析检测实验室规 模的油脂淤泥培养料中的细菌菌群发现,用油脂淤 泥改良过的培养料比未改良的更适于不同的微生 物种群生长[9j。vainio等t’。〕从516种孤立的菌落 中提取出165rDNA,经PCR扩增后进行测序,检测 活性污泥中微生物种群的结构。这些组合技术的 应用显著增强r对微生物的检测和鉴定能力,为理 论研究工艺优化及提高生物处理效率提供了条件。 2.3基因重组 基因工程技术应用于环境保护起始于20世纪 80年代。其基本原理是通过基因分离和重组技术, 将目的基因片段,比如可编码降解某种污染物的 酶,转移到受体生物细胞中并表达,使受体生物具 有该目的基因表达显现的特殊性状,从而达到治理 污染的目的。找到特定污染的抗性基因,利用基因 重组技术转基因后也可获得其他抗性植株以及筛 选到可转化污染物的植物,还可开发超量积累植物 进行污染土壤的生物修复。 罗如新等L”〕用放射性同位素标记tfdc基因片 段作探针,Southemblot杂交定位Ll菌株的邻苯二 酚1,2一双加氧酶基因位于Pstl的I片段和BamH I的M、N片段,回收并将其直接克隆至表达载体 pKT230卜,获得的重组子能转化不具开环酶活性 的甲胺磷降解菌P2,得到高于天然宿主21倍的邻 苯二酚1,2一双加氧酶。stingley等{”〕通过构建基 因文库和重组质粒等基因工程方法证实了NidAB 双加氧酶是降解菲的关键酶类,并首次鉴定出此基 因通过磷苯二甲酸实现降解功能。chae等‘”}发现 不能降解苯酚的su如lobusso扣taricu、98/2菌株中 的儿茶酚2,3一双加氧酶基因与能降解苯酚的 sulfolo右u,,o如taricu、咫有[6J源区,分析得知它们 是山共同祖先进化而来。把儿茶酚2,3一双加氧酶 基因克隆到大肠杆菌中表达,可获得有较高降解活 性的双加氧酶。 重金属污染是环境污染的重要方面之一。随 着分子生物学技术的发展,越来越多的修复性蛋白 基因正被从植物、微生物和动物中陆续分离出来, 如汞离子还原酶基因、有机汞裂解酶基因、汞转运 蛋自基因、金属硫蛋白基因、植物络合素合成酶基 因、铁离子还原酶基因和锌转运蛋白基因L’‘〕。这些 基因通过基因工程的改造,重组到合适的受休细胞 中表达相应的蛋白质和酶,达到治理难以降解的有 毒有害污染物的目的。sorsa等〔”〕把MTS插人 LamB序列的153位点,在E.eoli中表达MTs,解决 r细胞内MTs对金属离子有限的吸附能力。综L 所述,基因重组技术具有快速、高效的特性,已逐渐 成为环境生物技术的研究热点。 2.4FISH技术 FISH技术利用核糖体内长度适中(约1500bp)、 高度保守的165:RNA序列作为理想的基因分类靶 序列,其中使用的165:RNA寡核普酸探针一般是 进行了荧光标记的20bp左右特异性核昔酸片段, 利用该报告分子(如生物素、地高辛)与荧光素标记 的特异亲和素之间的免疫化学反应,经荧光检测系 统对待测DNA进行定性、定量或相对定位分析。 FISH技术能提供处理过程中微生物的数量、空间分 布和原位生理学等信息。 硝化细菌是一类生理上非常特殊的化能自氧 菌,传统的研究方法要经过富集、分离、分类和鉴定 步骤,耗时长。HSH技术的引人解决了上述困难。 FlsH技术还被广泛用于活性污泥系统、硝化流化床 反应器和膜生物反应器等废水处理系统}’61。 基因工程微生物越来越多地被用于农业害虫 控制和环境污染的生物修复,对人类健康和环境的 影响引起广泛关注。1994年出现了一种新的标记 系统:绿色荧光蛋白(GFP),由于GFP基因表达产 物对细胞没有毒害作用,且由GFP产生的荧光标记 检测卜分方便、简单。在某些被污染的环境中可分 离出降解该污染物的细菌,通过基因重组等手段使 用GFP分子标记,可更容易的分离检测被标记的 细胞叫。 Bastes等[’8]进行了苯酚降解菌染色体GFP基 因标记实验。通过PCR和Southemblot分析,证明 GFP基因已成功整合到宿主细胞的染色体中。对 标记菌与野生型的降解能力比较结果证明,GFP分 子标记的插人并不影响细胞的苯酚降解能力。 用G即标记Pseudomonasputida,研究活性淤 泥中细菌存活情况{’9飞。Pseudomonasputida被转到 活性淤泥2min后,观察到细胞在淤泥絮凝物间自 由游动;培养3d后,发现荧光细胞减少,大部分已 被合并到淤泥絮凝物中,以防止细菌被原生动物捕 食。用oFP标记石.eozi和Serraliamarceseern,考 察菌株附到絮凝物卜的过程{’()j。使用表面荧光显 微镜能将带有GFP标记的细胞从活性污泥中区分 开,井进行观察和记数。而聚焦激光扫描显微镜 (cLsM)可使GFP标记细菌产生三维轮廓,结合表 面荧光显微镜和CLSM观察GFP标记细胞,结果表 明,细胞表面疏水性在细菌附到絮凝物的过程中起 重要作用,两种细菌附在絮凝物上的模式有很大不 同,通过这种方法可更好地理解细菌赫附机理,有 助于提高废水处理效果。 3结语 分子生物技术的应用使研究人员可从微观的 角度更细致深人地了解微生物对污染物降解的具 体生理生化机制,在分子水平 _ _ [揭示生物体吸收、 迁移、积累有害物质最终被毒害,及适应、抗性等生 态问题,从而筛选到更多有利用价值的微生物。随 着越来越多微生物全部基因序列的解码,对各种细 菌体内可降解基因的分布和表达会有更深人的了 解,有关技术的发展和成熟必将对污染物的降解过 程有一个整体的、生态水平上的认识。 参考文献 l李凤,刘世贵 . 分子生物学技术在环境微生物研究中的 应用 . 世界科技研究与发展,2003,25(4):88一92 2AltsehulSF,GishW,MillerW,etal.Basieloealalign- mentsearehtool . JMolBiol,1990,215(3):403一410 3魏志琴,曾秀敏,宋培勇 . 土壤微生物DNA提取方法研 究进展 . 遵义师范学院学报,2006,8(4):53一56 4FaegriA,TorsvikVL,GoksoyrJ.Baeteria]andfunga] aetivitiesin5011:seParationofbacteriaandfungibyaraPid fraetionatedeentrifugationteehnique5011BiolBioehem, 1977,9(2):105一112 5SelvaratnamS,SehoedelBA,MeFarlandBL,etal APPlieationofreversetranseriPtasePCRformonitoring exPressionoftheeataboliedmPNgeneinaPhenol- degradingsequencingbatehreaetor . APPIEnviron Microbiol,1995,61(11):3981一3985 6徐玉泉,张维,陈明等 . 一株苯酚降解菌的分离和鉴 定 . 环境科学学报,2000,20(4):450一455 7MarshTL,LiuWT,ForneyLJ . Beginningamoleeular analysisoftheeukiU洲aleollllllunityinaetivatedsludge. WaterSeiTechnol,1998,37(4一5):455一460 8王峰,傅以钢,夏四清等.PCR一DGGE技术在城市污 水化学生物絮凝处理中的特点 . 环境科学,2004,25 (6):74一79 9涂书新,韦朝阳 . 我国生物修复技术的现状与展望 . 地 理科学进展,2004,23(6):20一31 10VainioEJ,MoilanenA,KoivulaTT,etal . ComParison ofpartial165rRNAgenesequeneesobtainedfromactiva- tedsludgebaeteria . APPIMierobiolBioteehnol,1997,48 (l):73一79 11罗如新,张素琴,李顺鹏 . 邻苯二酚1,2一双加氧酶

生物学是一门能打通很多跨界知识的学科。相比物理学等自然科学,生物学更深刻地揭示了世界的底层规律,其思想放之四海而皆准。下面我给大家带来生物类专业的论文题目及选题方向,希望能帮助到大家!

生物技术 毕业 论文选题

[1]生物技术本科拔尖创新型人才培养模式的探索与实践

[2]禽源HSP70、HSP40和RPL4基因的克隆和表达

[3]中间锦鸡儿CiNAC038启动子的克隆及对激素响应分析

[4]H9和H10亚型禽流感病毒二重RT-PCR检测 方法 的建立

[5]单细胞测序相关技术及其在生物医学研究中的应用

[6]动物细胞工程在动物生物技术中的应用

[7]现代生物化工中酶工程技术研究与应用

[8]GIS在生物技术方面的应用概述

[9]现代生物技术中酶工程技术的研究与应用

[10]两种非洲猪瘟病毒检测试剂盒获批

[11]基因工程技术在生物燃料领域的应用进展

[12]基于CRISPR的生物分析化学技术

[13]生物信息技术在微生物研究中的应用

[14]高等工科院校创新型生物科技人才培养的探索与实践

[15]生物技术与信息技术的融合发展

[16]生物技术启发下的信息技术革新

[17]日本生物技术研究开发推进管理

[18]中国基因技术领域战略规划框架与研发现状分析及建议

[19]鸡细小病毒与H_9亚型禽流感病毒三重PCR检测方法的建立

[20]基于化学衍生-质谱技术的生物与临床样本中核酸修饰分析

[21]合成生物/技术的复杂性与相关伦理 政策法规 研究的科学性探析

[22]合成生物学技术发展带来的机遇与挑战

[23]应用型本科高校生物技术专业课程设置改革的思考

[24]知识可以改变对转基因食品的态度吗?——探究科技争议下的极化态度

[25]基因工程在石油微生物学中的研究进展

[26]干细胞技术或能延缓人类衰老速度

[27]生物技术复合应用型人才培养模式的探索与实践

[28]动物转基因高效表达策略研究进展

[29]合成生物学与专利微生物菌种保藏

[30]加强我国战略生物资源有效保护与可持续利用

[31]微生物与细胞资源的保存与发掘利用

[32]颠覆性农业生物技术的负责任创新

[33]生物技术推进蓝色经济——NOAA组学战略介绍

[34]人工智能与生物工程的应用及展望

[35]中国合成生物学发展回顾与展望

[36]桓聪聪.浅谈各学科领域中生物化学的发展与应用

[37]转基因成分功能核酸生物传感检测技术

[38]现代化技术在农业 种植 中的应用研究

[39]生物技术综合实验及其考核方式的改革

[40]生物技术处理船舶舱底含油污水

[41]校企合作以产学研为平台分析生物技术类人才培养

[42]生物技术专业“三位一体”深化创新创业 教育 改革

[43]基于环介导等温扩增技术的生物传感器研究进展

[44]分子生物学技术在环境工程中的应用

[45]生物有机化学课程的优化与改革

[46]地方农业高校生物技术专业“生物信息学”课程的教学模式探索

[47]不同育种技术在乙醇及丁醇高产菌株选育中的应用

[48]探秘生命的第三种形式——我国古菌研究之回顾与展望

[49]适应地方经济发展的生物技术专业应用型人才培养模式探索

[50]我国科研人员实现超高密度微藻异养培养

生物教学论文题目

1、本地珍稀濒危植物生存现状及保护对策

2、中学生物实验的教学策略

3、如何上好一节生物课

4、中学生生物实验能力的培养

5、激活生物课堂的教学策略

6、中学生物课堂教学中存在的问题及对策

7、中学生物教学中的创新教育

8、本地生物入侵的现状及其防控对策

9、论生物多样性与生态系统稳定性的关系

10、室内环境对人体健康的影响

11、糖尿病研究进展研究及策略

12、心血管病研究进展研究及策略

13、 儿童 糖尿病的现状调查研究

14、结合当地遗传病例调查谈谈对遗传病的认识及如何优生

15、“3+X”理科综合高考试题分析

16、中学生物教学中的差生转化教育

17、中学生物学实验教学与学生创新能力的培养

18、在当前中学学科分配体制下谈谈如何转变学生学习生物学的观念

19、中学生物教学中学生科学素养的提高

20、直观教学在中学生物学教学中的应用

21、中学生物学实验教学的准备策略

22、编制中学生物测验试题的原则与方法

23、浅析生态意识的产生及其培养途径

24、生物入侵的危害及防治对策

25、城镇化建设对生态环境的影响

26、生态旅游的可持续发展-以当地旅游区为例

27、城市的生态环境问题与可持续发展

28、农村的生态环境问题及其保护对策-以当地农村为例

29、全球气候变化与低碳生活

30、大学与高中生物学教育的内容与方法衔接的初步研究

31、国内、国外高中生物教材的比较研究

32、中学生物实验教学模式探索

33、河北版初中生物实验教材动态分析研究 “

34、幼师生物学教材改进思路与建议

35、中学生物学探究性学习的课堂评价体系研究及实践

36、中学生物双语教材设计编写原则探索与研究

37、信息技术应用于初中生物课研究性学习的教学模式构想

38、生物学课堂教学中学生创新能力培养的研究与实践

39、中学生物学教学中的课程创生研究初探

40、信息技术与中学生物学教学的整合

41、中学生物学情境教学研究

42、游戏活动在高中生物学教学中的实践与思考

43、合作学习在高中生物教学中的实践性研究

44、尝试教学法在高中生物教学中的应用与研究

45、生物科学探究模式的研究与实践

46、生物课堂教学引导学生探究性学习的实践与探索

47、白城市中学生物师资队伍结构现状的调查及优化对策

48、结合高中生物教学开展环境教育的研究

49、让人文回归初中生物教育

50、课程结构的变革与高中生物新课程结构的研究

51、在中学生物教学中,如何培养学生的创新能力

52、在中学生物教学中如何激发学生的学习兴趣

53、实验在中学生物教学中的重要性探讨

54、中学生物教学现状研究

55、中学生物课堂教学艺术探讨

56、“生态系统”一节的 教学方法 探讨

57、中学生物教学中的学生科学素质培养

58、初中生物教学中观察能力的培养

59、浅谈生物教学中的科学素质教育

60、中学生物探究性教学的实践与思考

生物技术本科毕业论文题目

1、生物反馈技术在运动性疲劳监控中的应用研究

2、微流控生物催化技术酶促合成天然产物的增效机理研究

3、海洋生物污损过程的分子标记技术研究

4、浮游生物多样性高效检测技术的建立及其在渤海褐潮研究中的应用

5、基于QCM生物传感器技术的组氨酸标签蛋白芯片和悬浮细胞芯片的研制及其应用

6、蛋白核小球藻油脂检测技术评价及光生物反应器培养的研究

7、基因工程制备微藻生物柴油中两项关键技术的研究

8、农业水污染治理环节中的生物技术应用问题研究

9、人工构建耐热大肠杆菌的分子设计与应用

10、我国合成生物技术产业发展战略及政策分析

11、基于原子力显微镜的细胞生物特征识别技术研究

12、利用菊粉和木薯淀粉生产高浓度山梨醇和葡萄糖酸的生物技术

13、转基因生物安全评价中的非科学因素探究

14、面向分子生物系统的计算技术应用研究

15、大规模生物数据中的生物信息挖掘技术研究

16、电化学生物传感技术用于重金属和蛋白质的检测

17、电化学生物传感技术用于单碱基突变与蛋白质的检测

18、基于功能核酸的生物传感技术的研究

19、论我国生物技术专利保护

20、纳米生物相关技术专利分析系统设计与开发

21、生物技术发展困境及其人文 反思

22、基因发明专利制度相关问题分析

23、转基因动物专利研究

24、GAPDH作为原核及真核生物通用型内标蛋白的研究及相关生物技术研发

25、基于生物信息与影像技术识别材料缺陷的研究

26、基于金属纳米材料的光学生物传感技术用于酶活性的检测

27、DNA assembler技术在顺

28、晋西黄土高原生物农业发展初探

29、睡眠剥夺差异表达基因的筛选及生物信息学分析

30、太赫兹时域光谱技术对生物组织的初步研究

31、我国农业转基因生物技术安全管理研究

32、人类基因专利战略布局

33、Web Services和XML技术在生物信息数据发布及整合中的应用

34、面向快速成型技术高分子生物医学材料的研究

35、化学修饰电极与液相色谱-电化学检测技术联用在生物分析中的应用

36、小型底栖生物样品自动分离技术研究

37、激光诱导荧光技术及其在生物仪器中的应用

38、强电场常压离子注入方法研究

39、生物信息学中的模式发现算法研究

40、聚类和分类技术在生物信息学中的应用

生物类专业的论文题目及选题方向相关 文章 :

★ 生物技术专业论文选题题目

★ 2021生物毕业论文题目

★ 生物类学术论文(2)

★ 生物类学术论文

★ 生物制药毕业论文开题报告范文

★ 我们身边的生物技术论文(2)

★ 生物制药专业毕业论文范文

★ 生物技术论文范文

★ 生物制造技术论文范文(2)

★ 动物科学论文题目

生物信息学文章

纯生信文章可以评职称的。纯生信是指不用做实验就可以发表的生信文章,生信文章是指生物信息学类的文章只要文章写得好,并且对医学有一定的进步,发展完全可以评得上职称。

Bio informatics是作为生物信息学最重要的专门期刊了。2012年度IF=5.468 另外还有Briefings in Bio informatics,这个杂志每年的发稿量少,最近几年IF波动很大,第一年24+,后来到9+,2012年度IF=5.202。 稍次一点的杂志,如BMC Bio informatics,也是生物信息学的专刊。2012年度IF=3.447 对于计算向的生物信息学,PLOS Computational Biology是一个很好的期刊。2012年度IF=5.215 除此之外,Nature Method,也会有生物信息学相关的方法发表。2012年度IF=19.276。PLOS Biology也是很好的杂志,2012年度IF=11.452。PLOS One也会经常有生物信息学文章,但被批灌水太多,算不得牛刊,2012年度IF=4.092。生物信息学相关的文章不一定要发到专门的生物信息学杂志,因为生物信息学作为一个工具,已经融入到很多生物问题的研究中,而不仅仅是一门孤立的学科了。

Bio informatics,很多方法类文章都发在上面,但是影响因子一般。如果有实验和数据分析,大多投到生物相关的杂志,比如genome research, nature genetics, nature等,在method里面涉及一些生信的方法,连带把algorithm放出来,供大家使用。所以,不一定非要发到Bio informatics。以前在Adderley学计算机的,研究字符串比较之类的问题,UNIX下的gnu diff就是他的杰作。后来写了blast,blast的重要性就不多说了,在后来在Celerity把string graph 应用到genome assembly,直接把HGP操翻。虽然现在因为2代测序出现D Bruising占了上风,不过随着3代测序的普及,他的string graph based OLC将再一次统治genome assembly界。

生物信息学本科论文范文

这种最基本的东西没必要求论文啊,自己随便写写就好了,用个DNAMAN,随便挑个基因,分分钟搞出来。再者没人会拿这种东西单独去发一篇论文吧?这点东西根本不够资格,只够在某篇论文里的两句话的分量。

生物信息学我有来头

给你两个网站吧,里面有些范文

一, 生物信息学发展简介生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA.DNA的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用.经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础.正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然.2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮.由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域.生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿.二, 生物信息学的主要研究方向生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点.1,序列比对(Sequence Alignment)序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义[3]:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.2, 蛋白质结构比对和预测基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.3, 基因识别,非编码区分析研究.基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(HiddenMarkov Model)和GENSCAN,Splice Alignment等等.4, 分子进化和比较基因组学分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因Paralogous: 相同种族,不同功能的基因Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.5, 序列重叠群(Contigs)装配根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.6, 遗传密码的起源通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.7, 基于结构的药物设计人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.8, 其他如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.三, 生物信息学与机器学习生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能[5].机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因而,生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.四, 生物信息学的数学问题生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明.1, 统计学的悖论数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖论莫过于均值了,如图1:图1 两组同心圆的数据集图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的.2, 度量空间的假设在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.那么,是否这种前提假设具有普适性呢我们不妨给出一般的描述:假定两个向量为A,B,其中,,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:(1)依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关.然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:(2)上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足(3)时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题.五, 几种统计学习理论在生物信息学中应用的困难生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介绍.支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索的空间.六, 讨论与总结人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这些问题做出探讨和思索.启发式方法:Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.乐观中的隐扰生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在的隐扰呢不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现实.反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢 现在说肯定的话也许为时尚早.综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力.毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列以及相关的内容,我们还有相当长的路要走.(来源 ------[InfoBio.org | 生物信息学研讨组])生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学是一门利用计算机技术研究生物系统之规律的学科。目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学 姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。 原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。

相关百科

热门百科

首页
发表服务