谁一个、、论文不才交么……
生物信息在生物学研究中的作用。
生物信息是指生物体中包含的全部信息,如基因组信息、蛋白质、核酸、糖类等生物大分子的结构等。
生物信息对生物体的生存、繁殖都起着重要作用。生物信息包含的范围很广,除遗传物质、神经电冲动和激素之外,生物体发出的声音、气味、颜色以及生物的行为本身都含有信息,都对生物的个体和群体产生影响,和生物的生存与进化密不可分。生物信息的特点是消耗极少的能量和物质即可产生极大的生物效应。
生物信息一般可分为遗传信息、神经和感觉信息及化学信息。虽然遗传信息和神经感觉信息的载体都属于化学物质,但通常所指的化学信息是除以上两类物质以外的化学物质所携带和传递的信息。高等生物的激素及昆虫外激素都属于这一类。
遗传信息是指生物为复制与自己相同的东西、由亲代传递给子代、或各细胞每次分裂时由细胞传递给细胞的信息, 即碱基对的排列顺序(或指DNA分子的脱氧核苷酸的排列顺序) 。遗传信息以密码形式存储在DNA分子上,通过DNA的复制传递给子代。在后代生长发育过程中,遗传信息自DNA转录给RNA,后翻译成特异的蛋白质,以执行各种生命功能。从历史上看,首先是由G.J.Mendel(1866)的研究形成了概念,即相应于生物各种性状的因素(现在称为基因)中包含着相应的信息(以后G.Beadle等人(1941)所开创了遗传生物化学的研究,描绘出这样一个轮廓:基因和决定生物结构与功能的蛋白质之间具有一对一的对应关系。
关于基因的化学本质方面,根据O.T.Avery等(1944)进行的转化实验,以及A.Hershey和M.Chase(1952)用大肠杆菌噬菌体的DNA进行的性状表达实验,已阐明DNA是遗传信息的载体。附着DNA结构研究的进展,现在已经确立了这样的概念,即基因所具有的信息可将DNA的碱基排列进行符号化。信息在表达时,DNA的碱基排列首先被转录成RNA的碱基排列,然后再根据这种排列合成蛋白质。有的病毒的遗传信息的载体不是DNA,而是RNA。遗传信息不仅有相应于蛋白质的基因信息,也包括对信息解读所必需的信息、控制信息表达所必需的信息,以及生物为了复制与自己相同结构所必需的一切信息。
神经和感觉信息靠电脉冲和神经递质携带和传递。神经系统接受内外环境中的信息,进行加工处理,调节和控制机体各部分功能。生物靠神经系统电脉冲和神经递质携带和传递。神经系统的功能是接收、传递内外环境中的信息,加以处理、分析,从而控制和调节机体各部功能,对环境作出适当的反应。因此,神经信息对于有机体的生存以及正常生活起着至关重要的作用。
化学信息是除上述两类物质外由化学介质传递的信息。生物体的各种功能能够有条不紊地进行,对环境能及时做出反应,是由于生物体内存在着通过各种各样的化学信息分子进行传递的信息系统。
生物信息在生物研究中有重要作用,然而,原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。因此,生物信息学便是生物信息在生物研究中重要应用。
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。生物信息学研究对象是生物信息。其研究重点主要体现在基因组学和蛋白学两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。
生物信息学作为基因组研究的有力武器,被广泛地用来加快新基因的寻找过程,以达到将“有用”新基因抢先注册专利的目的。在这场世界范围内的竞争中,中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况将有限的投资投入以求获得最大可能的科学研究以及商业回报,是一个无法回避的新课题。
生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学,随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。
综上所述,对生物信息的研究对生物学的蓬勃发展具有重要作用。
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.
3, 基因识别,非编码区分析研究.
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.
8.生物系统的建模和仿真
随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。
9.生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10, 生物图像
没有血缘关系的人,为什么长得那么像呢?
外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?
有什么生物学基础?基因是不是相似?我不知道,希望专家解答。
11, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.
生物信息学专业就业方向及前景分析如下:生物信息学专业培养德、智、体、美全面发展,具有较好的分子生物学、计算机科学与技术、数学和统计学素养,掌握生物信息学基本理论和方法,具备生物信息收集、分析、挖掘、利用等方面的基本能力,能在科研机构、高等学校、医疗医药、环境保护等相关部门与行业从事教学、科研、管理、疾病分子诊断、药物设计、生物软件开发、环境微生物监测等工作的高级科学技术人才。
生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量生物数据所包含的生物学意义。它随1990年人类基因组计划(HGP)的实施和信息技术的发展而诞生,现已迅速发展成为当今生命科学最具吸引力和重大的前沿领域,为生物学、计算机科学、数学、信息科学等专业的高素质人才提供了更广阔的发展天地。
学生主要学习生物信息学的基本理论和方法,受到相关科学实验和科学思维的基本训练,具有较好的分子生物学、计算机科学与技术、数学和统计学素养,具备生物信息的收集、分析、挖掘、利用等方面的基本能力,具有较好的业务素质。
该专业对生物、计算机科目要求较高。该专业适合对自然科学感兴趣,热爱生物信息研究的学生就读。
1.掌握普通生物学、生物化学、分子生物学、遗传学等基本知识和实验技能; 2.掌握计算机科学与技术基本知识和编程技能(包括计算机应用基础、Linux基础及应用、数据库系统原理、模式识别与预测、生物软件及数据库、Perl编程基础等),具备较强的数学和统计学素养(高等数学I、II、生物统计学等); 3.掌握生物信息学、基因组学、计算生物学、蛋白质组学、生物芯片原理与技术的基本理论和方法,初步具备综合运用分子生物学、计算机科学与技术、数学、统计学等知识和技能,解决生物信息学基本问题的能力; 4.掌握生物信息学资料的查询、文献检索及运用现代信息技术获得相关信息的基本方法,具有一定的实验设计、结果分析、撰写论文、参与学术交流的能力; 5.熟悉国家生物信息产业政策、知识产权及生物安全条例等有关政策和法规; 6.了解生物信息学的理论前沿、应用前景和最新发展动态; 7.具有较好的科学人文素养和较强的英语应用能力,具备较强的自学能力、创新能力和独立解决问题的能力; 8.具有良好的思想道德素质和文化素养,身心健康; 具有较好的科学素质、竞争意识、创新意识和合作精神。
这种最基本的东西没必要求论文啊,自己随便写写就好了,用个DNAMAN,随便挑个基因,分分钟搞出来。再者没人会拿这种东西单独去发一篇论文吧?这点东西根本不够资格,只够在某篇论文里的两句话的分量。