这种最基本的东西没必要求论文啊,自己随便写写就好了,用个DNAMAN,随便挑个基因,分分钟搞出来。再者没人会拿这种东西单独去发一篇论文吧?这点东西根本不够资格,只够在某篇论文里的两句话的分量。
生物医学信息检索论文
当代,论文常用来指进行各个学术领域的研究和描述学术研究成果的文章,简称之为论文。下面是生物医学信息检索论文,请参考!
生物医学信息检索课程中双语教学研究
摘要: 本文探讨了双语教学在生物医学信息检索课程中的应用,小结了医学信息检索课程双语教学的方法和技巧,并基于教学实践,对潜在的问题提出了相应的解决方案。
关键词: 生物医学信息检索;双语教学;高等教育
0前言
21世纪全球经济一体化,科学技术飞速发展,英语作为国际上的全球化通用语言,其重要性不言而喻,它发挥的马太效应已经愈来愈明显。而我国传统的英语教育更侧重于理论知识的学习,对更为实际的语言应用能力则有所忽视,尤其是专业英语的教育存在较大的空白,导致相当多的学生在专业领域内英语的实际运用能力有限。但是现如今,无论是各类型企业还是科研机构,对同时具备良好的专业知识和高水平的英语应用能力的人才的需求非常大。可以说,作为高层次的人才,仅仅具备专业知识,而英语应用能力存在短板会极大地限制专业水平的进一步提高,降低国际交流与协作的效率,对职业生涯造成无法低估的伤害。高等教育应从多方面入手,努力培养有国际视野的“专业+英语”复合型人才,满足这一需求。双语教学作为一种与国际接轨的教学模式,一方面有利于提高学生的英语学习能力,另一方面可以更快速更全面地获取专业相关的科技进展,有利于提升学生的专业水平。而生物医学信息检索是一门关于信息获取、知识更新的课程,只有当学生具备良好的英语能力,才能更高效更全面地获取最前沿的信息,学习最先进的知识,更好地服务于生物医学行业。将双语教学应用于生物医学信息检索,是一个事半功倍的方法。①②笔者在生物医学信息检索的双语教学实践中,总结了一些方法与技巧,并对其潜在的问题提供相应的解决方案。
1方法与技巧
1.1精选教材且及时调整课程难度
“工欲善其事,必先利其器”,双语教学的首要问题便是双语教材的选择,教材选择的好与坏,直接影响着教学效果的好坏。教育部高等教育司曾提出:“在有条件的高等学校的某些信息科学和技术课程中推动使用国外优秀教材的影印版进行英语或双语教学,以缩短我国与国际先进水平的差距,同时也有助于强化我国大学生的英语水平。”原版外文教材在内容上更具有前瞻性、专业的前沿知识也更加规范和优越,更利于学生接触到新知识,选择原版外文教材也是营造全英文环境的一个有利措施,可以高效率地学习专业词汇的使用、专业内容的表达。但是,到目前为止,我国的生物医学信息检索的双语教材选择比较少。而直接采用美国等发达国家的生物医学信息检索原版教材,其课程内容并不一致,而且由于国外教材是按照英文的思维方式编写的,对于学生来讲难度较大,会对学生造成很大的学习压力。综合以上原因,我们在授课中参考了国外的一部分原版教材以后,自编了适合学生全英文的教材和练习。该教材兼顾学生按教学大纲要求掌握专业知识和基本技能,重点强调与现行的生物医学前沿进展的联系。最后在教学实践过程中,根据学生的学习和掌握情况随时进行修改和调整。
1.2多媒体教学结合上机实践
现代计算机和网络的普及大大减轻了双语教学中的困难。随着网络技术的发展和网络信息资源的大幅度增长,生物医学信息检索也更多地在网络上进行。为了配合这一现实的应用现状,我们在教学中采用了教师多媒体讲授和学生上机实践相结合的方式,旨在让学生们能摆脱纸上谈兵的桎梏,充分地将字面的知识固化为自己掌握的本领,能利用网络进行生物医学信息的检索。教师在教学中利用课件控制,对临场情况做出及时的响应调整教学策略和学习内容,以适应动态教学环境所带来的变化。在多媒体演示教学环境中,老师可将操作过程和所得到的结果展现在学生面前,让学生亲自动手操作,以使学生对知识的理解更加具体透彻。上机实践使得整个教学环境由静态向动态转变。这个方式一则是充分发挥学生的积极主动性,从老师“教”转化为学生“学”,二则有利于学生将理论学习和技能提升有机地结合在一起。这一方式在没有增加学时的情况下,本科生的生物医学信息检索课程的教学质量有了比较大的提升,得到学生的普遍好评。
1.3小班教学增强师生交流
双语教学要考虑到学生之间的水平差异,采用小班教学的模式。我们在教学中发现双语教学的最大困难在于学生之间存在专业英语水平的差异,尤其是对于生源来源广泛的民族院校,这种情况尤其突出,教师如何平衡这种差异、并且及时调整教学的进度和难度是重中之重。而小班教学的方式能够保证信息的充分交流和师生的顺畅沟通,有利于增进学生对专业知识的理解和应用,也可以给授课老师及时反馈。小班教学可以营造一个良好的每个人都可以参与其中的双语氛围,获得更好的教学效果。
2问题与对策
2.1加强专业英语学习
笔者在双语教学实践中发现,教学效果的好坏很大程度取决于学生自身的英文水平,尤其是专业英文水平。当学生的专业英文水平有限的'时候,会出现不能理解关键词的准确含义、无法阅读摘要的主要内容,进而不能获得所需要的信息。在这种情形之下,无论老师如何讲授信息检索的原理,介绍信息检索的方法,对于学生来讲,都会出现茫然不知所措的状态。比如说指定检索癌症相关信息,部分同学只知道cancer可以表示癌症,不知道还有tumor、carcinoma也可以表示癌症,并且词义在医学领域存在差异。再比如,在表述胃癌的时候,可以用stomachcancer,也可以用gastricCancer。针对这一情况,笔者在授课之初会详细讲解MeSH(MedicalSubjectHeadings),即由美国国家医学图书馆建立的一套完整详细的生物医学领域的主题词库。同时,笔者也建议先导课的专业课老师在授课的过程中,尽量采用全英文幻灯片展示,中英文对照学习的方式。上述措施可以有意识地帮助学生扩大专业词汇量和帮助学生理解专业描述,进而帮助学生克服双语教学中的最大障碍。这是从根本上解决双语教学对于学生来说较为困难的方式,也唯有真正具备良好的专业英语水平才可以从本质上掌握生物医学信息检索的方法,才能够满足今后的学习和工作的需求。另一方面,对于生物医学数据库的英文界面不熟悉才会增加学生学习的难度。笔者比较困惑的是,在上课之初,一部分同学不太理解starmenu的含义,对于全英文界面的数据库NCBI(NationalCenterforBiotechnologyInformation),ScienceDirect,Highwire,以及软件Endnote初次接触的时候更是如同看天书。这本身并不困难,但是会极大地增加学生的心理压力,所以这需要授课老师对界面进行详细的讲解和介绍,并给予学生足够的时间去熟悉界面,达到能够熟练掌握的水平,消除学生的畏难心理。
2.2循序渐进
为了避免在学习过程中,学生出现习得性无助的情况,双语教学一定要采用循序渐进的方式进行。切忌一开始就加重学习任务加大学习难度,这样的结果是多数同学会跟不上老师的进度,产生严重的厌学心理,进而会完全放弃这门课程的学习。教师授课以前需要对学生的英文水平和专业覆盖面有一个大概的了解,和学生沟通交流他们的学习兴趣、需求和困难所在,并根据获取的信息结合教学大纲及时调整授课的内容、重点和难点。当学生第一次接触到该门课程的双语学习时,教师需利用其最初的新奇感和参与意识激发同学们的学习兴趣,从简到难的学习进度中,让同学们自主地参与到课程的学习中来,收获到成功的喜悦是进一步深入学习的强大动力。教师在课堂讲授中要循序渐进地增加英语表达的比例,在遇到部分专业词汇时需要做详尽的中文解释;在遇到英文表意较为复杂的情况也需要辅以中文指导,全场和学生保持沟通顺畅,把握教学难点和内容。双语授课不能单纯为了英文表达而表达,忽视了学生在课堂上专业水平的提升。同时也可以让学生自发组成学习小组,让英语基础比较好的同学带动其他同学的学习,同学之间互相促进互相合作,形成一个良好的互动氛围,从教师的“教”彻底转变为学生的“学”,让所有的同学参与到这个过程中来,避免个别同学落后于集体学习进度的情况。
3结语
双语医学信息检索这门课程既有利于学生英语应用能力的提高,同时也有利于学生专业知识的扩展和深化,可以极大地增强学生在今后的深造和就业中的竞争力。虽然这门课中还存在很多问题有待我们做进一步思考与改进,但是只要我们勇于拓新,这门课一定会发挥其作用、展现其价值。随着高等教育中教育理念的更新,双语教学在医学信息检索教学课中的运用会真正服务于学生,服务于社会。
一, 生物信息学发展简介
生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就
必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结
构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物
成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),
在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们
仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.
1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧
定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin
用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和Francis
Crick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形
成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基
对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的
遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.
DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大
肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接
成DNA.DNA的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验
方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递
的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心
法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起
到了极其重要的指导作用.
经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码
得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程
的技术基础.
正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息
学的出现也就成了一种必然.
2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮.
由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每
天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一
个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发
现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域
的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA
序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,
分子演化及结构生物学,统计学及计算机科学等许多领域.
生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信
息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核
苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在
发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的
功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根
据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研
究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗
传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研
究的前沿.
二, 生物信息学的主要研究方向
生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些
主要的研究重点.
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似
性.从生物学的初衷来看,这一问题包含了以下几个意义[3]:
从相互重叠的序列片断中重构DNA的完整序列.
在各种试验条件下从探测数据(probe data)中决定物理和基因图
存贮,遍历和比较数据库中的DNA序列
比较两个或多个序列的相似性
在数据库中搜索相关序列和子序列
寻找核苷酸(nucleotides)的连续产生模式
找出蛋白质和DNA序列中的信息成分
序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前
两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权
和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个
序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海
量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算
法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的
BALST和FASTA算法及相应的改进方法均是从此前提出发的.
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.
蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般
相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),
蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸
的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.
研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找docking
drugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.
直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构
在进化中更稳定的保留,同时也包含了较AA序列更多的信息.
蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应
(不一定全真),物理上可用最小能量来解释.
从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同
源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用
于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较
进化族中不同的蛋白质结构.
然而,蛋白结构预测研究现状还远远不能满足实际需要.
3, 基因识别,非编码区分析研究.
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组
序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢
弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序
列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码
区DNA序列目前没有一般性的指导方法.
在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已
完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序
列是难以想象的.
侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔
可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden
Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进
化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相
关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似
性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.
早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化
的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角
度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:
Orthologous: 不同种族,相同功能的基因
Paralogous: 相同种族,不同功能的基因
Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.
这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白
质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统
的聚类方法(如UPGMA)来实现.
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,
如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列
全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直
至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个
NP-完全问题.
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上
一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.
不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说
来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源
和检验上述理论的真伪提供了新的素材.
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,
相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物
治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要
的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础
上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一
领域目的是发现新的基因药物,有着巨大的经济效益.
8, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,
逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的
学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组
学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学.
从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对
与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认
识.
三, 生物信息学与机器学习
生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.
常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问
题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完
备的生命组织理论.
西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作
时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采
用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"
模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.
机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能
[5].
机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,
而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花
费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,
快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因
而,生物信息学与机器学习相结合也就成了必然.
机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是
统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推
理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马
尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和
探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般
的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析
(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(Locally
Linear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可
看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于
microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数
据库中获得相应的现象解释.
机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多
假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息
学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻
找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络
和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.
四, 生物信息学的数学问题
生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息
学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型
(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质
空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓
扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理
论或多或少在生物学研究中起到了相应的作用.
但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学
和度量空间为例来说明.
1, 统计学的悖论
数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖
论莫过于均值了,如图1:
图1 两组同心圆的数据集
图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也
就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多
的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法
和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于
对数据的结构缺乏一般性认识而产生的.
2, 度量空间的假设
在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举
例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分
值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.
那么,是否这种前提假设具有普适性呢
我们不妨给出一般的描述:假定两个向量为A,B,其中,
,则在假定且满足维数间线性无关的前提下,两个
向量的度量可定义为:
(1)
依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息
学中常采用的一般性描述,即假定了变量间线性无关.
然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考
虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的
度量公式可由下式给出:
(2)
上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足
(3)
时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线
性相关性,我们正在研究这个问题.
五, 几种统计学习理论在生物信息学中应用的困难
生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却
一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的
巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来
改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov
复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介
绍.
支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计
学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则
采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性
质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函
数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核
函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选
择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中
又一个大气泡.
Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习
的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov
复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只
适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参
数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.
BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的
惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近
年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验
的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索
的空间.
六, 讨论与总结
人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平
上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互
关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这
些问题做出探讨和思索.
启发式方法:
Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优
的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得
到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的
困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能
达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,
要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,
要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工
智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.
问题规模不同的处理:
Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数
据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这
好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法
一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同
样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据
挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用
动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.
乐观中的隐扰
生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因
组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在
的隐扰呢
不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出
十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相
同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成
果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,
这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的
本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不
能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现
实.
反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从
结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所
有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来
自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人
工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的
功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我
们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐
观呢 现在说肯定的话也许为时尚早.
综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,
是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为
各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方
面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全
明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正
的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从
数学上的新思路来获得本质性的动力.
毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,
这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列
以及相关的内容,我们还有相当长的路要走.
(来源 ------[InfoBio.org | 生物信息学研讨组])
生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
生物信息学是一门利用计算机技术研究生物系统之规律的学科。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?
生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。
生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学
姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。
原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。
摘要:现代生物技术制药工业始于1971年,现已创造出35个重要治疗药物,全球大约有2500多家公司,
主要产品有重组蛋白质药品、重组疫苗和诊断、治疗用的单克隆机体三大类。我国自80年代开始进行现
代生物技术药品的研究和开发,到1998年7月底,我国已有近200多个现代生物技术制药企业,已有14种
现代生物技术药品和疫苗投产,已经批准进入临床的有近10种药,正在进行临床前研究的有10多种。在
采用现代生物技术改造传统生物技术制药产业方面已取得初步成果。但我国生物技术诊断试剂、酶工程
、动植物细胞工程医药产品、现代生物技术支撑技术、后处理技术和制剂技术等方面与国外还存在差距
。其中不重视中试放大过程是影响我国生物技术产业化发展的一个很重要的原因。
关键词:生物技术制药 生物技术的应用 生物技术发展 生物药物研究进展
生物技术药物(biotech drugs)或称生物药物(biopharmaceutics)是集生物学、医学、药学的先进
技术为一体,以组合化学、药学基因(功能抗原学、生物信息学等高技术为依托,以分子遗传学、分子
生物、生物物理等基础学科的突破为后盾形成的产业。现在,世界生物制药技术的产业化已进入投资收
获期,生物技术药品已应用和渗透到医药、保健食品和日化产品等各个领域,尤其在新药研究、开发、
生产和改造传统制药工业中得到日益广泛的应用,生物制药产业已成为最活跃、进展最快的产业之一。
有些学者认为,20世纪的科学技术是以物理学和化学的成就占主导地位,而21世纪的科学技术是以生物
学的成就占主导地位。无论这种说法是否得到普遍的认同,生物技术是当今高技术中发展最快的领域似
乎是不争的事实。 科学家预测,生命科学到2015年会取得革命性进展。这些进展可以帮助人类解决很多
目前无法医治的疾病的治疗问题,彻底消除营养不良,改善食品的生产方式,消除各种污染,延长人类
寿命,提高生命质量,为社会安全和刑侦提供新的手段。有些成果还可以帮助人类加速植物和动物的人
工进化以及改善生态环境对人类的影响等。产生新的有机生命的研究也会取得进展。
1.生物制药现状
目前生物制药主要集中在以下几个方向:
1 肿瘤 在全世界肿瘤死亡率居首位,美国每年诊断为肿瘤的患者为100万,死于肿瘤者达54.7
万。用于肿瘤的治疗费用1020亿美元。肿瘤是多机制的复杂疾病,目前仍用早期诊断、放疗、化疗等综
合手段治疗。今后10年抗肿瘤生物药物会急剧增加。如应用基因工程抗体抑制肿瘤,应用导向IL-2受体
的融合毒素治疗CTCL肿瘤,应用基因治疗法治疗肿瘤(如应用γ-干扰素基因治疗骨髓瘤)。基质金属蛋白
酶抑制剂(TNMPs)可抑制肿瘤血管生长,阻止肿瘤生长与转移。这类抑制剂有可能成为广谱抗肿瘤治疗剂
,已有3种化合物进入临床试验。
2 神经退化性疾病 老年痴呆症、帕金森氏病、脑中风及脊椎外伤的生物技术药物治疗,胰岛素生长
因子rhIGF-1已进入Ⅲ期临床。神经生长因子(NGF)和BDNF(脑源神经营养因子)用于治疗末稍神经炎,肌
萎缩硬化症,均已进入Ⅲ期临床。
美国每年有中风患者60万,死于中风的人数达15万。中风症的有效防治药物不多,尤其是可治疗不
可逆脑损伤的药物更少,Cerestal已证明对中风患者的脑力能有明显改善和稳定作用,现已进入Ⅲ期临
床。Genentech的溶栓活性酶(Activase重组tPA)用于中风患者治疗,可以消除症状30%。
3 自身免疫性疾病 许多炎症由自身免疫缺陷引起,如哮喘、风湿性关节炎、多发性硬化症、
红斑狼疮等。风湿性关节炎患者多于4000万,每年医疗费达上千亿美元,一些制药公司正在积极攻克这
类疾病。如 Genentech公司研究一种人源化单克隆抗体免疫球蛋白E用于治疗哮喘,已进入Ⅱ期临
床;Cetor′s公司研制一种TNF-α抗体用于治疗风湿性关节炎,有效率达80%。Chiron公司的β-干扰素用
于治疗多发性硬化病。还有的公司在应用基因疗法治疗糖尿病,如将胰岛素基因导入患者的皮肤细胞,
再将细胞注入人体,使工程细胞产生全程胰岛素供应。
4 冠心病 美国有100万人死于冠心病,每年治疗费用高于1 170亿美元。今后10年,防治冠心
病的药物将是制药工业的重要增长点。Centocor′s Reopro公司应用单克隆抗体治疗冠心病的心绞痛和
恢复心脏功能取得成功,这标志着一种新型冠心病治疗药物的延生。
基因组科学的建立与基因操作技术的日益成熟,使基因治疗与基因测序技术的商业化成为可能,正在达
到未来治疗学的新高度。转基因技术用于构造转基因植物和转基因动物,已逐渐进入产业阶段,用转基
因绵羊生产蛋白酶抑制剂ATT,用于治疗肺气肿和囊性纤维变性,已进入Ⅱ,Ⅲ期临床。大量的研究成果
表明转基因动、植物将成为未来制药工业的另一个重要发展领域。
2.生物制药展望
今后10年生物技术将对当代重大疾病治疗剂创造更多的有效药物,并在所有前沿性的医学领域形成
新领域。目前热门的药物生物技术如下:
表1 热门药物生物技术
技 术 新颖性 技 术 新颖性
组合化学 成熟领域 前导物综合鉴定技术 新生技术
药学基因组科学 发展领域 核糖酶 新生技术
蛋白质工程 发展领域 抗体酶 新生技术
基因治疗 发展领域 药物设计与人工智能 新生技术
糖类治疗剂 发展领域 功能抗原 新生技术
表2 正在研究开发的生物技术药物类型
领 域 开发药物品种 领 域 开发药物品种
单克隆体 78 人生长激素 5
疫苗 62 组织纤溶酶原激活剂 4
基因治疗 28 凝血因子 3
白介素 11 集落细胞刺激因子 3
干扰素 10 促红细胞生成素 2
生长因子 10 SOD 1
重组可溶性受体 6 其他 56
反义药物 6 总数 284
生物学的革命不仅依赖于生物科学和生物技术的自身发展,而且依赖于很多相关领域的技术走向,
例如微机电系统、材料科学、图像处理、传感器和信息技术等。尽管生物技术的高速发展使人们难以作
出准确的预测,但是基因组图谱、克隆技术、遗传修改技术、生物医学工程、疾病疗法和药物开发方面
的进展正在加快。
除了遗传学之外,生物技术还可以继续改进预防和治疗疾病的疗法。这些新疗法可以封锁病原体进入人
体并进行传播的能力,使病原体变得更加脆弱并且使人的免疫功能对新的病原体作出反应。这些方法可
以克服病原体对抗生素的耐受性越来越强的不良趋势,对感染形成新的攻势。
除了解决传统的细菌和病毒问题之外,人们正在开发解决化学不平衡和化学成分积累的新疗法。例如,
正在开发之中的抗体可以攻击体内的可卡因,将来可以用于治疗成瘾问题。这种方法不仅有助于改善瘾
君子的状况,而且对于解决全球性非法毒品贸易问题具有重大影响。
各种新技术的出现有助于新药物的开发。计算机模拟和分子图像处理技术(例如原子力显微镜、质
量分光仪和扫描探测显微镜)相结合可以继续提高设计具有特定功能特性的分子的能力,成为药物研究和
药物设计的得力工具。药物与使用该药物的生物系统相互作用的模拟在理解药效和药物安全方面会成为
越来越有用的工具。例如,美国食品药物管理局(FDA)在药物审批的过程中利用Dennis Noble的虚拟心
脏模拟系统了解心脏药物的机理和临床试验观测结果的意义。这种方法到2015年可能会成为心脏等系统
临床药物试验的主流方法,而复杂系统(例如大脑)的药物临床试验需要对这些系统的功能和生物学进行
更为深入的研究。
到下世纪初生物技术药物的种类数目尚不会超过一般药物的总数,但生物技术制药公司总数将超过
前10年的6倍。目前主要生物技术公司多分布在美国,如Amgen,Genetics institute,Genzyme,Genentech
和Chiron,还有Biogen也发展较快。1987年尚没有一种重组DNA药物进入世界药品销售额排名前列表,但
到1996年已有多种生物工程药物榜上有名。经上市的生物技术药物主要含3大类,即重组治疗蛋白质、重
组疫苗和诊断或治疗用的单克隆抗体。
药物的研究开发成本目前已经高到难以为继的程度,每种药物投放市场前的平均成本大约为6亿美
元。这样高的成本会迫使医药工业对技术的进步进行巨大的投资,以增强医药工业的长期生存能力。综
合利用遗传图谱、基于表现型的定制药物开发、化学模拟程序和工程程序以及药物试验模拟等技术已经
使药物开发从尝试型方法转变为定制型开发,即根据服药群体对药物反应的深入了解会设计、试验和使
用新的药物。这种方法还可以挽救过去在临床试验中被少数患者排斥但有可能被多数患者接受的药物。
这种方法可以改善成功率、降低试验成本、为适用范围较窄的药物开辟新的市场、使药物更加适合适用
对症群体的需要。如果这种技术趋于成熟,可以对制药工业和健康保险业产生重大影响。
值得注意的是,制药工业的知识产权保护在世界各地是不平衡的。某些地区(例如亚洲)会继续以生
产专利过期药物为主,有些地区(如美国和欧洲)除了继续生产低利润的药物外会不断开发新的药物。
总之,综合多学科的努力,通过新技术的创立可以大大拓宽发明新药的空间,增加发明新药的机遇
与速度。因为这些手段可以寻找快速鉴定药物作用的靶,更有效地发现更多新的先导物化学实体,从而
为发明新药提供更加广阔的前景。
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.
3, 基因识别,非编码区分析研究.
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.
8.生物系统的建模和仿真
随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。
9.生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10, 生物图像
没有血缘关系的人,为什么长得那么像呢?
外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?
有什么生物学基础?基因是不是相似?我不知道,希望专家解答。
11, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.