这种最基本的东西没必要求论文啊,自己随便写写就好了,用个DNAMAN,随便挑个基因,分分钟搞出来。再者没人会拿这种东西单独去发一篇论文吧?这点东西根本不够资格,只够在某篇论文里的两句话的分量。
生物技术的主要作用是通过农业和医药的进步,提高我国人民的健康保障,生物技术在我国的健康保障中作出了极大的贡献。下面是我整理了关于生物科技论文2000字 范文 ,欢迎阅读!
生物科技论文2000字范文篇一:《谈谈生物高科技的发展》
摘要:生物技术的主要作用是通过农业和医药的进步,提高我国人民的健康保障。生物技术有着诱人的前景,是我国经济发展的希望所寄,它不仅能成为重要的生财之道,而且可能成为二十一世纪的经济支柱,对人类做出重大贡献。
关键词:生物 高科技 发展
中国是一个发展中国家,农业是我国发展国民经济的基础,它为人民提供生活的基本需要。生物技术的主要作用是通过农业和医药的进步,提高我国人民的健康保障。从这一意义上来说,我国发展生物技术的目标应不同于发达国家,应有自己的特色。
1、政策与策略
(1)生物技术应置于我国高科技发展计划之首,因为,生物技术的进步可以改造农业,包括谷物,肥料和家畜。
(2)优先发展农业包括农林牧渔,其次是医药卫生、轻工与食品领域内的生物技术新产品。研究的重点要向农业倾斜。生物技术的发展应尽快形成高技术生产体系。研究项目应是有限目标,优先发展一批国内急需、技术成熟、经济效益和社会效益显著、国内有一定基础和条件的生物技术新产品。
(3)采用现代生物技术,加速传统产业的技术改造,以提高技术水平和产量,改进产品质量,增加品种,减少环境污染。为此,在农业方面,我们应采用新技术与传统技术相结合的 方法 ,加强优良品种的选育;在医药、轻工业方面,积极采用遗传工程、酶工程和发酵工程新技术,改革传统的生产工艺,以提高产量,增加效益。
(4)大力加强生物技术的开发工作。例如,大力研制新型发酵设备,它既可用于细菌培养,也可用于哺乳动物细胞培养;生产蛋白和核酸的纯化仪器和监测分析仪器等,以促进科研成果迅速转化为生产力。
(5)重视生物技术以及有关领域的基础研究。开展基础研究,可以为改进现有技术和发展新技术提供理论基础,也是消化吸收国外先进技术和培养人才的重要条件。要保持这一政策的连续性和稳定性。
(6)发展和健全必要的生物技术配套基础设施。例如建立限制性内切酶和其他修饰酶、同位素、蛋白质分离纯化和细胞培养介质的生产和供应系统,以及建立细胞库、基因库以及生物技术信息库。
(7)加强生物技术的国际学术交流,技术合作和技术引进。建立一批国家重点实验室,配备先进仪器,向国内外科学家开放。从发达国家引进先进的关键性技术应当是成熟的技术,同时又是国内国民经济建设所急需的技术。
(8)开展生物技术的立法工作。这是为了防止在发展生物技术的过程中可能带来的副作用,特别是操作重组DNA。
2、预测与展望
从生物发展趋势及其潜在能力考虑,我国如果在人才培养、研究开发及经费的筹措方面能以合理安排,我国的生物技术将会在原有发酵工业基础上形成一个崭新的工业体系,在农业上也将会取得较大效益。
2.1 生理活性物质的生产
作为医药品而大量需要的生长素、胰岛素、干扰素等肽类物质和乙肝疫苗、尿激酶等,目前在我国还是从动物或人体组织中提取精制的,多数不能实现批量生产,成本高,售价昂贵。应用生物技术生产此类药品的研究已见成效,将为人类带来福因。
2.2 酶制剂的生产
随着酶催化技术的开发和固定化酶反应器技术的应用,酶制剂的生产将会有较大发展。目前,世界酶制剂总产量中60%是蛋白酶,主要用于洗涤剂、制革和乳品加工。我国酶制剂的种类和数量都还不多,有些酶的应用市场也还没有打开。诊断、医药和试剂用酶在我国酶制剂消费比例中大约占10%左右,这方面的发展潜力很大,尤其是酶诊断盒的开发,有可能形成新的产业。
2.3 抗生素的生产
我国抗生素工厂生产抗生素的种类有五、六十种。但是,抗生素的品种结构极不合理。今后,将可能把重点研究开发工作放在β―内酰胺类抗生素的研制上。农用抗生素是抗生素工业的一大分支。在国外仅被用作饲料添加剂的抗生素就有18种之多,伴随我国饲料工业的大发展,农用抗生素将会作为新的产业门类被人们重视起来。
2.4 氨基酸、有机酸和多糖的生产
用生物技术生产的氨基酸有18种,世界上除半数用于食品、医药外,一半是作为饲料添加剂。赖氨酸、色氨酸、蛋氨酸的需求量将会逐年增加。我国在饲料用氨基酸的开发方面起步晚,大力开发饲料用赖氨酸、色氨酸、蛋氨酸的生产将是今后的重点任务。与此同时,也要大力开发 其它 医用氨基酸。
为了提高氨基酸产率,用基因工程和细胞融合技术培养新菌种的工作今后会有所加强。以固定化酶或固定化细胞技术生产氨基酸有可能在工业上得到应用。
有机酸和微生物多糖的生产,在今后会有新的发展。尤其用微生物生产的黄杆菌胶,普鲁兰和环状糊精等多糖因其在石油工业和食品工业上有较大用途,很可能被开辟为一个新的产业。
2.5 单细胞蛋白工业
单细胞蛋白这一技术领域因为同废物的处理与再利用和提供人类需要的蛋白质食品有关,所以受到人们的重视。我国单细胞蛋白的生产包括面包酵母,药用酵母和饲用酵母几方面。
现在以糖蜜和多种工业废水为原料的单细胞蛋白生产都取得了技术的突破。不久将出现以糖蜜、味精废液、酒精废液等生产单细胞蛋白的企业群。我国的单细胞蛋白工业一定会发展起来。
2.6 农牧业生产
生物技术在农牧业生产方面,已经和将继续显示它的重要作用。我国在应用组织培养快速繁殖、用基因工程和细胞融合育种以及胚胎移植等方面取得了一定成果和进展,并已培育出一些优良的动植物新品种。今后在用生物新技术培育高产优质或抗逆(包括抗旱、抗盐碱、抗除莠剂)作物新品种及动物良种的工作还会不断加强,构建高效固氮生物体系,培育高效固氨微生物菌株定会取得新的进展。动物胚胎的移植和分割技术也会在良种繁殖上得到广泛应用。用杂交瘤制备的单克隆抗体,用于作物、畜、禽和鱼类疾病的快速论断也将逐步得到推广和普及。
此外,用生物技术保护环境、净化工业废水,以自然界的废物及生物量为原料生产能源燃料,采用细菌浸矿开采与提炼有色金属,尤其在基础化学领域内应用生物技术制造有用产物方面都已取得一些成果和提出一批新的研究课题,并展示出美好的前景。
3、结语
总之,生物技术有着诱人的前景,是我国经济发展的希望所寄,它不仅能成为重要的生财之道,而且可能成为二十一世纪的经济支柱,对人类做出重大贡献。
生物科技论文2000字范文篇二:《当代蚕桑生物科技发展现状综述》
摘要:近50年来,我国蚕桑科学技术迅速发展,在分子生物学基础理论研究、蚕丝蛋白生物材料开发及应用、家蚕基因工程技术、家蚕性别控制与专养雄蚕技术、昆虫激素在蚕业上的应用、家蚕变态发育的人为调控、家蚕营养生理与人工饲料研究、蚕体作为生产重组蛋白的生物反应器、桑树栽培与遗传育种新技术开发和蚕桑生物资源综合利用等方面有了长足的进步,极大地促进了蚕业生产向深度与广度拓展。蚕桑生物科技发展与国计民生息息相关,蚕桑生物科技的发展,必将推动我国养蚕业的发展,为广大蚕农增加收益,带动丝绸业及其相关产业的发展,推进蚕桑生物科学的发展,也为生物科普 教育 提供丰富的资源,使传统蚕桑业焕发生机活力。
回顾中国蚕业科学的发展历程,展望世界蚕业科技发展趋势,可以更加深刻地理解:蚕业科学是为蚕丝生产有关产业(栽桑、养蚕、制种、制丝)提供方法与原理的应用科学。面向未来,蚕业科学研究的重要任务是进一步提高蚕业生产中的科技含量,使养蚕业从劳动密集型迅速向知识密集型转变,而这个转变很大程度上依赖于蚕桑生物学基础研究的进展与应用技术的开发创新。
1 蚕丝分子生物学基础理论研究
丝蛋白分子结构与丝蛋白基因表达调控机制的进一步阐明,将为增产蚕丝、改进丝质提供分子生物学理论基础。飘逸润滑的桑蚕丝衣服是许多人的最爱,但让人苦恼的是,桑蚕丝很娇气,不耐穿,打理起来也格外麻烦。2014年11月,我国西南大学科学家培育重组基因蚕宝宝首次吐出了人工合成蚕丝蛋白。在家蚕16 425个基因中,有一个叫做Fib-H基因,它是控制丝蛋白产生的关键基因。研究者在家蚕的生殖细胞中“剪切”掉了其中的Fib-H基因,没有Fib-H基因的家蚕丝腺,叫做“空丝腺”。研究人员将事先设计好、与Fib-H基因类似的人工丝蛋白基因,显微注射到被敲除Fib-H基因的蚕卵中,人工丝蛋白基因转移成功的蚕卵发育成“蚕宝宝”后,吐出的丝中就含有人工合成丝蛋白。通过对蚕丝纤维的人为改良和重新设计,以后桑蚕丝可能会像棉质衣服一样,既保持桑蚕丝的舒适感,又像棉质衣服一样耐穿、好打理。
2 家蚕丝蛋白生物材料新功能的开发及应用
家蚕丝蛋白是一种具有良好透气与透湿性、无毒、无刺激、与人体相容性强的生物材料。家蚕丝蛋白不仅可作为人造皮肤、血管、肌腱、韧带、骨骼和牙齿等人造组织材料,以及作为手术缝合线、隐形眼镜、角膜、抗血凝剂、药物控释材料、功能性细胞培养基质、固定化酶载体和生物传感器等生物医学材料还在环保新材料、化妆品、保健营养食品等日化和环保领域被广泛使用。随着家蚕基因组研究工作的重大进展,以及基因工程和生物技术的快速进步,家蚕丝蛋白的生物功能有望在军事、航天、医学、环保等领域得到更深、更广地开发和应用。
3 家蚕基因工程技术
桑蚕不仅是一种重要的经济昆虫,而且是研究真核生物基因表达调控的模式生物之一。将外源基因转移到桑蚕中以实现其在蚕体内的表达,最终是要将外源基因整合桑蚕染色体,这样才有可能稳定遗传,获得转基因蚕。目前关于桑蚕的转基因报道主要有:桑蚕品系间的基因转移,其他动物的基因转入桑蚕体内,以及桑蚕的基因转入其他动物。例如中国科学院研究员陆长德等利用“电穿孔”法,将荧光蛋白基因及蜘蛛拖牵丝基因注入蚕卵,获得了吐出荧光“蜘蛛丝”的转基因蚕。蜘蛛丝中的拖牵丝是强度十分高、弹性十分强的天然蛋白纤维,若制成防弹衣则“刀抢难入”,织出降落伞牢固耐用;产生荧光的蚕丝则可用以开发天然夜光衣及各种防伪标签等。
4 家蚕性别控制与专养雄蚕技术
雄蚕与雌蚕相比,具有诸多的优势,一是体质强健,容易 饲养 ;二是食桑量少,饲料效率高;三是出丝率高,茧丝品质优,可缥制高品位生丝。专养雄蚕比目前的雌雄蚕各半混养,可较大幅度提高蚕丝的产、质量和蚕业经济效益。因此,专养雄蚕被称为继一代杂交种利用之后最有价值的一项创新技术。性连锁平衡致死基因的应用已有很大进展,俄罗斯科学院斯特隆尼柯夫育成的桑蚕性连锁平衡致死系,在此基础上经转育改良培育出多个雄蚕品种,雄蚕率达99.85%,可实现专养雄蚕的目标。专养雄蚕将成为21世纪提高桑蚕产丝能力和改善丝工艺性状的重大突破口。
5 昆虫激素在蚕业上的应用
蜕皮激素(MH)、保幼激素(JH)以及保幼激素类似物(JHA)在调节桑蚕生长发育、增产蚕丝及生产超细纤度生丝方面,已取得较大进展。例如,应用保幼激素和蜕皮激素可提高夏秋茧的品质,并较好地解决桑叶的余缺问题。发现了几种抗保幼激素活性物质,成功地诱导出三眠蚕,开发出了超细纤度优质茧丝。此外,使用抗保幼激素,可以缩短蚕期,提高劳动生产力和经济效益。
6 家蚕变态发育的人为调控
家蚕变态发育的人为调控是蚕丝业科学的根本性问题之一,人为调节家蚕的变态与发育对蚕丝业的生产结构与整体生产效益有重大影响。由于家蚕是完全变态昆虫,蛹期很短,仅为2周,而蛾口茧不适合于缫丝,生产上必需在蛹化蛾之前完成鲜茧的收购和烘干工作。人们希望通过人为调节家蚕的变态与发育,延长蛹期,减轻鲜茧收购和烘干的工作压力及强度,甚至希望蛹期发育中止,实现鲜茧缫丝。利用基因工程技术,采用精子介导法将带有蝎毒素基因的载体导入蚕卵,在蛹期特异性表达,杀死蚕蛹。这样,不仅可以解决鲜茧收烘与蛹期过短之间的矛盾,使提高生丝品位成为可能,而且还可以大大节约烘茧所需的能源。
7 家蚕营养生理与人工饲料研究
家蚕属于植食性昆虫。家蚕除嗜食桑叶外,尚能取食桑科的柘,菊科的蒲公英、莴苣,榆科的野榆等。但桑叶以外的植物叶,很难使蚕健康地生长发育和繁殖后代。在过去40年桑蚕摄食行为与营养生理学研究基础上,对广食性蚕品种选育及低成本人工饲料设计获得了长足进步,这就有可能在不久的将来,用低成本人工饲料在全自动化的工厂内实现全年养蚕,从而促进养蚕业由劳动密集型产业向知识密集型转化。例如日本早在20世纪90年代就成功选育出了嗜食低成本线性规划设计饲料的多对广食性蚕品种,日本的其他现行品种也都经过了人工饲料适应性选育,均具备良好的摄食性。我国蚕业界自20世纪90年代以来,在人工饲料适应性蚕品种和广食性蚕品种的选育方面也做了不少研究。山东省农业大学林学院蚕学系,近几年也开展了人工饲料适应性蚕品种的选育工作,并初步选育出摄食性较好的杂交组合广食一号和广食性饲料(主要成分:桑叶粉30%、豆粕粉25%、其它有淀粉、防腐剂、维生素、无机盐等)。 8 蚕体作为生产重组蛋白的生物反应器
“家蚕生物反应器”,是指将带有目的基因的重组杆状病毒植入家蚕的蚕蛹体内进行培养,蚕蛹会主动对植入基因进行转录和翻译,自然生成对人类有用的生物活性物质,通过高新技术(如超低温冷冻、低温干燥、高速离心等),将生物活性成分萃取并制成相关剂型,以满足人类疾病的治疗、预防和保健需求。家蚕易于饲养,成本低廉,它1天内可合成3 169 mg外源蛋白;其血淋巴具有储存蛋白的能力,淋巴内含有蛋白分解酶的抑制物,对目的蛋白起到保护作用,且外源蛋白又很容易从家蚕体液中分离纯化出来;还可以将家蚕直接磨碎用作药物或食品添加剂。因此,用家蚕生物反应器生产有用蛋白具有很大的优越性。如用家蚕来生产皮肤生长因子、乙肝疫苗等有高附加价值的蛋白质。
9 桑树栽培与遗传育种新技术开发
桑杂交育种、诱变育种和多倍体育种都是改良桑树品种的有效方法,也是提高单位面积产丝量的重要途径,而细胞工程和基因工程的研究与应用,也将为桑树育种提供新的途径和方法。全世界26个桑种,分布在中国的至少有15个,目前我国保存的桑品种资源达2600份,已选育出适应不同环境条件、栽培技术、养蚕要求和其他用途的优良桑品种50多个,其中栽培面积最多的是鲁桑系的荷叶白、桐乡青、团头荷叶白、湖桑197,育2号等品种。桑树栽培主要采用低杆密植、立体栽培管理模式,提高了桑叶产量、质量。
10 蚕桑生物资源综合利用
我国由蚕桑副产品加工成的许多产品已进入工业生产阶段,如利用桑叶、桑葚果制作桑叶茶、桑葚膏、桑葚酒,提取植物醇、叶绿素、胡萝卜素等;利用蚕蛹制备蚕蛹蛋白粉和多肽,分离家蚕抗菌蛋白和诱导生产生物活性蛋白,生产蚕蛹氨基酸及氨基酸络合物,提取蚕蛹油与壳聚糖,开发蚕蛹蛋白纤维、蚕蛹虫草等;利用废丝研究开发出了丝素粉、丝素膏、丝素液、丝素洗面乳、洗发护发剂等美容健肤化妆品。不仅提高了蚕业生产的综合效益,同时也提高了蚕业产品附加值,转变蚕桑生产经营目的,做大做强蚕桑产业,让蚕桑更好地造福人类。
参考文献:
[1] 王玉军,柳学广,徐世清.家蚕丝蛋白生物材料新功能的开发及应用[J].丝绸,2006(6):44-48.
[2] 何克荣,夏建国,黄健辉.桑蚕的性别控制与专养雄蚕的研究[J].蚕学通报,1998(3):2-3.
[3] 王晓娟,贡成良.转东亚钳蝎毒素基因对家蚕发育与生存率的影响[D].江苏:苏州大学,2010.
[4] 徐欣,郭晓琪等.广食性蚕品种“广食一号”对不同人工饲料和不同龄期饲养的适应性及主要经济性状鉴定初报[J].中国蚕业,2013(3):37-41.
[5] 王昌河,蒋平,曹林,郭聪.家蚕生物反应器的研究进展及开发前景[J].四川动物,2004(4):368-372.
生物科技论文2000字范文篇三:《试谈初中生物科技创新实践活动》
【摘 要】生物学科是现代科学技术的重要组成部分,因此,生物科技活动承担着培养青少年创新精神,创造能力及动手实践能力等任务,更是培养青少年热爱大自然,理解和关心生态保护,了解生物与农业、生物与医学、生物与工业及环境保护等的关系的首要途径,它还挖掘和培养生命科学领域的科技研究人才,为我国各项事业的发展筹备力量。生物科技创新实践活动具备科技创新实践活动的一切特点,在各学科的科技创新实践活动中占有较大比重。笔者运用行动研究法的计划、行动、观察、 反思 四个过程,对学生较为困惑的选题环节,采取集中培训、个案分析、跟踪调查等形式解决遇到的实际问题,并及时 总结 经验 和积累案例素材,取得了较好的效果。
【关键词】科技创新;实践活动;课题研究
当今世界。国家与国家之间的竞争十分激烈,其竞争的焦点集中在科学技术的竞争,而科学技术的竞争核心又是人才的竞争。衡量人才的标准是看其创新能力或创新才能,因此党中央提出,建设创新型国家,核心是创新人才的培养。
一、初中生物科技创新实践活动中相关概念的界定
生物学科是一门实验学科,注重人与自然的和谐发展,又和日常生活密切联系。生物科技创新实践活动在学校的开展,既可以给学生实践机会,锻炼他们的动手操作能力,增强社会责任感和 社会实践 能力,又可以培养学生科学的思维习惯和良好的合作精神。实现塑造人格、提高科学素养和创新能力的目标。
二、选题阶段的探索与实践
依据《全日制义务教育生物课程标准》“面向全体学生、提高生物科学素养、倡导探究学习”的理念,笔者充分利用所在学校现有教育环境条件,结合初中学生特点,探索和研究初中生物科技创新实践中的操作性方法,指导学生开展生物科技创新课题研究。解决在此活动中遇到的实际问题,以期为科技教育和广大一线科技活动教师提供一定的借鉴,并为科技创新实践活动积累一定实践路径和方法。
在开展科技创新实践活动前,笔者曾对学生作过问卷调查,65.38%学生认为选题环节是最为困惑的,选题难成了影响或制约“课题研究”开展的瓶颈。我决定运用行动研究法来解决问题。一般来说,行动研究包括计划、行动、观察、反思四个环节。
在制定总体实施计划时还要考虑行动步骤的计划。先进行第一轮行动,并进行监测,了解其效果,根据监测获得的资料,分析不足之处,在此基础上修改总体计划,尤其对下一轮的行动步骤作出调整。具体行动研究步骤如下:
(1)拟解决的问题。经过知识的积累,学生已经挑选了一些课题,但选题过于盲目,不清楚哪些课题其他人已经做过,自己可以做什么样的课题,怎样把研究成果以科学的方式呈现出来。
(2)问题形成的原因分析。学生的课题主要来自于日常生活中,要在这种习以为常的现象中发现并提出问题,就需要学生仔细观察、积极思维,能从寻常现象中发现不寻常之处。
(3)设计对策及行动方案。利用科普讲座这个宣传阵地,发挥典型案例的辐射功能,激发学生关注身边的人和事,从生活中选题,指导学生确定课题研究方向。
(4)行动反思。从上交的课题名单中,我们发现科普讲座起了预期的作用。70.5%的选题来源于学生的生活。说明学生已经在有意识地关注生活。但存在的问题是选题角度、选题范围大小、研究的可行性等问题。
(5)新一轮行动研究方案。采取个别辅导的方法,具体问题具体分析,了解每个课题制定的出发点、研究计划等详细情况,帮助学生找准研究方向和角度及切入点,缩小研究范围,通过分解、细化、改进、综合,提炼出可行性强的研究课题。
(6)新一轮行动实施及监测。针对选题范围过大的课题,笔者采用的是分解、细化的方法。
(7)行动研究阶段性评价和总结。通过对比前后课题名称分析发现,修改后的课题名称更确切、具体,学生明确了研究方向、研究重点和切入点。教师也可从课题名称中迅速掌握课题的相关情况。
经过师生共同努力,我校科技创新实践活动小组共产生了24件作品,全部推荐参加了第五届鹤壁市青少年科技创新大赛,24件作品均荣获市级奖励。其中,一等奖4项、二等奖7项、三等奖13项。
三、开展活动的建议
(1)鼓励学生采用多种方式选题。生物科技创新实践活动研究课题的相关学科是非常丰富的,包括植物学、动物学、微生物学、生态学、环境学等。
(2)挖掘可利用的教育资源。我们应该因地制宜,深入挖掘教育资源,可以考虑学校和周围社区中哪些是可利用的资源,争取社会和家长的支持。
(3)提高生物教师的科研素质。生物教师要多参加各级科技活动的培训,多阅读科学研究方面书籍、报刊、杂志,多关注生活、关注社会,多收集相关案例,激发学生创新的兴趣。只有教师自己具备科学研究能力,才可能培养学生良好的科研素质。
参考文献:
[1]黄祖荫编.中学生物科技活动资料[M].广东高等教育出版社,1994(8).
[2]对生物活动课的认识和思考解玉嘉《中学生物教学》,1999年02期.
[3]义务教育生物学课程标准修订组义务教育生物学课程标准(2011年版)[M].北京师范大学出版社,2012(2).
猜你喜欢:
1. 生物技术论文范文
2. 关于科技论文的范文
3. 生物科技论文范文1500字以上
4. 浅谈高中生物科技论文
5. 关于基因的科技论文范文1500字
6. 关于生物的科技论文范文
一, 生物信息学发展简介
生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就
必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结
构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物
成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),
在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们
仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.
1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧
定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin
用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和Francis
Crick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形
成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基
对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的
遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.
DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大
肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接
成DNA.DNA的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验
方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递
的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心
法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起
到了极其重要的指导作用.
经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码
得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程
的技术基础.
正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息
学的出现也就成了一种必然.
2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮.
由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每
天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一
个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发
现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域
的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA
序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,
分子演化及结构生物学,统计学及计算机科学等许多领域.
生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信
息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核
苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在
发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的
功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根
据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研
究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗
传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研
究的前沿.
二, 生物信息学的主要研究方向
生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些
主要的研究重点.
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似
性.从生物学的初衷来看,这一问题包含了以下几个意义[3]:
从相互重叠的序列片断中重构DNA的完整序列.
在各种试验条件下从探测数据(probe data)中决定物理和基因图
存贮,遍历和比较数据库中的DNA序列
比较两个或多个序列的相似性
在数据库中搜索相关序列和子序列
寻找核苷酸(nucleotides)的连续产生模式
找出蛋白质和DNA序列中的信息成分
序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前
两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权
和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个
序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海
量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算
法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的
BALST和FASTA算法及相应的改进方法均是从此前提出发的.
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.
蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般
相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),
蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸
的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.
研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找docking
drugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.
直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构
在进化中更稳定的保留,同时也包含了较AA序列更多的信息.
蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应
(不一定全真),物理上可用最小能量来解释.
从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同
源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用
于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较
进化族中不同的蛋白质结构.
然而,蛋白结构预测研究现状还远远不能满足实际需要.
3, 基因识别,非编码区分析研究.
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组
序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢
弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序
列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码
区DNA序列目前没有一般性的指导方法.
在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已
完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序
列是难以想象的.
侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔
可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden
Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进
化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相
关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似
性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.
早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化
的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角
度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:
Orthologous: 不同种族,相同功能的基因
Paralogous: 相同种族,不同功能的基因
Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.
这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白
质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统
的聚类方法(如UPGMA)来实现.
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,
如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列
全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直
至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个
NP-完全问题.
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上
一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.
不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说
来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源
和检验上述理论的真伪提供了新的素材.
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,
相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物
治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要
的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础
上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一
领域目的是发现新的基因药物,有着巨大的经济效益.
8, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,
逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的
学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组
学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学.
从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对
与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认
识.
三, 生物信息学与机器学习
生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.
常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问
题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完
备的生命组织理论.
西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作
时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采
用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"
模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.
机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能
[5].
机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,
而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花
费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,
快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因
而,生物信息学与机器学习相结合也就成了必然.
机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是
统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推
理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马
尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和
探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般
的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析
(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(Locally
Linear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可
看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于
microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数
据库中获得相应的现象解释.
机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多
假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息
学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻
找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络
和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.
四, 生物信息学的数学问题
生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息
学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型
(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质
空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓
扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理
论或多或少在生物学研究中起到了相应的作用.
但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学
和度量空间为例来说明.
1, 统计学的悖论
数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖
论莫过于均值了,如图1:
图1 两组同心圆的数据集
图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也
就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多
的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法
和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于
对数据的结构缺乏一般性认识而产生的.
2, 度量空间的假设
在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举
例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分
值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.
那么,是否这种前提假设具有普适性呢
我们不妨给出一般的描述:假定两个向量为A,B,其中,
,则在假定且满足维数间线性无关的前提下,两个
向量的度量可定义为:
(1)
依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息
学中常采用的一般性描述,即假定了变量间线性无关.
然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考
虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的
度量公式可由下式给出:
(2)
上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足
(3)
时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线
性相关性,我们正在研究这个问题.
五, 几种统计学习理论在生物信息学中应用的困难
生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却
一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的
巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来
改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov
复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介
绍.
支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计
学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则
采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性
质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函
数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核
函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选
择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中
又一个大气泡.
Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习
的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov
复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只
适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参
数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.
BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的
惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近
年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验
的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索
的空间.
六, 讨论与总结
人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平
上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互
关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这
些问题做出探讨和思索.
启发式方法:
Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优
的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得
到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的
困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能
达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,
要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,
要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工
智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.
问题规模不同的处理:
Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数
据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这
好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法
一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同
样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据
挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用
动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.
乐观中的隐扰
生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因
组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在
的隐扰呢
不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出
十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相
同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成
果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,
这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的
本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不
能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现
实.
反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从
结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所
有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来
自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人
工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的
功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我
们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐
观呢 现在说肯定的话也许为时尚早.
综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,
是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为
各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方
面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全
明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正
的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从
数学上的新思路来获得本质性的动力.
毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,
这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列
以及相关的内容,我们还有相当长的路要走.
(来源 ------[InfoBio.org | 生物信息学研讨组])
生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
生物信息学是一门利用计算机技术研究生物系统之规律的学科。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?
生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。
生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学
姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。
原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。
谁一个、、论文不才交么……
生物信息在生物学研究中的作用。
生物信息是指生物体中包含的全部信息,如基因组信息、蛋白质、核酸、糖类等生物大分子的结构等。
生物信息对生物体的生存、繁殖都起着重要作用。生物信息包含的范围很广,除遗传物质、神经电冲动和激素之外,生物体发出的声音、气味、颜色以及生物的行为本身都含有信息,都对生物的个体和群体产生影响,和生物的生存与进化密不可分。生物信息的特点是消耗极少的能量和物质即可产生极大的生物效应。
生物信息一般可分为遗传信息、神经和感觉信息及化学信息。虽然遗传信息和神经感觉信息的载体都属于化学物质,但通常所指的化学信息是除以上两类物质以外的化学物质所携带和传递的信息。高等生物的激素及昆虫外激素都属于这一类。
遗传信息是指生物为复制与自己相同的东西、由亲代传递给子代、或各细胞每次分裂时由细胞传递给细胞的信息, 即碱基对的排列顺序(或指DNA分子的脱氧核苷酸的排列顺序) 。遗传信息以密码形式存储在DNA分子上,通过DNA的复制传递给子代。在后代生长发育过程中,遗传信息自DNA转录给RNA,后翻译成特异的蛋白质,以执行各种生命功能。从历史上看,首先是由G.J.Mendel(1866)的研究形成了概念,即相应于生物各种性状的因素(现在称为基因)中包含着相应的信息(以后G.Beadle等人(1941)所开创了遗传生物化学的研究,描绘出这样一个轮廓:基因和决定生物结构与功能的蛋白质之间具有一对一的对应关系。
关于基因的化学本质方面,根据O.T.Avery等(1944)进行的转化实验,以及A.Hershey和M.Chase(1952)用大肠杆菌噬菌体的DNA进行的性状表达实验,已阐明DNA是遗传信息的载体。附着DNA结构研究的进展,现在已经确立了这样的概念,即基因所具有的信息可将DNA的碱基排列进行符号化。信息在表达时,DNA的碱基排列首先被转录成RNA的碱基排列,然后再根据这种排列合成蛋白质。有的病毒的遗传信息的载体不是DNA,而是RNA。遗传信息不仅有相应于蛋白质的基因信息,也包括对信息解读所必需的信息、控制信息表达所必需的信息,以及生物为了复制与自己相同结构所必需的一切信息。
神经和感觉信息靠电脉冲和神经递质携带和传递。神经系统接受内外环境中的信息,进行加工处理,调节和控制机体各部分功能。生物靠神经系统电脉冲和神经递质携带和传递。神经系统的功能是接收、传递内外环境中的信息,加以处理、分析,从而控制和调节机体各部功能,对环境作出适当的反应。因此,神经信息对于有机体的生存以及正常生活起着至关重要的作用。
化学信息是除上述两类物质外由化学介质传递的信息。生物体的各种功能能够有条不紊地进行,对环境能及时做出反应,是由于生物体内存在着通过各种各样的化学信息分子进行传递的信息系统。
生物信息在生物研究中有重要作用,然而,原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。因此,生物信息学便是生物信息在生物研究中重要应用。
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。生物信息学研究对象是生物信息。其研究重点主要体现在基因组学和蛋白学两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。
生物信息学作为基因组研究的有力武器,被广泛地用来加快新基因的寻找过程,以达到将“有用”新基因抢先注册专利的目的。在这场世界范围内的竞争中,中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况将有限的投资投入以求获得最大可能的科学研究以及商业回报,是一个无法回避的新课题。
生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学,随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。
综上所述,对生物信息的研究对生物学的蓬勃发展具有重要作用。
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.
3, 基因识别,非编码区分析研究.
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.
8.生物系统的建模和仿真
随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。
9.生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10, 生物图像
没有血缘关系的人,为什么长得那么像呢?
外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?
有什么生物学基础?基因是不是相似?我不知道,希望专家解答。
11, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.