去年年末,人工智能研究实验室DeepMind的AlphaFold在国际蛋白质结构预测竞赛(CASP)上一骑绝尘,首次将蛋白三维结构预测的分数提升至90分。不到8个月后,DeepMind又为生物学界带来了两个重磅消息。7月15日,他们在《自然》杂志上发布了关于AlphaFold算法的新论文,实现了原子层面上的蛋白质结构精确预测。仅仅一周之后,他们又和欧洲生物信息学研究所(EMBL-EBI)合作发表了一篇《自然》论文。这次,他们想要完成的是一个更大的目标——破解人类蛋白组中所有蛋白质的三维结构。
从人类首次解析出构成蛋白质的氨基酸序列,到如今可以模拟和解析人体蛋白组中绝大多数蛋白的三维结果,科学家已努力了超过70年。1949年,英国生物化学家弗雷德里克·桑格(Frederick Sanger)通过水解胰岛素,首次确定了组成牛胰岛素的氨基酸序列,这也是人类确定的首个蛋白质的氨基酸序列。这些氨基酸序列是牛胰岛素的一级结构,如果我们只按照这个序列合成胰岛素,得到的产物不会有活性。氨基酸序列需要通过数步折叠过程,形成复杂的3级结构后,才能成为具有功能的蛋白质。
1965年,中国科学家首次解析出胰岛素的精确结构,人工合成出了具有活性的胰岛素。在人类的蛋白组中,胰岛素是一种结构简单的小型蛋白质,它含有两条肽链,有51个氨基酸。对人类等真核生物来说,一个蛋白质中平均含有400多个氨基酸残基,其中绝大部分蛋白质的空间结构远比胰岛素复杂。
人类基因组草图公布后,科学界对蛋白质的研究进入了快车道。经过数十年的努力,研究人员通过解析蛋白质的氨基酸序列、提取纯净和高质量的蛋白质,再加上冷冻电子显微镜的应用,至今已经解析出了超过5万个人源蛋白质的三维结构。无疑,我们获得蛋白三维结构的速度正在不断变快。
不过,实验解析蛋白质也受到诸多限制。由于这一过程过于繁琐,且稍有不慎就无法获得较好的蛋白质空间结构,因此仍有大量人源蛋白质结构有待破解。与此同时,一些科学家开始尝试另一种工具——借助人工智能(AI)技术来预测蛋白的空间结构。
1994年,计算生物学家约翰·莫尔特(John Moult)等人创立了CASP比赛,让AI加入到蛋白质三维结构的研究中。不过在此之后的20多年中,各个AI实验室在这项比赛中的始终缺乏实质性突破。直到DeepMind的加入,彻底改变了这一局面。
2020年,DeepMind开发的一款蛋白质三维结构预测算法“AlphaFold”一举夺得了当年CASP比赛的最高分(GDT分数为90分),比第二名的分数高出了15%。GDT分数主要用来评估算法预测三维结构中氨基酸的位置与实际空间结构的差距,分数越高,预测越准。当时AlphaFold就像是一枚投在生物学界的炸弹,当时《自然》《科学》等相继发文,强调了这是人工智能的一次重大胜利。
在细胞中,蛋白质的折叠过程需要分子蛋白或辅助蛋白的帮助。而我们能看到的是,一些氨基酸序列通过一系列变化,形成了一个具有三维结构和活性的蛋白质。在蛋白质中,具有相同特性的氨基酸通过特殊的共价键(例如二硫键)聚集到一起,形成一些特定的螺旋结构,比化学键更加微弱的分子间作用力维系着蛋白质的三维结构。
但是,依靠这些理论还远远不足以准确预测蛋白质的三维结构,这也是很多参与CASP比赛的算法分数不高的原因。在今年7月15日一项公布于《自然》的论文中,DeepMind的研究团队详细介绍了AlphaFold成功的原因。这一算法采取了多序列比对和一种新型的神经网络架构,将重点放在一些关键的氨基酸上。此外,这一算法还纳入了结构模块(Structure Module),用于评估预测的蛋白质结构的每个氨基酸残基与其真实位点的差异。DeepMind的研究团队还强调,AlphaFold是首个在不知道相似蛋白的结构时,也可以在原子层面上精确预测蛋白质结构的算法。
昨日,在发表于《自然》期刊的一项研究中,他们和EMBL-EBI合作利用AlphaFold做出了一项更有突破性和实用性的研究—— 直接对人类蛋白组中的蛋白质完整三维的结构进行了预测 。根据他们的估计,虽然蛋白质资料库(PDB)中公布的人源蛋白质三维结构占到了目前人类蛋白组的35%,但是很多蛋白质的空间结构并不完整。实际上,完整的三维蛋白质结构只占17%。
类似于CASP比赛中的GDT分数,研究人员也为AlphaFold设置了一个可以评估预测可信度的数值—— pLDDT (每个残基位点的可信度测评,per-residue confidence metric)。当pLDDT值大于90,表示对蛋白质中某个氨基酸残基位置的预测具有很高的可信度;当pLDDT值大于70,表明预测结果是基本准确的。
在对人体蛋白质组三维结构的预测中, AlphaFold精确预测了的氨基酸残基的位点,基本准确地预测了的氨基酸的位点。 在蛋白质水平上,这一算法也能较为准确地预测人类蛋白组中的蛋白质至少3/4序列的空间结构。在1290个没有没有参考结构的蛋白质中,AlphaFold能较为准确预测每个蛋白中近200个氨基酸残基的空间结构(pLDDT 70)。
在这次实验中,AlphaFold还 准确预测出由于许多和药物靶点相关的酶和膜蛋白的三维结构 。由于膜蛋白的结构复杂,一直以来,通过实验方法来解析这类蛋白的结构都极具挑战性。除此之外,AlphaFold还能较为准确地预测出此前没有接受过训练或不熟悉的蛋白质的三维结构。
除了人源的蛋白质,他们还利用AlphaFold对其他20种模式生物(包括小鼠、玉米和疟原虫)蛋白组中的蛋白进行了预测。根据《自然》官网的消息,这些预测的蛋白质三维结构数据已通过EMBL-EBI托管的 公用数据库 免费向公众开放, 目前有近万个蛋白质结构已在该数据库中发布 ,而到今年年底,这一数值有望增长到亿。DeepMind和EMBL-EBI的研究人员强调,目前这部分工作还只是一个开始。他们想要进一步验证这些预测的结果,更重要的是,将它们应用到迄今为止不可能实现的实验中。
近70年来,解析蛋白质的空间结构一直是一项极具科学意义的难题。如果基因组是一个“指令官”,那么蛋白质就是基因功能的“执行者”,可以说蛋白质几乎参与人体内所有的生理过程和疾病过程。如果我们能掌握蛋白质的精确结构,就像解析了一把精密的锁的内部结构。对于人类来说,也更容易开发出一把甚至多把能打开这些“锁”的钥匙,而这将会改变我们在分子水平上对自身的认知,治疗现今绝大多数的人类疾病。
DeepMind联合创始人兼首席执行官杰米斯·哈萨比斯(Demis Hassabis)认为,这是人工智能系统迄今为止对推进科学发展作出的最大贡献。此外,对于一些AlphaFold无法准确预测的蛋白结构,一些科学家也发表了自己的见解。一部分人认为,在人类等真核生物中,相当一部分蛋白质区域本身就是无序的,这或许是为了与其他的蛋白分子相互作用,也可能还有一些我们还不知道的作用。
值得一提的是,在《自然》于上周发表AlphaFold论文的次日,《科学》杂志也公布了另一项蛋白质预测算法——RoseTTAFold。这个算法由华盛顿大学医学院蛋白质设计研究所和哈佛大学、剑桥大学等机构联合开发。它采用和AlphaFold2不同的深度学习算法,但具有AlphaFold2可媲美的超高准确率,而且速度更快、对计算机处理能力的需求也较少,能在短短的10分钟内计算出一个蛋白的结构。目前,研究人员正在用这一算法研究一些和人类 健康 直接相关的蛋白质的结构。
这两项算法的出现无疑标志着在结构生物学领域,AI的时代已经到来。
撰文 | 石云雷
审校 | 吴非
参考链接:
生态 的蛋白质我肯定好的
我是复制的,希望对楼主能有所帮助※ Multiplexing:一种同时采用多种样品的测序方法,能够大大提高测序速度。 ※ 突变(Mutation):DNA序列上任一种可以被遗传的变易。 ※ 核苷酸(Nucleotide):DNA和RNA的基本组成部分,通常包含一分子核糖,一分子磷酸和一分子碱基。多个核苷酸通过磷酸二酯键连接成一条链状。 ※ 细胞核(Nucleos):真核细胞中的一种细胞器,内含遗传物质。 癌基因(Oncogene):一种能够导致癌症的基因。许多致癌基因都直接或间接地控制细胞的成长速度。 ※ 噬菌体(phage):一种以细菌为宿主细胞的病毒。 ※ 物理图谱(Physics Map):物理图谱描绘DNA上可以识别的标记的位置和相互之间的距离(以碱基对的数目为衡量单位),这些可以识别的标记包括限制性内切酶的酶切位点,基因等。物理图谱不考虑两个标记共同遗传的概率等信息。对于人类基因组来说,最粗的物理图谱是染色体的条带染色模式,最精细的图谱是测出DNA的完整碱基序列。 ※ 质粒(Plasmid):质粒是细菌的染色体外能够自我复制的环状DNA分子。它能够和细胞核中的染色体明显地区别开来,而且并不是细胞生存的必要物质。一些质粒适宜于引入到宿主细胞中去,并利用宿主细胞的DNA大量繁殖,因此我们常常采用质粒作为外源DNA的载体,外源DNA借助于质粒在宿主细胞中大量繁殖。 ※ 多基因病(Polygenic Disorder):有多个基因位点共同决定的遗传病(如心脏病、糖尿病、一些癌症等)。这类疾病的遗传由多个基因位点共同控制,因而比单基因病的遗传更为复杂。 ※ 多聚酶链式反应(PCR):一种体外扩增DNA的方法。PCR使用一种耐热的多聚酶,以及两个含有20个碱基的单链引物。经过高温变性将模板DNA分离成两条链,低温退火使得引物和一条模板单链结合,然后是中温延伸,反应液的游离核苷酸紧接着引物从5‘端到3’端合成一条互补的新链。而新合成的DNA又可以继续进行上述循环,因此DNA的数目不断倍增。 ※ 多聚酶(Polymerase):多聚酶具有催化作用,能够加快游离的核苷酸和DNA模板结合形成新链的反应速度。 ※ 多态性(Polymorphism):多个个体之间DNA的差异称为多态性。DNA变异概率超过1%的变异,比较适宜作为绘制连接图谱的证据。 ※ 引物(Primer):预先制备的比较短的核苷酸链,在新链合成过程中作为引物,游离的核苷酸在引物之后按顺序和模板上的碱基结合,形成新链。 ※ 原核生物(Prokaryote):原核生物没有细胞膜,结构清晰的核以及其他细胞器。细菌是原核生物。 ※ 探针(Probe):是一条DNA单链或者一条RNA链,具有特定的序列,并且使用放射性元素或者免疫特性物质进行标记。探针和克隆库中的某条互补片段结合成一条双链结构,我们可以借助于探针的检测来获知与其互补的链的位置。 ※ 启动子(Promoter):DNA上的一个特定位点,RNA聚合酶在此和DNA结合,并由此开始转录过程。 ※ 蛋白质(Protein):一种由一条或者多条肽链构成的大分子。每条肽链上核苷酸的顺序是由基因外显子部分的碱基序列决定的。蛋白质是细胞、组织和器官的重要组成部分,每种蛋白质都具有特定的功能。酶、抗体和激素等都是蛋白质。 ※ 嘌呤(Purine):一种含氮的单环结构物。是核苷酸的重要组成部分,有腺嘌呤A和鸟嘌呤G两种。 ※ 嘧啶(Pyrimidine):一种含氮的双环结构,是核苷酸的重要组成部分。分为胞嘧啶C,胸腺嘧啶T和尿嘧啶U三种。 ※ 重组克隆(Recombinant Clone):将不同来源的DNA片段合成在一个DNA分子中,这种技术称为重组,得到的分子为重组克隆。 ※ DNA重组技术(Recombinant DNA Technology):在细胞体外将两个DNA片段连接成一个DNA分子的技术。在适宜的条件下,一个重组DNA分子能够被引入到宿主细胞中并在宿主细胞中大量繁殖。 ※ 调控序列(regulatory regions and sequence):一段控制基因表达的DNA片段。 ※ 限制性内切酶(Restriction enzyme, endonuclease):这种酶能够识别出DNA上特定的碱基序列,并在这个位点将DNA酶切。细菌中有400中限制性内切酶,能够识别出100中DNA序列。 ※ 酶切位点(Restriction Enzyme cutting site):DNA上一段碱基的特定序列,限制性内切酶能够识别出这个序列并在此将DNA酶切成两段。 ※ 限制性长度多态性(Restriction fragment length polymorphsm):从不同个体制备的DNA,使用同一种限制性内切酶酶切,切得的片段长度各不相同。酶切片段的长度可以作为物理图谱或者连接图谱中的标记子。通常是在酶切位点处发生突变而引发的。 ※ 核糖核酸RNA(Ribonucleic acid):从细胞的细胞核和细胞质部分分离出来的化学物质。在蛋白质合成和其他生化反应中起着重要作用,RNA的结构和DNA的结构类似,都是有核苷酸按照一定顺序排列成的长链。RNA可以分为信使RNA、转运RNA、核糖体RNA以及其他类型的RNA。 ※ 核糖体RNA(Ribonsomal RNA rRNA):存在于核糖体中的RNA。 ※ 核糖体(Ribonsome):细胞质中含有rRNA和相关蛋白质的细胞器,是蛋白质的合成场所。 序列位置标签(Sequence Tagged Site, STS):一段短的DNA序列(200-500个碱基对),这种序列在染色体上只出现一次,其位置和碱基顺序都是已知的。在PCR反应中可以检测处STS来,STS适宜于作为人类基因组的一种地标,据此可以判定DNA的方向和特定序列的相对位置。ETS是cDNA上的STS。 ※ 性染色体(Sex Chromosome):在人类细胞中是X或者Y染色体,性染色体决定了个体的性别。雌性细胞中含有两个X染色体,而雄性细胞中含有1个X染色体和1个Y染色体。 ※ 鸟枪法(Shotgun method):使用基因组中的随机产生的片段作为模板进行克隆的方法。 ※ 单基因病(Single Gene Disorder):一个基因的等位基因之间发生了突变造成的疾病。 ※ 体细胞(Somatic Cells):个体中除了生殖细胞及其母细胞之外的细胞,都是体细胞。 ※ 串联重复序列(Tandem repeat sequences):在染色体上一段序列的多次重复,称为串联重复序列。常用来作为物理图谱中的标记子。 ※ 端粒(Telomere):是染色体的末端部分,这一特殊结构区域对于线型染色体的结构和稳定起重要作用。 ※ 转录(Transcription):以某一DNA链为模板,按照碱基互补原则形成一条新的RNA链的过程,是基因表达的第一步。 ※ 转运RNA(tRNA):转运RNA具有特殊的结构,其一端包含3个特定的核苷酸序列,能和信使RNA上的密码子按照碱基配对原则进行结合。另一端则带有一个氨基酸。因此转运RNA能够同细胞质中游离的氨基酸结合并运到核糖体上,核糖体按mRNA上的遗传信息将氨基酸装配成蛋白质。 ※ 转化(Transformation):将外源DNA整合到某一细胞基因组中的过程。。 ※ 翻译(Translation):mRNA上携带的遗传信息指导蛋白质的合成过程,称为翻译。 ※ 病毒(Virus):一种不具备细胞结构的生物体。只能寄生在宿主细胞中才能生存。病毒一般包含核酸以及外壳蛋白,有些动物的病毒的外面也偶尔覆盖一层细胞膜。病毒进入宿主细胞之后,利用宿主的合成机制复制出大量的后代。。 ※ 酵母菌人工合成染色体(Yeast Artificial Chromosome):一种能够克隆长达400Kb的DNA片段的载体,含有酵母细胞中必需的端粒、着丝点和复制起始序列。 (卜东波、伍树明翻译整理) 生物信息名词 §§§ BLAST (Basic Local Alignment Search Tool),基本的基于局部对准的搜索工具;一种快速查找与给定序列具有连续相同片断的序列的技术。 §§§ Entrez 美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。 §§§ NCBI 美国国立生物技术信息中心(National Center for Biotechnology Information),1988年设立,为美国国家医学图书馆(NLM)和国家健康协会(NIH)下属部门之一。提供生物医学领域的信息学服务,如世界三大核酸数据库之一的GenBank数据库,PubMed医学文献检索数据库等。 §§§ Conserved sequence 保守序列。演化过程中基本上不变的DNA中的碱基序列或蛋白质中的氨基酸序列。 §§§ Domain 功能域。蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。某蛋白质中所有功能域组合其起来决定着该蛋白质的全部功能。 §§§ EBI 欧洲生物信息学研究所(European Bioinformatics Institute)。 The National Center for Biotechnology Information (NCBI) at the NationalLibrary of Medicine (NLM), National Institutes of Health (NIH) §§§ EMBL 欧洲分子生物学实验室(uropean Molecular Biology Laboratory)。 §§§ GenBank 由美国国家生物技术信息中心提供的核酸序列数据库。 §§§ Gene 基因。遗传的基本的物理和功能单位。一个基因就是位于某条染色体的某个位置上的核苷酸序列,其中蕴含着某种特定功能产物(如蛋白质或RNA分子)的编码。 §§§ DUST A program for filtering low complexity regions from nucleic acid sequences. §§§ Gene expression 基因表达。基因中的编码信息被转换成行使特定功能的结构产物的过程。 §§§ Gene family 基因家族。一组密切相关的编码相似产物的基因。 §§§ Gene mapping 基因作图。对DNA分子(染色体或质粒)中基因的相对位置和距离进行确定的过程。 §§§ Genetic code 遗传密码。以三联体密码子的形式编码于mRNA中的核苷酸序列,决定着所合成蛋白质中的氨基酸序列。 Genome 基因组。某一物种的一套完整染色体组中的所有遗传物质。其大小一般以其碱基对总数表示。 §§§ Genomics 基因组学。从事基因组的序列测定和表征描述,以及基因活性与细胞功能关系的研究。 §§§ HGMP 英国剑桥的人类基因组绘图计划(Human Genome Mapping Project)。 §§§ Informatics 信息学。研究计算机和统计学技术在信息处理中的应用的学科。在基因组计划中,信息学的内容包括快速搜索数据库方法的开发、DNA序列信息分析方法的开发和从DNA序列数据中预测蛋白质序列和结构方法的开发。 §§§ Physical map 物理图谱。不考虑遗传,DNA中可识别的界标(如限制性酶切位点和基因等)的位置图。界标之间的距离用碱基对度量。对人类基因组而言,最低分辨率的物理图谱是染色体上的条带图谱;最高分辨率的物理图谱是染色体中完整的核苷酸序列。 §§§ Promoter 启动子。DNA中被RNA聚合酶结合并从此起始转录的位点。 §§§ Proteome 蛋白质组。一个基因组的全部蛋白产物及其表达情况。 §§§ Regulatory region or sequence 调控区或调控序列。控制基因表达的DNA碱基序列。 §§§ Ribosomal RNA 核糖体RNA。简写为rRNA。是一组存在于核糖体中的RNA分子。 §§§ Sequence tagged site 序列示踪位点,简写为STS。在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。由于可以通过PCR检测到,STS在将来源于许多不同实验室的基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基因组的物理图谱中也具有界标的作用。表达的序列标签(ESTs)就是那些得自cDNAs的STSs。 §§§ Single-gene disorder 单基因病。由单个基因的等位基因的突变所导致的遗传病(如杜兴肌营养不良和成视网膜细胞瘤等)。 §§§ UniGene 美国国家生物技术信息中心提供的公用数据库,该数据库将GenBank中属于同一条基因的所有片断拼接成完整的基因进行收录。 §§§ 非蛋白质编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包括以下类型的DNA成份或由其表达的RNA成分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(microsatellite)DNA、非均一核RNA(hmRNA)、短散置元(short interspersed elements)、长散置元(long interspersed elements)、伪基因(pseudogenes)等。除此之外,顺式调控元件,如启动子、增强子等也属于非编码序列。 双重序列对比 两序列间的对比分析。最常见的方法为Needle-Wunsch方法。能够利用的软件如BLAST、FASTA等。 §§§ Autosome 常染色体。与性别决定无关的染色体,人双倍体染色体组含有46条染色体,其中22对常染色体,一对与性别决定有关的性染色体(X和Y染色体)。 sex chromosome. 包括序列(核酸与蛋白)搜索,结构比较,结构预测,蛋白质域,模体(Motif ),测序,发育与进化分析,双向电泳成像分析,质谱蛋白质鉴定,三维蛋白结构模建与成像,基因组图谱比较,基因预测,非编码区功能位点识别,基因组重叠群集装,后基因组功能分析,结构基因组学以及药物基因组学等等。 在,新版中启用了gapped BLAST、PSI-BLAST 和PHI-BLAST。gapped BLAST是比原BLAST 更灵敏更快的局部相似联配(俗称局部同源)搜索法;PSI- BLAST用迭代型的剖面打分算法,每次迭代所费时间与前者相同,它可检索弱同源的目标;PHI-BLAST 98年刚出台,是模体(Motif )构造与搜索软件,是更灵敏的同源搜索软件。例如线虫§§§ 的CED4是apoptosis 的调控蛋白,含有涉及磷酸结合的P 环模体,在各种ATP 酶和GTP 酶中可发现。在用gapped BLAST搜索NR数据库时,CED4仅跟人凋亡调控蛋白Apaf-1显著同源或相似(其中含有P-loop保守区)。但PHI- BLAST搜索,另有一个显著同源(E= )目标,是植物抗病蛋白Arabidopsis thaliana ,证实此动物与植物蛋白确实在apoptosis 中有相似的功能。另有,按PHI- BLAST搜索在MutL DNA修复蛋白中的ATP 酶域,II型拓扑异构酶,组氨酸激酶和HS90家族蛋白,发现一个新的真核蛋白族,共有HS90型ATP 酶域。再有在古核tRNA核苷酸转移酶中发现核苷酸转移酶域,在细菌DNA 引物酶的古核同源体中发现螺旋酶超家族II的模体VI。用以往的搜索法这些是得不到的。 深层事项: 后基因组时期的主要任务:Data mining ,即从完全测序的基因组中预测功能。 1 、序列、结构和功能 自分子生物学产生以来,均相信序列决定结构,结构决定功能。随着基因组学的发展,对此理解已有长足的深化。同源序列(具有共同祖先)未必具有相同的功能;相同功能未必源自同源序列。相异序列可能有相似的结构;序列与结构不相似的蛋白可能会有相似的功能。现在发现存在不相似(在序列与结构水平上)酶催化相同的生化反应。当然亦存在甚至结构水平上很相似的酶催化不同的生化反应。例如人与鼠的3?- 羟甾类脱氢酶,1AHH和1RAL;前者是Rossmann折叠,而后者是TIM-桶。肯定,这些相似酶不是共同祖先趋异的结果,而是不同祖先趋同的结果。如结构决定功能还是合理的,那么至少在功能活性位点具有相似结构特征(即3D- 功能模体)。属于今后研究的课题,对了解酶催化机制与功能蛋白的小分子模拟具有很大价值。 何谓功能?功能有层次的:表型的,细胞的和分子的。 目前开始高层功能预测,分子相互作用、代谢途径和调控网络。目前,已从结构基因组学,功能基因组学和蛋白质组学多种角度研究基因组功能。 2 、结构基因组学中的生物信息学 希望大通量地测定和模建完全测序基因组的全部蛋白三维结构。生物信息学可以发挥作用,一方面规划好测定的对象,另一方面可靠地模建结构。 3 、功能基因组学中的生物信息学 美国HGP 已编制1998-2003 的新五年计划。提出八项目标:其中目标7 特指生物信息学和计算生物学,其实几乎每项目标都要生物信息学,例如目标4 功能基因组学中的非编码区功能位点预测,基因表达分析(如DNA Chip)以及蛋白质全局分析(如蛋白质组学)。 §§§ 蛋 白 质 组 学(Proteomics) 1.蛋白质组学研究的目的和任务 20世纪中期以来,随着DNA双螺旋结构的提出和蛋白质空间结构的X射线解析,开始了分子生物学时代,对遗传信息载体DNA和生命功能的主要体现者蛋白质的研究,成为生命科学研究的主要内容。90年代初期,美国生物学家提出并实施了人类基因组计划,预计用15年的时间,30亿美元的资助,对人类基因组的全部DNA序列进行测定,希望在分子水平上破译人类所有的遗传信息,即测定大约30亿碱基对的DNA序列和识别其中所有的基因(基因组中转录表达的功能单位)。经过各国科学家8年多的努力,人类基因组计划已经取得了巨大的成绩,一些低等生物的DNA全序列已被阐明,人类3%左右DNA的序列也已测定,迄今已测定的表达序列标志(EST)已大体涵盖人类的所有基因。在这样的形势下,科学家们认为,生命科学已经入了后基因组时代。在后基因组时代,生物学家们的研究重心已经从解释生命的所有遗传信息转移到在整体水平上对生物功能的研究。这种转向的第一个标志就是产生了一门成为功能基因组学(Functional Genomics)的新学科。它采用一些新的技术,如SAGE、DNA芯片,对成千上万的基因表达进行分析和比较,力图从基因组整体水平上对基因的活动规律进行阐述。但是,由于生物功能的主要体现者是蛋白质,而蛋白质有其自身特有的活动规律,仅仅从基因的角度来研究是远远不够的。例如蛋白质的修饰加工、转运定位、结构变化、蛋白质与蛋白质的相互作用、蛋白质与其它生物分子的相互作用等活动,均无法在基因组水平上获知。正是因为基因组学(Genomics)有这样的局限性,于90年代中期,在人类基因组计划研究发展及功能基因组学的基础上,国际上萌发产生了一门在整体水平上研究细胞内蛋白质的组成及其活动规律的新兴学科——蛋白质组学(Proteomics),它以蛋白质组(Proteome)为研究对象。蛋白质组是指“由一个细胞或一个组织的基因组所表达的全部相应的蛋白质”。测定一个有机体的基因组所表达的全部蛋白质的设想,萌发在1975年双向凝胶电泳发明之时。1994年Williams正式提出了这个问题,而“蛋白质组”的名词则是由Wilkins创造的,发表在1995年7月的Electrophoresis杂志上。蛋白质组与基因组相对应,但二者又有根本不同之处:一个有机体只有一个确定的基因组,组成该有机体的所有不同细胞斗拱享用一个确定的基因组;而蛋白质组则是一个动态的概念,她不仅在同一个机体的不同组织和细胞中不同,在同一机体的不同发育阶段,在不同的生理状态下,乃至在不同的外界环境下都是不同的。正是这种复杂的基因表达模式,表现了各种复杂的生命活动,每一种生命运动形式,都是特定蛋白质群体在不同时间和空间出现,并发挥功能的不同组合的结果。基因DNA的序列并不能提供这些信息,再加上由于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表现规律就更加复杂,不再是经典的一个基因一个蛋白的对应关系,一个基因可以表达的蛋白质数目可能远大于一。对细菌,可能为~;对酵母则为3;而对人,可高达10。后基因组和蛋白质组研究,是为阐明生命活动本质所不可缺少的基因组研究的远为复杂的后续部分,无疑将成为21世纪生命科学研究的主要任务。
你看下(微生物前沿)上的文献吧,
99 浏览 5 回答
357 浏览 4 回答
346 浏览 4 回答
191 浏览 4 回答
300 浏览 3 回答
332 浏览 3 回答
269 浏览 3 回答
101 浏览 3 回答
181 浏览 3 回答
91 浏览 3 回答
83 浏览 3 回答
358 浏览 3 回答
356 浏览 2 回答
83 浏览 4 回答
130 浏览 4 回答