中图分类号:N031 文献标识码:A 文章编号:1000-8934(2012)05-0001-05
中心法则作为分子生物学最基本、最重要的理论之一,对当代分子生物学的发展起到了极大地推动作用。然而,在分子生物学领域,自其产生到现在一直存在着很多争议。作为一个科学假设的中心法则,对其进行系统的语义分析有益于这一理论的意义澄清。那么在什么样的一个基底上对其进行语义分析?我们认为这一基底应该是语境论。
结构学、生物化学和信息学路线是一直较为公认的分子生物学研究中三条主要的路线。[1]中心法则的产生是以生化——信息学方法为基础的。其产生的模式是假说演绎的,即先利用有限的证据提出一个假说,然后根据假说演绎出若干理论,最后等待证据检验所演绎的结论,其过程是假说——演绎——检验。伴随着分子生物学的不断发展,这一演绎——检验的过程不断循环往复。正是在这种循环往复的过程中,中心法则的语形发生着不断地转变。同时,在此过程中,不断有新的生物学概念的提出,不断有新旧生物学概念的更替。在这里既包括新的概念的提出及其所被赋予的特定意义,又包括同一概念在不同的研究范围中所包含的不同的生物学意义。也就是说,在这一过程中中心法则的语义不断地发生变迁,而这种变迁是在分子生物学纵向语境的不断变化中实现的。
1 中心法则的语义变迁
自克里克在1958年提出中心法则至今,中心法则已经经过了半个多世纪的丰富和发展。我们可以将其发展的整个过程大致分为三个阶段:克里克最初提出的经典的中心法则;20世纪70—80年代被修正和丰富的中心法则;20世纪末基因组及后基因组时代下的中心法则。
最初被克里克描述的中心法则如图1所示。
图1 最初被克里克描述的中心法则图
箭头表示在三大类生物大分子DNA、RNA和蛋白质间信息传递或流动所有可能的方向。它揭示了生命遗传信息的流动方向或传递规律。结合当时的理论背景和认识论背景,克里克对所描述的中心法则做了进一步的分析,最终提出了中心法则最初的基本形式:
上式描述了由碱基→氨基酸→蛋白质这一基本过程。对这一过程中代码的语义分析,必然无法脱离整个理论的语义结构。因为,在以上所描述的过程中,任意一次结构的上升,都必然会伴随着其代码的语义调整。在中心法则中,碱基位于一个基础的层面,成为生物学解释与物理、化学解释的纽带。例如,在化学中GAA是作为氨基乙酸的代码,然而,在生物学中,它却表示对应于谷氨酸的遗传密码。当我们对其结构上升,多个连续的三联体碱基序列自然也就对应多个连续的氨基酸序列。当碱基序列发生变化时,也就必然地导致氨基酸序列发生变化。有序列的碱基链和氨基酸链又分别构成了DNA和蛋白质。自此,就构成了最初的中心法则:蛋白质作为生物性状形成的工作分子是由构成DNA的碱基序列所决定,我们把这种碱基序列称之为遗传信息。同时,由于当时生物学理论背景及研究对象的限制,自然决定了中心法则从DNA到RNA到蛋白质严格的单程信息流路线,以及从DNA序列到RNA序列到蛋白质氨基酸序列严格的共线性。
由上可以得到,单一的碱基符号的语义形成是在中心法则整个的语义结构中实现的,碱基序列在生物学语境中的语义表达同样也无法脱离中心法则的语义结构。而整个中心法则的语义实现又是在当时特定的语境下完成。也就是说,特定语境的确立,决定了中心法则的语义解释,确定了中心法则在当时语境下的解释伸缩度。
随着分子生物学的发展,1970年Temin等在RNA病毒中发现了RNA逆转录酶,说明了RNA到DNA逆向转录的可能性。[2]之后,又有人发现细胞核里的DNA还可以直接转译到细胞质的核糖体上,不需要通过RNA即可以控制蛋白质的合成。[3]此时,中心法则被修正为如图2所示。
图2 修正后的中心法则图
而中心法则的语义解释,也就由之前的“严格的单程式”变迁为一种“中途单程式”。从20世纪70年代开始,分子生物学家对真核生物进行了大量的研究,发现了基因上存在的非编码序列,从而产生了内含子与外显子的区别。20世纪80年代末,分子生物学家又报道了多种RNA编辑的类型。这些都说明了蛋白质序列在DNA序列上的非连续性及非对应性。这又要求中心法则的语义解释由之前的“严格共线性”转变为“非共线性”。这都是由于分子生物学纵向语境的变化,导致了中心法则语义边界的改变,从而使其语义的解释范围及解释伸缩度发生改变。理论背景及认识论背景的不同,便造成了中心法则概念的语义扩张。这种语义的扩张通过再语境化的功能,继而又成为其它生物学理论的语义语境。中心法则的理论发展,就是在这种语境转变,或者说是再语境化的过程中不断实现其语义转变。
在分子生物学中,还有非DNA分子模板(如细胞模板、糖原以及一些细胞级的非分子模板)、朊病毒等的出现。虽然,这些只是出现在离体实验中,应只属于尚未定论的科学预测。但是,它们强力说明着:在生物系统中,信息流的传递是多元和多层次的,它们在细胞中构成了一个精密的时空框架,中心法则仅仅只是这些信息流中的一条或者说是一条主流;在中心法则的信息流中,非DNA编码的渗入,使得DNA仅作为DNA编码的一个起点,而不是遗传信息流的唯一源头;同时,在信息流的传递过程中,非模板式的序列加工,使得信息流并不是模板流。[4]这些似乎对中心法则都构成了严峻的挑战。然而,我们并不能抹杀它的合理性地位。中心法则的提出是以当时病毒、细菌的实验材料为依据。它所指出的DNA、RNA、蛋白质间的信息传递是符合分子生物法则的。鉴于当时理论背景和认识论背景的限制,我们应该是在其三大分子的框架性语境下对其进行语义解释。当分子生物学推进到真核细胞时,中心法则的信息流其实已经处于另一个完全不同的时空框架中,这时我们应对其进行语境下降,在单个基因层面或者是更低的层面对其进行语义解释。而面对当代基因组语义研究的问题,或许我们还要对其进行语境上升,在基因组层面、细胞层面甚至是更高的层面对其进行语义解释。
综上所述,对中心法则的语义解释应该放在分子生物学发展的纵向语境下进行。中心法则的语义变迁就是在这一纵向发展过程中,一次次不断地语境化与再语境化的过程中实现的。同时,我们对中心法
则的语义理解也还必须在一种横向的特定的语境下进行,而不是仅仅只在分子生物信息较窄的概念下进行。只有这样才不会导致中心法则的语义局限性。而作为科学理论的中心法则语义被局限,自然会导致其作为研究方法的意义局限性。这也就引出了本文接下来所要谈论的一个问题:在传统意义下,作为研究方法的中心法则的意义及其局限性。
2 作为研究方法的中心法则的意义及其局限性
中心法则是一个关于DNA、RNA、蛋白质三大分子的信息传递的科学理论。在它的解释之下,信息不能由蛋白质向下传递到DNA,而是DNA被转录成RNA,RNA再翻译成蛋白质。更进一步讲是,“信息从DNA向上传递到RNA、蛋白质,进而延伸到细胞、多细胞系统”。[5]然而,不仅于此,中心法则还作为一种研究的方法,被用于许多研究计划,用以解决基因组的语义问题。
基因组研究的核心问题是研究作为生命系统发展和运行基础的基因组调节网络的意义。一个基因组意义的理论问题便是一个基因组语义问题。部分地讲,这种语义是将基因组序列转化成系统性意义的语义代码。由于生物系统是在不同层次被组织,所以一个基因组的语义会由于该序列片段所处的本体论、功能及组织层次的不同而产生不同的语义联想意义。因此,如何获得一个基因组语义的元理论问题便成为基因组和蛋白质组研究的战略问题。
目前,许多关于基因组研究的方法论都是遵循一种自下而上的策略。这种研究的方法正是受到了中心法则的启示。也就是说,中心法则为还原论者研究基因组提供了方法论基础。这种还原论方法论的前提是,在我们要进一步了解下一个层次的信息时,我们必须在理论上和实际中都要对每一个更低、更微观层面的信息和本体论的知识有所把握。这就好比说,当我们要获得一个蛋白质的结构时,我们首先要掌握构成这一蛋白质的氨基酸信息,再获得核酸信息。然而,即便是掌握了基本的核酸信息,由于基因和细胞网络设计一系列的相互作用的部分,而使得从核酸到蛋白质信息的过程特别复杂。
一个以中心法则为方法的研究项目,最大的弱点是其惊人的复杂度。这种自下而上的还原论策略存在的问题是,寻找到一个解决路径的搜索空间非常巨大。在计算机科学中,解决一个问题的关键往往就在于能够解决这个问题的可能路径的空间。这样一系列的可能路径被称为搜索空间。一个问题的一种解决方法就是一个路径在这样一种搜索空间中实现一个目标或解决。一些问题拥有巨大的搜索空间,从而使得其在实际层面上几乎不可能被解决。在计算机科学中讲,这就是所谓的NP——complete问题。[6]这些问题的复杂程度,足以使现阶段最快的计算机瘫痪。基因组和细胞网络的研究正是面临这样的问题,它们涉及成千上万的相互作用的部分。遵循一种自下而上的策略进行研究,必然在其过程中呈现出一系列的NP——complete问题。
然而,在实际的研究过程中,研究者形成的研究策略都是依据关于更高层次的生物信息的知识。“即使在平常的实验决策和实验设计中,研究者的行为都是在一个关于现象的系统知识,即一个更高层次的语境中进行的。”[7]在这些系统问题的研究过程中,研究者预先假设这些知识可以对他的研究和实验设计提供一个更宽的方向。更为重要的是,这样就使得这个研究有了其自身的意义。这种高层次、系统性的信息给出了这个研究或实验为什么要进行的理由。
这种知识在人工智能的研究领域被称为启发性知识。启发性知识被定义为可以减少搜索空间的信息。因此,在这种情况下,科学家就利用这种启发性的、系统层面的生物学知识,去减少那些非正式的、直觉的、先验的搜索空间,从而来解决他的问题。在我们所说的基因组语义的问题中,启发性信息可以减少基因组语义的搜索空间,可以减少基因代码可能解释的空间。
例如,在信息的传递方面,根据中心法则,信息是不能从蛋白质到RNA再到DNA向下传递的。然而,在系统层面,信息可以从蛋白质向下传递到DNA。细胞信号就是一个例子。正是由于一系列的蛋白质与蛋白质的相互作用,蛋白质与RNA的相互作用,导致了DNA转录的被激活。因此,从系统层面来讲,中心法则仅仅介绍了细胞信息系统中许多种可能的信息传递路径中的一种。实际上,存在细胞内的信息传递路径和细胞间的信息传递路径。这些路径构成了细胞内及细胞间的信息传递网。然而,它们又都是通过细胞的基因组信息来组织着细胞内和细胞间的信息传递。
所以,我们必须有意识地去区分作为科学理论的中心法则和作为研究的方法的中心法则。否则,我们就有可能错误地提前认为,由于信息不能向下传递,我们就不能自上而下地由高层次的信息得到低层次的信息。多细胞以及单细胞中信息传递的二元性,就使得基因组语义的研究策略,跳出了传统意义下中心法则的局限性。
现阶段关于基因组理论的大部分研究,都是遵循传统意义下的中心法则,在一个严格的自下而上研究策略下进行的。替代这种研究策略,我们主张同时考虑一种自上而下的互补性策略。我们认为,一种能够整合高层面的系统层面与低层面的基因组信息层面的研究策略,对于解决基因组语义问题是非常必要的。传统意义下的中心法则对于基因组语义研究已经不再是充足的组织模式。那么是否存在一种路径,在细胞和多细胞的语境下,利用高层次的系统信息去理解基因组?我们认为是存在的。正如上文所言,这时候我们就需要对传统意义下的中心法则进行语境上升,在细胞与多细胞的层面对其进行语义理解。同时,在方法论层面,我们也就同样可以尝试一种自上而下的研究范式,来补充之前的严格的自下而上的方法论研究策略。
3 中心法则方法论意义研究的新路径
什么是一个自上而下的研究策略?
在一个自上而下的研究策略下,我们可以在抽象概念的层面来讨论多细胞的发展过程。在抽象概念层面的讨论,可以使我们获得更多关于系统层面的现象。假设有一个软件系统,并且在这个软件系统中可以设计一个人工基因组,同时在这个系统中该基因组可以产生一个人工有机体。然后,我们可以使这个人工基因组尽可能地模仿自然基因组的主要的系统属性。比如,该系统是否能够模拟多细胞的发展、细胞信号的传递等?在该系统中进行特定位点的基因突变,是否能得到自然基因组下的相似效果,如畸形发展、癌变等?这一系列问题的实现,就
使得我们可以确认该系统能够反映自然基因组的一些基本特征。然而,我们可能需要一种更为精确的相关性。但是,如果我们能够使得人工基因组与自然基因组相关联,那么我们就得到了从一个基因组翻译到另一个基因组的开端。如图3所示。
图3 基因组翻译模拟图
图3所模拟的是生物体内的基因组和计算机系统中多细胞有机体之间的关系。图中的“翻译关系”指的是计算机系统及生物体系统中基因组之间的“句法关系”。中间的“语义关系”表示的是用计算机系统中的多细胞有机体语言翻译出生物体中的基因组。下面的“一致性关系”应该包括系统之间暂时的和动态的形态学之间的一致性。
这就好比将英语翻译成汉语。我们需要知道这些被翻译的单词是什么,如何在句子中使它们相关联。这就是语言中的句法。但是,首先我们需要知道语言的语义。也只有当两段话的意思相同的时候,对于一个词、一句话或者一段话的翻译才是充分的。
这样我们就通过计算机代码的语义获得了基因组的语义。然而,在这个过程中,并不妨碍我们同时使用自下而上的研究策略。“在人工智能中,合并自上而下和自下而上的研究路径是较优的研究策略之一。当两种研究路径,分别自上而下与自下而上在中间合并时,便形成了一种解决路径。”[8]
在这里需要注意的是,无论是低层次的本体论层面(如生物化学),还是高层次的关于信息和本体论的层面,对于研究生物过程而言,没有哪一种是固有的更为优越的。关于细胞和多细胞现象的正确的高层面的信息,没有必要一定要被还原成更低层面的本体论视角。很多情况下,高层面的系统知识反而能够帮助我们限定研究的搜索空间,促进我们去理解更低层面的生物过程。因此,对于一个系统不同层面信息的理解,能够使我们获得更多、更全面的关于该系统的知识。
所以,在细胞或者多细胞系统的层面,中心法则可以被简单的描述为:基因组→蛋白质组。我们也没有必要必须将其还原到DNA转录和翻译的层面。
4 结语
随着分子生物学的发展,其理论在不断地远离经验。在这样的一个背景下,如何去构造、理解和解释分子生物学,语义分析成为一种十分重要的科学方法。首先,“语义分析方法本身作为语义学方法论,在科学哲学中的运用是‘中性’的,这个方法本身并不必然地导向实在论或反实在论,而是为某种合理的科学哲学的立场提供有效的方法论的论证。”[9]“语义分析方法在例如科学实在论等传统问题的研究上具有超越性,在一个整体语境范围内其方法更具基础性;其次,作为科学表述形式的规则与其理论自身架构是息息相关的,这种关联充分体现在理论表述的语义结构之上,对其逻辑合理性的分析就是对理论真理性的最佳验证;第三,生物学理论表述的多元化特征使得语义分析应用更加具有灵活性。”[10]
正如中心法则,其语义的实现无法脱离其整个理论的语义结构。在整个理论中,每一次结构的上升或者下降,都会带来其代码的语义调整。同时,生物体是一个多层次的、有组织的、结构复杂的系统,在这个不同层次被组织的复杂系统中,任何一个代码的语义都会由于其指称实体所处的本体论、功能及组织层次的不同,而产生不同的语义联想意义。因此,对中心法则进行语义研究是有益于其意义澄清及理论分析的。然而,这种语义研究应该在分子生物学发展的纵向语境下进行。因为,中心法则的语义变迁正是在分子生物学纵向发展的语境化与再语境化得过程中实现的。同时,我们也只有在某种特定的语境下对中心法则进行语义解释,才不会导致其语义的局限性。
作为科学理论的中心法则语义不被局限,就可以避免其作为研究方法的意义局限性。在传统的意义下解决基因组语义问题,占统治地位的是由中心法则激发的一种严格的自下而上的研究策略。中心法则作为一种还原论的基础为研究者提供方法论。20世纪,分子生物学的发展取得了划时代的成就,这与还原论的方法在分子生物学中的应用是无法分开的。然而,生物体的系统性、复杂性特点,又使得还原方法的应用有其具体的局限性。这种严格的自下而上的研究策略带来的问题是,研究过程过于复杂,在实际的层面去解决问题几乎不可能。因此,我们主张一种互补性的自上而下的研究策略。这种自上而下的研究策略,可以在高层次的语境下,对我们解决基因组的语义问题提供一种新的方法论思维。还原论方式的自下而上的研究策略与系统思维方式的自上而下的研究策略,二者既相互对立又相互依赖。如何合理地结合这两种研究策略,对于进一步阐明生命系统的运行机制及规律性有很大帮助。