很多从事生物医学科研的工作者学了多遍统计学仍不得要领,几乎是一用就出错,这是什么原因呢?原因很多,但最根本的原因可能是统计学的教材和教学方法联系实际不够。虽然统计学教材上举些例子都已经过统计学工作者的精心加工,成了统计学教科书中与问题对应的“标准型”,而这些“标准型”对于实际科研工作者来说,已经是“脱胎换骨”后的“装饰品”。至于统计学教学方法方面的缺陷,也是显而易见的。很多人习惯将统计学深奥的理论、繁琐的计算公式和令人眼花缭乱的由统计软件输出的计算结果,采取“填鸭式教学法”一股脑地全部灌输给学习者。等实际工作者学完统计学后,他们面对科研工作中出现的一个个实际问题,就像见到“外星人”一样,不知如何与他们进行“交流和沟通”,更不能随心所欲地去控制和指挥他们。事实上,实际工作者在科研中所遇到的与统计学有关的问题正是问题的“原型”,由于他们无力识别“原型”,无可奈何之下就按自己所能理解的程度和习惯的做法将问题表达出来,这就是问题的“表现型”。当实际工作者准备选择统计分析方法处理自己所收集的实验资料时,常被依附在“表现型”上的伪装所误导,例如,“组别”一词常被实际工作者误认为是“一个实验因素”。因此,他们十有八九会误用或滥用统计学。
一、统计学的三型理论
(一)何为统计学的三型理论
统计学的三型理论(简称为“三型理论”)就是把科研工作中与统计学有关的问题归结为“表现型”、“原型”和“标准型”,笔者通过阐述这三型的客观存在性和他们之间的相互关系,提出破解三型之迷的技巧与策略,为人们编写高质量的统计学教材、巧妙地讲授统计学、轻松地学习统计学和正确地应用统计学提供一种崭新的理念、理论和方法。“三型理论”在实验设计类型的识别和统计分析方法的合理选用上可以起到举足轻重的作用。
1. “表现型就是实际工作者将一个与统计学有关的专业问题以自己最习惯的形式呈现出来的一种模式或结构,这种结构常以一种假象出现,对合理选用统计分析方法处理资料常起误导作用。比如说,某研究者同时用AB两种药做某实验,每种药又考虑小与大两种剂量,一共可以形成4个实验组,研究者习惯上就用“组别”来代表此实验中的“实验因素”,在其下标出“第1组、第2组、第3组、第4组”,给出各组某些定量观测指标测定值的平均值和标准差,并误认为此实验设计是单因素4水平设计,接着进行6次脸验或做一次单因素4水平设计定量资料的方差分析和"检验。这都是错误的,
2 “原型就是能全面正确反映实际工作者研究目的的一种模式或结构,这种结构常把问题的本质呈现出来了。例如,在前例中,在“药物分组”之下表示出“A和B药均用小剂量、八药小剂量B药大剂量、A药大剂量B药小剂量、A和B药均用大剂量”。这样把各药物组的含义明确表达出来,做统计分析时就会很慎重,一般不会盲目去进行两两比较。
3 “标准型就是统计学教科书上对各类问题习惯采用的一种表达模式或结构,这种结构常以“不言自明”的方式把问题的本质呈现出来。例如,在前例中,不用“组别”或“药物分组”等字样,而用“八药剂量”与“B药剂量”这样两个词,在统计学上称它们为两个实验因素,每个实验因素都有“小与大”两个水平,与此实验对应的实验设计名称自然就是“两因素设计”了,更确切地说,应叫做两因素析因设计或2X2析因设计(注意:在两因素实验中,根据某些假设,还有其他的实验设计名称,如两因素系统分组设计、两因素分割设计等)
(二)“三型”之间的关系
通过分析和总结医学科研工作中出现的大量实际问题,不难发现:有些问题的“表现型”就是问题的“原型”;有些问题的“表现型”需要通过结构变形使其转变成“原型”,而还有些问题的“表现型”需要通过拆分使其转变成“原型”。
“原型”与“标准型”之间存在什么样的关系呢?有些问题的“原型”就是问题的“标准型”;有些问题的“原型”需要分解成多个“标准型”;而还有些问题的“原型”根本不存在与之对应的“标准型”。
(三)不易出错的“三型”和极易出错的“三型”
若与一个实际问题对应的“三型”完全相同,只要这个问题本身不很复杂,而且实际应用工作者已具备处理此类问题所需要的知识,通常,人们处理这样的问题是不易出错的。
若与一个实际问题对应的“三型”属于上述最复杂的情形,即“表现型”需要经过变形或拆分才能转变成“原型”,若“原型”又根本不存在与之对应的“标准型”,此时人们处理这样的问题是极易出错的。
(四)皮解“三型”的技巧与策略
全面学习和掌握各类问题的“标准型”,学会透过“表现型”的现象看清其“原型”的本质,借助专业和统计学知识将“原型”所对应的“标准型”如果存应的“标准型,根本不存在,则对拟解决的问题作出应有的裁决(很可能实验设计有严重错误或数据无法得到正确的处理),有时可以通过“拆分组别”的方法,使问题得到适当解决。
二、“三型理论”在实验设计上的应用
实验设计的核心内容是“三要素”、“四原则”和“实验设计类型,1341,人们在设计生物医学实验时,常表现在“设计类型”方面出错,但其本质可能是在“对照原则”与“均衡原则’方面出了问题。可用“三型理论”来指导实验设计,也可用于辨析实验设计方面出现的错误。
【例1】为了探讨在体外具有强大细胞毒活性的口腔癌浸润淋巴细胞(TIL)在体内的抑瘤效果以及化疗药物环磷酰胺(CY)与TL眹合应用治疗口腔癌的可能性。原作者取裸小鼠BAB/C-nu/nu15只,鼠龄6~8周,体重18~24g随机分为3组,即对照组、T1L+1L2组和T1L+L+CY组,每组5只裸鼠。从第1周开始观测肿瘤生长情况,设计与资料见表1
对差错的辨析与释疑:表1给出了本实验设计的“表现型”,看上去本实验似乎涉及到两个实验因素,一个叫“组别”,另一个叫“时间”。然而,此处的“组别”却不是一个普通的实验因素,它是由多个因素分别取不同水平的组合结果中的一部分。若将“T1L+1L2”视为一个不可分割的整体则“组别”本质上由“(TL+1L2)用否”与“CY用否”的。
4 种水平组合中的3种组成,显然,在表1的设计中缺少了单用“C>药”的那一组,这种错误叫“对照不全”。若在表1中,加上一行“Cy?,此时所对应的设计就是问题的“原型”(表2)
在表2中,假定“Cy?”这一行上也有实验数据,面对表2所表达的资料,很多人在判定实验设计类型时,仍认为此项实验中仅涉及两个实验因素,将计”。事实上,应将“组别”拆分成两列,用两个实验因素明确地表示出来康3)由表3可知:它就是与此实验设计对应的“标准型”。
值得注意的是:表3中第二行必须补齐实验结果。此时,表3所呈现的“标准型”,其设计名称为:“具有一个重复测量的三因素设计”,当资料满足参数检验的前提条件时,应选用“具有一个重复测量的三因素设计定量资料的方差分析”处理资料为宜。
如果T1L与1L-2是两种可以合用也可以分别使用的“物质或药物,特别当他们分别处在“使用与否”的状态下,若存在不可忽视的“交互作用”时,则表1中的“组别”在本质上是由“T1用否”、“1L2用否”与“C拥否”的8种水平组合中的3种组成,仅从实验分组的角度看,表1的设计就缺少了5组,这种“对照不全”错误所导致的后果是割裂了整体设计,组间缺乏可比性,结论缺乏说服力。有兴趣的读者可试着列出此时的表格,即在表3的基础上,将左侧的两列改成3列,其实验因素的名称分别为:
“T1L用否”、“12用否”与“C觸用否,他们都有“不用”与“用”两个水平,由这3个实验因素的水平全面组合可以形成8个组,表头上仍是5个时间点,此时的设计应叫做“具有一个重复测量的四因素设上数据之间不独立”当资料满足参数检验的前提条件时,应选用“具有一个重复测量的四因素设计定量资料的方差分析,处理资料为宜。
三、“三型理论,在实验设计类型辨析上的应用
(一)如何才能做到合理选用统计分析方法处理定量资料呢?
合理选用统计分析方法处理定量资料的关键在于两点:其一,检查定量资料所具备的前提条件;其二,准确判定定量资料所对应的实验设计类型。第一个问题可以通过使用统计软件来轻松地解决,而第二个问题完全取决于使用者对实验设计类型知识掌握的熟练程度。笔者提出的“三型理论,可在辨析实验设计类型上发挥很大作用。
(二)借助“三型理论,辨析实验设计类型的实例
【例2】原文题目:咬合干扰对身体重心移动的影响。目的:了解咬合干扰是否会对身体重心产生影响。方法:对14名健康受试者实施人为的咬合干扰,测定其在干扰前、干扰后30min和干扰后24h身体重心的变化。结果见表4统计方法:应用配对验验。结论:咬合干扰对人体重心移动会产生影响。
对差错的辨析与释疑:表4是实际工作者呈现实验资料习惯采用的一种形式,它是一个“表现型”根据这个“表现型”人们很容易误用统计分析方法,因为它给人的印象是表中有两批实验数据,其一是“睁眼检测,的结果,其二是“闭眼检测,的结果。每批实验数据中又分为3个时间点上观测的结果,每位受试者均在这3个时间点上被重复观测,相当于进行了两次自身配对,故原作者采用配对检验对此定量资料进行了处理,这是不正确的。
因为配对设计定量资料的检验仅适用于分析差量服从正态分布的配对设计的定量资料,在配对设计中,只涉及一个具有2水平的因素;而本实验包含两个实验因素,一个是“检测时眼的状态”,它有“睁眼、闭眼”2个水平。另一个是“观测时间”它有“干扰前、干扰后30min干扰后24h”3个水平。对于每一名受试者来说,在这2个因素的不同水平组合条件下都被观测了定量指标的数值,故本资料应为“具有两个重复测量的两因素设计的定量资料”从表4是很难看出其真正的实验设计类型的,按照此实验具体的实施步骤去呈现实验数据,可以得知,与表4对应的问题的“原型,如表5所示。“标准型”只要列出了表5的式样,接触过这种实验设计类型的人就知道,它就是“具有两个重复测量的两因素设计,的标准型。发表论文时,若希望以简练的形式呈现资料的精华可用表6的形式来表达。
对于表5或表6中的定量资料,应选用什么统计分析方法处理为宜呢?当定量资料满足参数检验的前提条件时,若要求不高,可选用具有两个重复测量的两因素设计定量资料的方差分析对资料进行处理,此时,将每个检测状态下的3个时间点视为“地位平等”的;但仔细追究起来,感到并非很合理,因为在“干扰前”这个时间点上观测的结果仅与“测定状态”本身有关,而与“干扰的作用”无关,将此时的测定结果视为“基线值”或“本底”,若能设法将每个受试者的“基线值”化成相等的条件下,推测出“干扰的作用”大小,则更有可比性。统计学上与“基线值”对应的专有名词叫“协变量”,实现前述思想的合适的统计分析方法的全称叫做“具有两个重复测量的两因素设计定量资料的一元协方差分析”。用此方法处理此定量资料,不但可以消除数据之间相关性对观测结果的影响,还可消除“基线值”不等对观测结果的影响,在此基础上,分析出各个因素及因素之间可能存在的交互作用的实验效应来。
四、“三型理论”在表达和分析列联表资料上的应用
如何才能合理地选用统计分析方法处理定性资料呢?其关键在于以下3点:(1)正确地绘制表达定性资料的列联表;(2)准确地给列联表命名;(3)根据结果变量的性质、资料所具备的前提条件和分析目的,选用相应的统计分析方法处理资料16"。“三型理论”在表达和分析列联表资料上也大有用武之地。
五,讨论
实际工作者如何才能从问题的“表现型”正确地揭示其“原型”,进而能顺利地演变出其“标准型”呢?首先,需要对统计学上各类问题的“标准型”有一个全面而又准确地了解和掌握,例如实验设计的4个基本原则是什么,其关键点是什么;标准的实验设计类型有哪些,其特点是什么。其次,要多实践,要在真正掌握了这方面知识的人员指导下多解决一些实际问题,使自己从一次又一次的错误中解放出来。一是不要怕出错,二是要科学地对待所出现的错误,要努力做到“吃一堑长一智”。要做到合理运用统计学虽然不是一朝一夕的事,但只要在正确的理论指导下,学习方法得当,再加上坚持不懈地努力,解决很多较复杂问题的技巧自然也就慢慢掌握了。因为“熟能生巧,功到自然成”。