对“垃圾”论文的认识 当学生们了解到某些(甚至可能是大多数)发表的论文应当扔进垃圾箱,肯定不能用于指导临床实践时1,他们通常感到很惊讶。本文第一个框图内列出了论文被有审稿程序的杂志退稿的某些常见原因。 目前医学杂志上发表的论文大多数都或多或少按标准的IMRAD 格式撰写:即前言(作者为什么决定进行这项研究)、方法(作者如何进行这项研究,怎样分析所得到的结果)、结果(作者发现了什么)及讨论(得到的结果有什么意义)。如果你要判断一篇论文是否值得阅读,你应该审查这篇论文方法学部分的科研设计,而不是审查该研究假设的重要性、研究结果的可能影响或讨论的深入程度。 严格评价 许多循证医学的教科书2-6和JAMA杂志上发表的Sackett及其同事撰写的医学文献使用指南7-21,都详细介绍过对科研方法的质量进行评价(严格评价)的方法。如果你是一名有经验的杂志读者,这些作者提供的结构式审查单绝大部分具有自明性。如果你不是这样,则请试着回答下列基本的问题。本文要点 医学杂志发表的许多论文在方法学方面有潜在的严重缺陷当判断某篇论文是否有效并与临床实践有关时,首先确定该论文阐述了什么临床问题阐述有关药物治疗或其它医疗干预措施问题时,应该采用双盲随机对照临床试验阐述有关预后问题时,需要纵断面的队列研究;阐述有关病因方面的问题时,需要队列研究或病例-对照研究病例报告尽管在方法学方面不够严格,但可以很快完成,并可以提醒医生注意药物的不良反应 问题1:为什么进行这项研究,作者阐述了什么临床问题? 一篇科研论文的前言部分应当简明扼要地说明这项研究的背景。例如,“Grommet插入术对儿童是一种常用的操作,因而有人认为并非所有的手术在临床上都有必要”。在这个说明之后应该接着对已发表的文献做一简要的回顾。 论文为什么被拒绝发表 。 研究没有阐述重要的科学课题。 研究不是原始性的(其他人已经作了同样或类似的研究)。 研究并没有真正检验作者所提出的假设。 应该进行另一种类型的研究。 执行困难(例如,筛选研究对象),使得作者改变原先的研究方案。 样本量太少。 研究没有设对照组或对照不充分。 统计学分析方法错误或不恰当。 作者从研究资料中得出的结论不正确。 有明显的利益冲突(作者之一或赞助者可能通过发表这篇文章获得经济利益),并且没有充分的证据证明没有偏倚。 论文写作水平太差,不能被理解 作者应在文章的前言中明确说明要进行检验的假设,否则应该在方法学部分明确说明。如果假设是以否定的方式表示的,如“在最大剂量的碘酰脲治疗中加入二甲双胍不能提高对Ⅱ型糖尿病的控制”,则被称为无效假设。 当一项研究的作者开始进行研究时,他们很少真的相信他们的无效假设。作为普通人,他们通常开始去揭示所研究的两个方面之间的差异。但科学家采用的方式是,“让我们假设没有差异,然后努力去否定这个理论”。如果你遵循Karl Popper的教导,这种假设-推导的方法(建立无效假设,然后进行检验)是科研方法的最基本的要素22。 问题2:进行的是什么类型的研究? 首先,确定这篇论文是描述一项原始研究,还是一项第二手(或综合性)研究。原始研究报道第一手的研究资料,而第二手研究是对第一手研究进行汇总并从中得出结论。医学杂志所发表的绝大多数研究为原始研究,通常可分别归入以下3类: 。实验:在实验中, 实验措施是在模拟和控制的环境中在动物或志愿者身上进行; 。临床试验:在临床试验中,首先对一组病人给予干预措施,例如药物治疗,然后对这组病人进行随访,观察他们发生了什么情况; 。调查:在调查中,研究人员在一组病人、医务工作者或其他某些人群样本中进行某些检测。 本文第2个方框显示了用于描述研究设计的一些常用术语。 第二手研究包括: 。综述,可以分为: (非系统性)综述:总结原始研究; 系统性综述:按一种预先确定的严格的方法对原始研究进行总结; 汇总分析:对一个以上的研究的数据资料进行综合。 。指南:从原始研究中得出临床医生应如何操作的结论。 。决策分析:应用原始研究的结果建立概率的树状结构,供医务工作者和病人对临床治疗作选择24-26。 。经济分析:应用原始研究的结果确定某一项治疗措施对资源的应用是否合理。 用于描述临床研究设计特征的术语 组间平行比较——每一组接受一种不同的治疗,两组同时开始进行研究;所得结果用两组比较进行分析配对比较——接受不同治疗的研究对象被进行配对以平衡潜在的混杂因子,如年龄和性别;所得结果用研究对象配对之间的差异进行分析研究对象自身比较——在治疗前和治疗后对研究对象进行检查,所得结果用研究对象自身的变化进行分析单盲——研究对象不知道他们接受了哪种治疗双盲——研究对象不知道他们接受了哪种治疗,研究者也不知道交叉——每一个研究对象都接受干预和对照治疗(顺序采用随机方法),其间经常用无治疗的空白期分隔安慰剂对照——对照组研究对象接受安慰剂(无效药片),安慰剂在外观和味道上应该与有效药片一样。安慰(假)手术也可用于外科临床试验因子设计——这种研究可以允许按照预定结果对一种以上各自独立的变量的作用(无论是分离的还是联合的)进行研究。例如,2×2因子设计可以检验安慰剂、单独阿司匹林、单独链激酶或阿司匹林加链激酶在急性心脏病发作中的作用23 问题3:科研设计是否适合于这项研究? 对这个问题最佳的阐述方法是考虑这项研究涉及到哪个大概的科研领域。绝大多数研究都是有关下面方框中的一个或多个大概的领域。 大概的科研领域 。 治疗:检验药物治疗、外科手术、其它医疗服务方式或其它干预措施的效果。首选的研究设计是随机对照临床试验。 诊断:证实某一新的诊断性实验是否有效(我们能否相信它),是否可靠(我们是否每次都能得到相同的结果)。首选的研究设计是横断面调查。在横断面调查中,研究对象要接受新的检验方法和金标准方法的检查。筛选:证实能够用于大规模人群检验并在症状发生前期检查出疾病的检查方法的价值。首选的研究设计是横断面调查。 预后:确定早期发现的患有某种疾病的病人可能发生什么情况。首选的研究设计是纵断面队列研究。 病因:确定某种假定有害的物质,如环境污染,是否与疾病的发生有关。首选的研究设计是队列研究或病例-对照研究,取决于这种疾病的罕见程度,但是,病例报告也能提供关键的信息 随机对照临床试验 在随机对照临床试验中,参加者是按照一种程序(类似于投掷硬币)被随机分配到干预组(如药物)或另一组(如安慰剂治疗或另一种不同的药物)。两组都被随访一个特定的时期,并按开始时所确定的研究结果(死亡、心脏病发作、血清胆固醇水平等)进行分析。一般而言,除了治疗措施外,两组都是相同的。因此,从理论上说,研究结果的任何差异都归因于治疗措施。 有一些比较治疗组和对照组的临床试验并非随机试验。随机分配在这些试验中或许是不可能、不现实的或是不道德的——例如,比较婴儿在家中出生和医院中出生的结果。更常见的是,缺乏经验的研究者比较一组(如病房 A中的病人)和另一组(如病房B中的病人)。应用这样的设计,根本不可能在统计学的水平上对两组间进行合理的比较。 回答诸如下列问题应该用随机对照临床试验: 。对某一特定的疾病,所研究的这种药物是否比安慰剂或另一种药物效果好? 。对某一特定的疾病,宣传页是否比口头建议能更好地帮助病人对治疗方法作出明智的选择。 但应该记住,随机试验有一些缺点(见框图)27。还应该记住,随机试验的结果在适用性方面有所限制,这是因为排除标准(确定哪些病人不应该进入研究的原则)的偏倚;纳入标准的偏倚(从不能代表这种疾病的某一人群中选择研究对象);拒绝给予某些组群的病人知情同意的机会以便纳入该研究28;仅仅分析预先确定的“客观”的终点结果,而可能排除了干预措施质量的重要方面;以及发表偏倚(选择性发表阳性结果的研究论文)29。 目前,医学杂志报道随机对照临床试验有一个推荐格式30,如果你在撰写这方面的论文,应该尽力遵循它的要求。 随机对照临床试验设计 优点。 允许在一个精确选定的病人组群中(如50~60岁的绝经妇女),对某一单独的变量(如药物治疗与安慰剂的效果对比)进行严格的评价。 前瞻性设计(资料来自开始研究以后发生的病例)。 应用假设-推导进行推理(寻求否定,而非证实本身的假设)。 通过比较基线指标相同的两组来消除潜在的偏倚(但请参见下文)。 允许做汇总分析(在后期对许多相似的临床试验的数字结果联合分析)缺点昂贵并且耗时,因此,在实践中:。 许多随机对照临床试验,或者从未作过,或者研究的病人太少,或者进行的研究时间太短。 绝大多数随机对照临床试验是由大研究机构(大学或政府主办)或药厂提供资助,最终由这些单位来确定研究日程。 经常使用替代的终点指标而非临床测量结果,可导致“潜在的偏倚”,尤其是:。 随机化不理想(见上述)。 没有对所有合格的病人进行随机化分配(临床医生在临床试验中只让那些他们认为可能对干预措施反应好的病人参加)。 未由资料评价人员将病人的随机化状况进行盲法分析 队列研究 在队列研究中,根据暴露于某种特定物质(如一种疫苗、一种药物或一种环境毒素)的不同,选择两组(或更多组)人群,然后随访,观察每一组有多少人发生了某一种特定的疾病或其它后果。在队列研究中随访的时间通常以年(有时10年)来计算,因为许多疾病,尤其是癌症发病需要这样长的时间。值得注意的是,随机对照临床试验通常是从已经患有某种疾病的病人开始研究,但绝大多数队列研究是从研究对象开始, 这些研究对象可能发病,也可能不发病。 有一种特殊类型的队列研究可用于确定疾病的预后(患有疾病的人可能发生什么后果)。一组已经被诊断为患有某种疾病的早期病人,或在筛选检查中有阳性结果的病人被收集起来(起始队列),然后反复进行随访,以观察不同结果的发病率(每年发生的新病例)和病程。 世界上最著名的队列研究是由Austin Bradford Hill爵士、Richard Doll爵士及后来的Richard Peto进行的。这项研究为最初的两位作者赢得了爵位。他们随访了40 000名英国医生,将他们分为4个队列(非吸烟者、轻度吸烟者、中度吸烟者及重度吸烟者),应用全病因死亡率(任何死亡)和特异病因死亡率(某一种疾病导致的死亡)作为观察结果。在1964年发表的10年初步报告中,显示吸烟者无论肺癌死亡率还是全病因死亡率都大幅度增加,并且有“剂量-反应”相关关系(吸烟越多,患肺癌的机率越大)。他们走过了很长的一段路31,最终证实吸烟和健康损害的联系是病因性的,而非偶然性的。这项重要研究的20年和40年的结果(对那些1951年收集并且没有死亡的研究对象的随访率达到惊人的94),不仅表明了吸烟的危害性,也表明了从一个执行良好的队列研究中所获得的证据的重要作用32,33。 回答下列临床问题应该用队列研究: 。高血压随着时间的推移会变好吗? 。早产儿在以后的生长发育和学习成绩方面会发生什么情况? 病例-对照研究 在病例-对照研究中,患有某种特定疾病的病人被识别并与对照组(患有某些其它疾病的病人、总人口、邻居或亲属)进行“配对”。然后收集过去暴露于某种疾病的可能致病因子的资料(例如,通过查找这些人的病例记录,或让他们回忆过去的病史)。同队列研究一样,病例-对照研究通常研究疾病的病因(什么导致了疾病),而非疾病的治疗。病例-对照研究在证据等级中排位比较靠下(见下文),但这种设计对罕见疾病的研究经常是唯一的选择。在病例-对照研究中,主要的困难和潜在的偏倚是准确判定谁是“病例”,因为只要将一个研究对象错误分配,就可以严重影响结果。另外,这种设计不能表明因果关系——病例-对照研究中A与B有关系并不能证明A引起了B。 回答下列临床问题应该用病例-对照研究: 。俯卧睡眠姿势增加小床死亡(婴儿突然死亡综合征)的危险性吗? 。百日咳疫苗导致脑损害吗? 。高架电缆能引起白血病吗? 横断面调查 我们可能都被要求过参加某一项调查,甚至只是有人问我们最喜欢哪种牌子的牙膏。流行病学家进行的调查与此做法相同:对某一有代表性的研究对象样本(或病人)进行访问,通过检查或研究以获得对某一特定临床问题的答案。在横断面研究中,资料是在一个单一的时间内收集的,但可以回顾性地追溯过去的经历,如研究以前的病例记录以调查过去5年中病人的血压被记录过多少次。 横断面调查应该用于回答下列临床问题: 。3岁儿童的“正常”身高是多少? 。精神科护士对严重抑郁症患者使用电惊厥疗法有多大信心? 。有半数糖尿病病人没有被诊断出来,是真的吗? 病例报告 病例报告是以故事的方式描述单独一个病人的病史:“B夫人是一位54岁的秘书,她于1995年6月开始胸部疼痛…”。病例报告经常综合到一起形成病例系列。在病例系列中,一个以上患有某种疾病的病人的病史被加以描述,以阐述这种疾病在某个方面的表现、疾病的治疗,或目前更常见的,阐述对治疗的不良反应。尽管传统认为这种类型的研究提供的证据是“快速而含混”的,但病例报告可以传递大量的在临床试验或调查中可能丢失的信息34,35。值得纪念的病例报告范例 一位医生在他的医院里观察到两个新生儿缺少肢体(海豹肢畸形)。这两位母亲在妊 娠早期都服用过一种新的药物(反应停)。这位医生希望尽快地提醒所有同行注意这种药物引起损害的可能性 证据的等级 当对临床干预措施作决策时,根据不同类型的原始研究所具有的相对权重进行标准记数法(“证据的等级”),可将这些研究排成下列顺序36: (1)系统综述和汇总分析 (2)有明确结果的随机对照临床试验(可信性区间与临床显著性效果的阈值不重叠) (3)不具有明确结果的随机对照临床试验(估计有临床显著性效果,但可信性区间与临床显著性效果的阈值重叠) (4)队列研究 (5)病例-对照研究 (6)横断面调查 (7)病例报告