我搜到3篇文章,希望对你有所帮助医学科研设计中一个常被忽视的统计学错误辨析【作者中文名】 毕京峰; 段俊国; 【作者单位】 山东中医药大学; 成都中医药大学; 【文献出处】 时珍国医国药, Lishizhen Medicine and Materia Medica Research, 编辑部邮箱 2008年 10期 期刊荣誉:中文核心期刊要目总览 ASPT来源刊 CJFD收录刊 【关键词】 医学统计学; 科研设计; 【摘要】 统计学错误在既往的临床科研设计中是常见的,但一般易于发现和改正。笔者近期查阅相关医学科研论文发现,有一个统计学错误,其错误应用率很高,甚至许多统计专业人员也不例外。例:某研究者研究A药对高脂血症性脂肪肝大鼠的作用,设计了如下试验方案:建立高脂血症性脂肪肝大鼠模型,以高、中、低剂量去脂胶囊进行干预,通过血液生化检查,观察其对脂肪肝大鼠的血脂的影响。结果:去脂胶囊能明显降低脂肪肝大鼠血脂,与对照组比较差异有显著性意义(P<)。结论:去脂胶囊对大鼠脂肪肝有肯定治疗作用。在本设计方案中,研究者将A药高、中、低3个剂量组与甲硫氨酸片组和自然恢复组按多因素一水平的统计方法进行方差分析。仔细考察各处理组之间的关系,其实本研究主要涉及两个因素:A药治疗与甲硫氨酸片治疗,而A药高、中、低3个剂量组是A药的3个水平,而不是与甲硫氨酸片平等的3个因素。表1各组大鼠血清脂质比较(x-±s)mmol·L-1组别TC TG HDL-C自然恢复± ± ±药低剂量± ± ±药中剂量±... 【DOI】 CNKI:SUN: 医学科研论文中常见的统计学错误【作者中文名】 李祝华; 【作者单位】 白城市传染病医院 吉林白城; 【文献出处】 吉林医药学院学报, Journal of Jilin Medical College, 编辑部邮箱 2007年 02期 期刊荣誉:ASPT来源刊 CJFD收录刊 【关键词】 医学; 科研论文; 统计学错误; 【摘要】 科技论文常用统计学方法对资料进行加工、整理与分析,从而定性或定量地阐述一些理论或实验结果。现就一些医学期刊(1999~2000年度国家级期刊8种共60期)中出现错误的统计方法进行归纳分析,以提醒科技工作者在撰写科技论文时能合理应用统计学方法,准确地进行描述、估计、比较、预测与分析,尽量减少统计学方法的错误应用,提高科技论文的写作水平。1资料缺乏可靠性有的资料样本数量较少,有的作者选择的实验对象不具代表性,有许多人为因素,有个别作者根据自己主观期望判断结果,更有甚者有时更改实验数据,致使一些实验结果出现较大误差。2统计学方法缺乏科学性统计学方法比较多,如率、构成比、发展速度、显著性检验方法等。有时计算方法不当就能直接影响结果或造成误解。如率与构成比的联系与区别就常被人误解,也有的作者只看表面现象,不经统计学方法处理,就下结论。3统计量投入缺乏规范性科学恰当地计算统计量,才能正确反映事物的真实情况,但如果计算不当,则会出现假象或错误的结果。如未经标准化处理的资料就进行率的比较,由于两组资料的内部结构不同,结... 【DOI】 CNKI:SUN: 医学论文中常见的统计学错误及对策【作者中文名】 杨云华; 【作者单位】 天津市医学科学技术信息研究所 300050天津; 【文献出处】 中华医学科研管理杂志, Chinese Journal of Medical Science Research Management, 编辑部邮箱 2004年 02期 期刊荣誉:ASPT来源刊 CJFD收录刊 【关键词】 医学论文; 统计学; 常见错误; 对策; 【摘要】 分析医学科研论文中统计学方法应用中常出现的错误 ,提高编辑人员识别统计学常见错误的能力 ,确保科研论文的科学性、准确性和可信性 ,努力办成精品期刊。 【DOI】 cnki:ISSN:
不论是什么错,还是谁提出的,一经核实,原刊物会在以后的期刊中,给出勘误表或更正。如果是作者本人,发现的最好尽快与杂志社联系,予以更正,并附一封对读者的致歉信。
你可以参考一下 《当代医学论文研究 》 里面很多这样子的文章
《河北省脑瘫患儿生存质量状况调查与经济负担评价_崔巍》文中 表计算错误。统计表核算“合计”结果是错的。按照表里的数据,计算一下就知道了。
绝大多数的论文撰写,均需通过一定数量临床病例(或资料)的观察,研究事物间的相互关系,以探讨客观存在的新规律。如确定新诊断、新治疗等措施是否优于原沿用的方法,就需进行两种方法比较,这就涉及统计处理;统计设计又是整个课题研究设计中一个重要的组成部分。显然,经正确统计处理的结果可信度高,论文的质量也高。
科学研究很早就已经从简单的定性分析深入到细致的定量分析,科研工作者要面对大量的数据分析问题,科研数据的统计分析结果直接影响着论文的结果分析。在医学科研写作中,实验设计的方法直接决定了数据采取何种统计学方法,因为每种统计方法都要求数据满足一定的前提和假定,所以论文在实验设计的时候,就要考虑到以后将采取哪种数据统计方法更可靠。医学统计方法的错误千差万别,其中最主要的就是统计方法和实验设计不符,造成数据统计结果不可靠。下面,医刊汇编译列举一些常见的可以避免的问题和错误:打开百度APP,查看更多高清图片一、数据统计分析方法使用错误或不当。医学论文中,最常见的此类错误就是实验设计是多组研究,需要对数据使用方差分析的时候,而作者都采用了两样本的均数检验。二、统计方法阐述不清楚。在同一篇医学论文中,不同数据要采取不同统计处理方法,这就需要作者清楚地描述出每个统计值采用的是何种统计学方法,但在许多使用一种以上数据统计分析方法的医学论文中,作者往往只是简单地把论文采用的数据统计方法进行了整体罗列,并没有对每个数据结果分析分别交代具体的统计方法,这就很难让读者确认某一具体结果作者到底采用的是何种数据分析方法。三、统计表和统计图缺失或者重复。统计表或者统计图可以直观地让读者了解统计结果。一个好的统计表或统计图应该具有独立性,即作者即使不看文章内容,也可从统计表或统计图中推断出正确的实验结果。而一些医学论文只是简单地堆砌了大量的统计数字,缺乏直观的统计图或表;或者虽然也列出了统计表或统计图,但表或图内缺项很多,让读者难以从中提取太多有用的信息。另外,也有作者为了增加文章篇幅,同时列出统计表和统计图,造成不必要的浪费和重复。统计表的优点是详细,便于分析研究各类问题。统计图(尤其是条形统计图)的优点是能够直观反映变量的数量差异。医学论文中对数据统计结果的解释,最常见的两个错误就是过度信赖P值(结果可信程度的一个递减指标)和回避阴性结果。前一个错误的原因是因为一些作者对P值含义理解有误,把数据的统计学意义和研究的临床意义混淆。所以医学研究人员一定要注意不能单纯依靠统计值武断地得出一些结论,一定要把统计结果和临床实践结合在一起,这样才会避免出现类似的错误。至于回避阴性结果,只提供阳性结果,是因为不少作者在研究设计时,难以摆脱的一种单向的思维定式就是主观地先认定自己所预想的某种结果结论。在归纳某种结果原因时,从一个方向的实验就下完美的结论,尤其是如果这个结论可能对实际情形非常有意义时。这样的思维定势过于强调统计差异的显著性,有时会刻意回避报道差异的不显著结果,不思考和探究差异不显著的原因和意义,反而会因此忽视一些重大的科学发现。
统计分析方法的选择:对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析目的,选用合适的统计分析方法,不应盲目套用t检验和单因素方差分析;对于定性资料,应根据所采用的设计类型、定性变量的性质和频数所具备的条件以及分析目的,选用合适的统计分析方法,不应盲目套用χ2检验。对于回归分析,应结合专业知识和散布图,选用合适的回归类型,不应盲目套用简单直线回归分析,对具有重复实验数据的回归分析资料,不应简单化处理;对于多因素、多指标资料,要在一元分析的基础上,尽可能运用多元统计分析方法,以便对因素之间的交互作用和多指标之间的内在联系作出全面、合理的解释和评价。
1 设计方面的问题
11 分组没有严格遵循随机化原则研究对象的分组与抽样离不开随机化原则,在足够样本的前提下,随机抽样,随机分组,明确交代随机方法,各组样本量、基本特征等。随机不等于随便,有的作者滥用随机,只要抽样或分组,一概冠以随机,不描述随机方法,把随意、随便当做随机,使研究结果不可信。
12 无对照组或不合理医务科技工作者开展研究的目的就是验证假设是否正确,没有对照,无法做出判断。有的论文无对照组,没有对比观察,所得结论没有说服力。有的论文虽设有对照组,但不是严格的随机分组,组间缺乏可比性,如非同期对照,组间性别、年龄、患病状况不一致等。在实验组和对照组的可比性方面,两组例数要基本一致,否则没有可比性。
13 样本含量过少抽取恰当的样本量,结果才有可靠性。有些文章例数太少,这样抽样误差大,导致结果不可靠。研究对象变量标准差小的,样本可以小一些。观察计数指标的样本一般不少于20~30例,计量指标的样本不少于5~10例。有的作者仅仅观察了数例患者,就得出百分之多少的有效率,显然是不恰当的。
对于对比分析,样本太少得出的结果不可靠,往往随着样本量的增大而发生变化。
2 统计学处理不恰当在进行统计学处理时,首先要明白研究资料是计数资料还是计量资料,尽管是一个常识性的问题,但仍有不少作者搞混了。先分类再计数的资料叫计数资料,如A组30例,B组32例,可根据研究目的计算出阳性率、治愈率等。测定某项具体数值的资料叫计量资料,如身高、体重、脉搏、血压等许多物理诊断和化验结果。在医学科研论文中,计数资料最常用的统计学方法是检验,计量资料最常用的是t检验。在研究设计时,就应根据研究资料的特点,决定假设检验的方法。在处理资料时,因均数和标准差是用来描述正态分布资料集中和离散趋势的指标,可否采用均数±标准差描述研究资料的分布特征,首先要看资料是否是正态分布,如果资料不是正态分布或者方差不齐时,应对资料进行转换处理,使其符合正态分布,方差齐性后采用t检验或方差分析,达不到上述要求,用秩和检验。来稿中,不少作者不考虑适用条件,盲目使用t检验。造成统计学方法使用不当,结果不可靠。更有甚者,有的作者不分计数资料还是计量资料,乱用检验或t检验,其结果可想而知。这是无统计学常识或极不负责任的表现。
有的研究资料数据庞大,只能在表格描述中用阿拉伯数字或特殊符号表示与比较对象的P值,如 P>005 , P<005, P<001,无法一一给出具体的P值。但有的作者既不交代使用的统计学方法,也不给出具体的P值,直接列出 P<005或 P>005,认为差异有统计学意义或无统计学意义,使读者对无法判断结果的可靠性。正确的做法是写明使用的统计学方法,使用了什么统计学软件,如进行了校正检验。亦应说明。这才有说服力。
3 描述不严谨日常生活中对差异的判断与统计学上差异是否有统计学意义是两个完全不同的概念。我们主观上感觉差异不大,而经统计学处理差异可能具有统计学意义;主观上感觉差别很大,但经统计学处理差异可能有统计学意义。有相当数量的作者,在描述统计学结果时,常用差异显着或差异非常显着,易与日常生活中差异的概念混淆,使用差异有统计学意义或差异无统计学意义更为确切。
我们把检验水准设定为 a=005时就是以 P>005为界值,一般以 P>005, P<005, P<0O1 3个档次描述差异有无统计学意义即可,有的作者出现 P<0001,以强调差异的显着性。有的作者用 P>O01或 P<01来表示,是错误的, P>0O1既可能是 P>005,也可能是 P<005,二者有本质的不同。
4 统计符号使用不规范统计符号使用不规范是论文中经常出现的问题,把卡方检验中的 写成x或x2,丢掉平方或把希腊字母x写成英文字母x;把均数±标准差( ±s),丢掉z 上方的一横,既影响论文质量,又影响阅读效果。
5 统计表格不规范统计表格是论文的重要组成部分,表格是否符合统计学要求,对论文有重要影响。常见的问题有:
① 无表题;
② 表题过于简单或过于繁琐。不确切;
③ 横纵标目倒置,不符合语法规律;
④ 标目层次过多;
⑤ 线条太多。甚至左上角有斜线;
⑥ 表内同一栏目数字不对齐,小数点后位数不一致。
表题如同文章的题目,简明扼要,字数控制在15个字以内。表格左侧的标目叫横标目,相当于汉语的主语,表明相应横行内数字的涵义;纵标目位于表格的上方,相当于汉语的谓语部分,说明表格内相应纵行数字的'涵义。
主谓语倒置是统计表格最常见的错误,一般情况下主语做横标目,谓语做纵标目。统计表用三线表,即顶线、底线和隔开纵标目与表内数字的横线,必要时可在纵标目下加辅助线,其余线条一概省略。
统计表格和文字叙述相辅相成,互相补充,能用简洁的文字说明的,一般不用表格,文字描述不要和表格内容完全重复。表格要简洁明快,重点突出,让人一目了然,不要变成数字的堆彻。出现统计表前,要用简要文字描述或强调主要发现,不要把文字叙述放在表格后。
6 使用统计指标不当常见的问题是率与构成比、发病率与患病率、死亡率与病死率等的混淆。
61 把构成比当率构成比是说明事物或现象内部各构成部分的比重,构成比表示某事物内部各组成部分的比重或分布,单位为%,各组成部分之和应为100%。计算公式为:构成比=某组成部分的观察单位数/同一事物各组成的观察单位总数例如2011年某市围产儿死亡总数为18例,其中死胎7例、死产3例、新生儿死亡8例。其构成比分另0为3889%、1667%、4444%。
率为表示某种现象发生的频率或强度。常以%、/万或/lo万表示。计算公式为率=某时期内某现象实际观察单位数/同时期内可能发生该现象的观察单位总数,如共检测568名5~7岁儿童,患龋齿儿童314人,检出率5528%。
构成比和率都是相对数指标。有一篇题为某年某地区4种乙类传染病疫情分析。经数据处理后,作者认为,4种传染病的发病率依次为痢疾5453%(1546/2 835)、肝炎1619%(459/2 835)、乙脑921%(261/2 835)、流脑689% (569/28352007)。该资料是构成比,不是发病率。作者犯了以比代率的错误。
62 发病率与患病率发病率是指观察期内(年、季、月等)新发生某病的例数与同期平均人口数之比,强调在观察期内的新发病例数,常以‰、/7/或/lO万表示。其计算公式为:某病发病率等于某年(期)内所发生的新病例数除以同年(期)平均人口数乘1000%o。例如某地某年年平均人口数为2500人,白喉发病28人,该地白喉年发病率为1120%0。而患病率则指观察时点的某病的现患病例数与该时点人口数之比强调的是该观察时点上某病的现患(新、旧病例)情况,常以百分率表示。有人调查16 875人,其中男性8 674人,沙眼患者7 632人,发病率为8799%;女性8 201人,沙眼患者6 210人。发病率为7572%。这样的结论当然是错误的,其所描述的结果应该是患病率。
63 死亡率与病死率这也是两个容易混淆的指标。某病死亡率是观察人群中某病的死亡频率。常以‰、/万或/10万表示;某病病死率是某病患者中因该病而死亡的频率。
一般以百分率表示。前者反映人群因该病而死亡的频率,后者反映疾病的预后。部分作者常将某病住院病死率误为某病死亡率。如重症监护室患者死亡情况分析一文中报道,颅脑损伤32例,死亡20例,死亡率为625%;严重心衰26例,死亡9例,死亡率为346%;严重肾衰竭18例,死亡11例,死亡率为611%。很明显,作者在这里是将住院病死率误作死亡率来讨论。
我们在编辑医学论文中经常会发现存在这样那样的统计学问题,致使文章质量下降,甚至无法刊用,十分可惜。提高统计学应用水平,减少统计学差错,是作者、审稿专家和编辑共同的责任。树立严谨的科学态度,选择正确的统计学方法,对提高科研水平,确保论文质量有着十分重要的意义。
具体的统计学分析方法,我在网上看到过这方面的视频,是赵清波教授讲的,您可以去创新医学网上找他的视频。她从编辑、审稿的角度介绍避免此类错误的技巧,为医学论文的编审工作提供借鉴。
医学统计论文
医学统计是研究如何搜集、整理和分析医学研究对象的数据和作出推断的一门学科,下面是我为大家收集整理的是医学统计论文,仅供参考。
摘要: 不同的统计分析方法均有其适用的范围和应用的条件,研究者在书写医学论文时应根据论文设计及资料的类型进行合理的试验设计,选择恰当的统计分析方法,切记勿盲目套用。同时,还应注意得出的结果和结论应满足设计的要求。医学统计方法的正确运用,是充分利用试验研究获得的数据,也是最终得出科学、可信的结论的必要条件。
关 键词 :医学统计;方法;运用;原理;选择
一、统计学方法简介
统计学方法包括统计软件包、统计分析方法以及检验水准三方面的内容。其中医学论文中常提到检验水准即α,它是用来表示组间实际无差别而统计结果判断有差别,犯这类错误的概率。实际工作中常取α=,当研究数据计算的P值小于时,组间差异比较被认为有统计学意义。统计学方法包括统计描述和假设检验两个方面的内容。统计描述是指根据资料及原始数据分布的类型,选择正确的指标来描叙资料及数据的特征。而假设检验即组间差异性检验,是医学论文中最常用的统计学方法。资料类型则包括能用具体数据表示的定量资料与不能用具体数值表示但能反映被观察对象某一特征的定性资料。定性资料的统计描述包括率、相对比和构成比。而参数法及非参数法是常用的定量资料统计分析方法。参数法一般包括t检验、方差分析,非参数法常用的有秩和检验。
二、试验设计中的统计学原理
合理的试验设计与统计处理的可信度存在直接联系,研究者在编写医学论文时应对医学研究设计方法进行说明。在进行试验设计时应遵循随机、对照、均衡和重复四大原则。在进行试验设计的时候通常会涉及到研究对象的选择,研究对象的分组及选择合理的检测指标三个方面的内容。
医学论文就是通过对样本的研究来进行推断总体,找出其共性,得出结论。因此研究者在选择研究对象时应注意选择样本应具有一定数量,能反映出该事物的规律性特征,但又应注意例数不能太多,以免造成不必要的浪费。其选择的原则就是在保证试验结果可靠性的前提下选择最少的样本例数。研究者在选择样本对象后应对其基本特征进行详细的描述,比如患者的年龄、性别、病理分期、疾病诊断的标准等。此外在试验中所用到的试剂、仪器的型号、规格等都应作出说明,以供读者借鉴和做出判断。选定好研究对象后就要对其进行分组。在进行分组时研究者一般遵循统计学中的“随机分配”、“设立对照”以及“均衡”、“重复”的原则。随机化原则是提高组间均衡性的一个重要手段,也是资料分析时进行统计推断的前提。有对照才有比较,在进行组间比较时,应确定好处理因素与实验效应的关系。均衡性则是要使得对结果产生影响的非处理因素尽可能保持一致,这样才能保证对照的结果让人信服。观察实验效应的.指标主要有主观指标与客观指标。正所谓主观指标就是通过问答的方式调查受试者自己判断的主观感受;而客观指标则是通过仪器来检验和测量所得出的结果。在进行试验设计时应选择客观性较强、高灵敏性和精确性的指标。
三、统计学方法的选择
统计学方法的正确选择是直接影响到论文结论可信度的重要依据,因此研究者在编写论文时应注意选择合适的统计学方法。不同的统计学方法应用的范围不同。研究者在编写医学论文时常根据论文研究的目的、资料类型、试验设计的方案、样品大小、水平数、特定条件、数据分布特征以及综合分析等来选择对应的统计方法,同时还要根据专业知识与资料的实际情况,结合统计学原则,灵活地选择。当定性资料正态分布时,研究者一般用均数和标准差来表示统计描述指标;当定性资料不符合正态分布时,则可选用中位数及级差来表示;当定量资料正态分布且组间方差齐时一般选用参数法,反之则选用非参数法。t检验一般适用于小样本(n<50)的定量资料且方差齐的两组数据之间的比较。其特点是在均方差不知道的情况下,可以检验样本平均数的显著性,大样本(n≥50)采用u检验;多个样本均数两两比较则用方差分析,如差异有统计学意义,可采用q检验;Dunnett检验则适用于多个实验组与一个对照组均数的比较。定性资料中,表现为互不相容的类别或属性,分为二分类和多类反应,如治疗结果为显著和好转的人数等,该种资料可选用字检验,大样本(n≥50)时采用u检验。如:患者的治疗结果评定为痊愈、显著有效、好转、无效或死亡。该种资料可选用秩和检验或u检验。总之,不论论文中选用的是哪种统计学方法,都要计算出检验值,然后再根据统计量值来判定P值的大小,结论一般描述为“差异有(无)统计学意义”。
四、常见统计学方法的误用分析及对策
1.统计方法误用。最常见统计方法误用是对等级资料进行比较时应用秩和检验而误用卡方检验。例如:在评价采取不同治疗方法的两组急性脑血管病患者疗效中,治疗组显著有效、有效、无效三种分型分别为15例、10例、8例,对照组分别为14例、11例、9例。本资料例数较少,应选用等级比较的秩和检验,而有些作者却认为只要是率的比较就可以采用字检验。研究者在选择统计学方法时应根据相应的原则,对文章研究目的、资料类型、样品大小、水平数、数据分布特征等进行综合分析后,再来选择对应的统计方法。
2.选用检验方法错误。在有些论文中,作者常将本应用方差分析和q检验的误用t检验。t检验一般适用于小样本(n<50)定量资料且方差齐的两组数据之间的比较,而方差分析及q检验主要用于对多个样本均数进行比较,几种不同治疗或处理方法等的同时比较。例如:在讨论中、西以及中西医结合治疗急性脑血管病时,两组患者的年龄、病程、病情严重程度等差别均无统计学意义,比较三组患者的一些指标变化。组间多重比较应用q检验,但文中作者采用的是t检验,对三组均数进行两两比较。这不仅造成了资料的利用率低,也增加了假阳性的概率,降低了试验结果的可信度。
五、结论表述中的统计学应用
资料的统计处理不是医学研究工作的最终目的,而是通过统计学分析为研究结论提供依据或者线索。因此,在对统计资料进行分析后应把握统计学术语,对结论做出科学的分析跟解释。在根据统计结果得出专业结论时研究者应遵循一个重要原则,就是统计结论都是概率性的,不能绝对地肯定或否定。研究者习惯上将“P<”称为显著性,不应误解为差别很大或者在医学上有显著的价值。统计推断是以一定的概率界值为依据,说明来自同一总体的可能性大小。“差异有统计学意义”说明在试验中的差异不能用抽象误差进行解释;“差异无统计学意义”表明在试验既定的条件下,差异可能是因抽象误差引起的,在增加样本数量的情况下,差异可能变成“有统计学意义”。
参考文献:
[1]医学统计工作的基本内容[J].国际检验医学杂志,2013(19):2563.
[2]关红阳,郭轶男.医学统计t检验的分析研究[J].中国校外教育,2013(30):114.
医学论文统计学分析的知识你可以登陆:创新医学网 创新医学网上有医学论文统计学分析视频、医学论文写作辅导范文、医学论文写作视频、医学论文写作电子书等等,统计学分析的所有信息创新医学网上有很多资料,都是可以查看的。 卫生统计在医学期刊中占有非常重要的地位。任何科研设计、实验研究都离不开统计方法,而统计方法的正确与否直接影响到论文的质量。我们在编审稿件过程中,经常遇到统计学方法使用不当等问题。 数理统计的基础是概率论,对统计分析的资料下结论的依据是小概率事件在一次试验中是不可能发生的。一般统计上习惯把概率P≤或P≤认为是小概率事件[1]。当通过假设检验(显著性检验)获得P>时,认为是大概率事件,说明在这一次试验中很可能发生,因此接受假设,认为差异无显著意义(差异不显著)。
去知网找,那里肯定有你要的论文,自己可以先搜搜看,不知道怎样找的话,可以去我百度空间里,有如何在网络上找论文的文章介绍
绝大多数的论文撰写,均需通过一定数量临床病例(或资料)的观察,研究事物间的相互关系,以探讨客观存在的新规律。如确定新诊断、新治疗等措施是否优于原沿用的方法,就需进行两种方法比较,这就涉及统计处理;统计设计又是整个课题研究设计中一个重要的组成部分。显然,经正确统计处理的结果可信度高,论文的质量也高。
科学研究很早就已经从简单的定性分析深入到细致的定量分析,科研工作者要面对大量的数据分析问题,科研数据的统计分析结果直接影响着论文的结果分析。在医学科研写作中,实验设计的方法直接决定了数据采取何种统计学方法,因为每种统计方法都要求数据满足一定的前提和假定,所以论文在实验设计的时候,就要考虑到以后将采取哪种数据统计方法更可靠。医学统计方法的错误千差万别,其中最主要的就是统计方法和实验设计不符,造成数据统计结果不可靠。下面,医刊汇编译列举一些常见的可以避免的问题和错误:打开百度APP,查看更多高清图片一、数据统计分析方法使用错误或不当。医学论文中,最常见的此类错误就是实验设计是多组研究,需要对数据使用方差分析的时候,而作者都采用了两样本的均数检验。二、统计方法阐述不清楚。在同一篇医学论文中,不同数据要采取不同统计处理方法,这就需要作者清楚地描述出每个统计值采用的是何种统计学方法,但在许多使用一种以上数据统计分析方法的医学论文中,作者往往只是简单地把论文采用的数据统计方法进行了整体罗列,并没有对每个数据结果分析分别交代具体的统计方法,这就很难让读者确认某一具体结果作者到底采用的是何种数据分析方法。三、统计表和统计图缺失或者重复。统计表或者统计图可以直观地让读者了解统计结果。一个好的统计表或统计图应该具有独立性,即作者即使不看文章内容,也可从统计表或统计图中推断出正确的实验结果。而一些医学论文只是简单地堆砌了大量的统计数字,缺乏直观的统计图或表;或者虽然也列出了统计表或统计图,但表或图内缺项很多,让读者难以从中提取太多有用的信息。另外,也有作者为了增加文章篇幅,同时列出统计表和统计图,造成不必要的浪费和重复。统计表的优点是详细,便于分析研究各类问题。统计图(尤其是条形统计图)的优点是能够直观反映变量的数量差异。医学论文中对数据统计结果的解释,最常见的两个错误就是过度信赖P值(结果可信程度的一个递减指标)和回避阴性结果。前一个错误的原因是因为一些作者对P值含义理解有误,把数据的统计学意义和研究的临床意义混淆。所以医学研究人员一定要注意不能单纯依靠统计值武断地得出一些结论,一定要把统计结果和临床实践结合在一起,这样才会避免出现类似的错误。至于回避阴性结果,只提供阳性结果,是因为不少作者在研究设计时,难以摆脱的一种单向的思维定式就是主观地先认定自己所预想的某种结果结论。在归纳某种结果原因时,从一个方向的实验就下完美的结论,尤其是如果这个结论可能对实际情形非常有意义时。这样的思维定势过于强调统计差异的显著性,有时会刻意回避报道差异的不显著结果,不思考和探究差异不显著的原因和意义,反而会因此忽视一些重大的科学发现。
统计分析方法的选择:对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析目的,选用合适的统计分析方法,不应盲目套用t检验和单因素方差分析;对于定性资料,应根据所采用的设计类型、定性变量的性质和频数所具备的条件以及分析目的,选用合适的统计分析方法,不应盲目套用χ2检验。对于回归分析,应结合专业知识和散布图,选用合适的回归类型,不应盲目套用简单直线回归分析,对具有重复实验数据的回归分析资料,不应简单化处理;对于多因素、多指标资料,要在一元分析的基础上,尽可能运用多元统计分析方法,以便对因素之间的交互作用和多指标之间的内在联系作出全面、合理的解释和评价。
一般常用的统计检验方法有:t 检验、卡方检验、方差分析和相关回归分析。统计检验方法的选择主要依据数据的类型(计量、计数) 、组数的多少(两组、多组) 、样本量的大小以及对比的方式(相互比较、配对比较) ,此外计量数据还要考虑分布形态和方差齐性等问题。
医学统计中的常见误区有哪些
医学统计学是运用概率论与数理统计的原理及方法,结合医学实际,研究数字资料的搜集、整理分析与推断的一门学科。医学研究的对象主要是人体以及与人的健康有关的各种因素。下面是我为大家带来的关于医学统计中的常见误区的知识,欢迎阅读。
一,真正差异和统计学差异
常常有人和我说: P值越小,试验结果的差异就越大!而且还有依据 [P < 是有显著性差异; P < 是有极显著性差异]。
其实,这些人忽略了 n 这个样本数的作用,n 的大小会影响 P 值。但更应该澄清一下的是: P 值代表的是统计学差异,并不是真正的差异!真正的差异只能靠平均值或者频度的比较才能得到。
二,卡方检验的局限性
我们知道各组之间的计数资料的比较,要用卡方检验,但有些情况是不行的!!!
1,当样本有小于5的值2X2表时,必须要用 Fisher 检验才正确!
2,当组与组之间有不同的背景,而这些背景因子还可能会影响到组与组之间结果差异,这是就必须要用 Mantel-Haenszel 检验!
这第2条可能大家不要理解,那我就举两个例子:
1) 关于男性和女性对于不同颜色的喜好的统计学分析
但这里应该注意到年龄可能会对这个分析造成影响,这就要用Mantel-Haenszel 检验了。
***红色 蓝色 黄色
男性 5 7 8
女性 15 10 6
可以按大人和小孩(比如我们以15岁为分界)分层,在SPSS中要把这个因素放到[行] [列]下边的[层化]一栏里,并在统计指标选项里,选 Cochran和Mantel-Haenszel的统计量选项,这样出来的结果就可靠了!
2)两种治疗(A和B)效果的评价分析:
*****A法 B法
生存 41 54
死亡 47 31
用卡方检验 X2=; P <
但是,病人的临床分期将影响着分析结果:
********生存**************死亡
——————————***——————————
————A****B————————A*****B———
1期-----18-----21--------------------0--------0-------
2期-----23-----33-------------------13------- 8-------
3期------0------0--------------------34-------23-------
再用Mantel-Haenszel检验: X2=; P >
说明实际上A法和B法两组的统计学差异,是这个不同的分期造成的!!!
1,当样本有小于5的值2X2表时,必须要用 Fisher 检验才正确!
讨论:当样本有小于5的值2X2表时,必须要用 Fisher 确切概率法。
当样本有小于5的值R×C表时,将某两组合并,用pearson卡方检验。
三,t 检验的局限性
1,我们经常用 t 检验来判别两组病人血清中某种标记物水平上的差异,但这里要注意,有一些血清标记物的水平是不能用 t 检验的!
比如: 血清标记物 PSA和AFP,在正常人的水平是很低的,而在病人则明显增加,呈现指数幂次改变,这样一来,血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!
这时应该用 非参数性检验---即 Mann-Whitney U test (Wilcoxon U test)。
2,关于用不用配对t 检验,我个人认为当同一组样本在不同时点,不同处理方式的比较上,应该用配对t 检验。
四,ANOVA 检验的局限性
1,在2组以上计量资料样本比较时,ANOVA 检验非常常用。但这个检验只是说明了一个趋势的比较结果,并不能说明真正的统计学差异,真正的`差异还要通过每两个点的直接比较,也就是说应该在ANOVA 检验后,还必须做两两比较或多重比较,这样才能从全貌上反映出统计的全部结果。
2,既然方差分析得到差别有显著性意义的结论后,还需进行两两比较,有人认为还不如一开始就进行多次t检验更方便,其实,这种认识是不妥当的。t检验用于ANOVA的两两比较将增大第一类错误,产生假阳性,因此要采用特定的方法,在SPSS的one-way ANOVA或General linear models中操作时,Post Hoc(多重比较)对话框内有多种方法可供选择,象两两比较一般用SNK法,而多个试验组和一个对照组的比较则多用dunnett检验。
3,我们经常用 ANOVA 检验来判别几组病人血清中某种标记物水平上的差异,但这里要注意,与 t 检验一样,有一些血清标记物的水平是不能用 ANOVA 检验的!
如上所说的: 血清标记物 PSA和AFP,在正常人的水平是很低的,而在病人则明显增加,呈现指数幂次改变,这样一来,血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!
这时应该用 非参数性检验---即 Kruskal-Wallis rank test 。
五,单元线性相关分析
有时我们常常只注意到了 P 值大小,可最重要的是 r 值!
样本数 n 对 P 值 结果的影响很大,容易让我们产生错觉,其实,相关的存在与否的评价是与 r 值最直接相关的,如下:
当 P 值小于时: r 值
几乎没有相关关系
弱的相关关系
有相关关系
强相关关系
极强相关关系
P 值只是证明这个相关在统计学上是否成立!!!
1,当样本有小于5的值2X2表时,必须要用 Fisher 检验才正确!
讨论:当样本有小于5的值2X2表时,必须要用 Fisher 确切概率法。
当样本有小于5的值R×C表时,将某两组合并,用pearson卡方检验。
不是说样本小于5
而是说:在R×C表中
理论频数不应该小于1,并且1≤T≤5的格子数不应该超过总格子数的1/5,若出现上述情况可以通过以下方法:
a.增加样本含量,使理论频数增大;
b.根据专业知识,删除理论频数太小的行和列;或者将理论频数太小的行或列与性质相近的邻行和邻近列合并。
c.改用双向无序的R×C表的fishher确切概率法。
还有一点
四格表卡方检验的适应指标:(T为理论频数)
1。n≥40,且T≥5时用卡方检验基本公式。但是当p≈α应该用fisher确切概率法
2。n≥40,但是1≤T≤5时,用四格表校正公式
3。n<40,或者T<1时,用fisher四格表确切概率法
4。四格表卡方检验的连续性校正仅仅用于自由度为1的四格表尤其是n较小时。
补充几点:
1. 关于P值:P值的大小并不是各组差异的大小,而是统计学差异显著性的大小。P值越小,说明得出各组没有差异的概率越小,越有理由说明各组存在差异(可以说,P值的大小反映了做出统计结论的“理由”的大小,而不是被比较的各组的实际差异的大小,得出有意义的结论后,其差异的大小可直接通过各组的均数或率进行比较)。
2. 关于t检验和方差分析:katalyster兄上面提到的t检验及方差分析在某些时候不适用,实际上就是每种方法都有其应用条件,不服从正态分布当然不能用。对这样的资料首先可考虑变量变换(如抗体滴度等资料,为指数或幂次的关系,可用对数转换),如变换后,服从正态分布,可用上述方法;若还不符合,则考虑非参数检验。
3. 关于相关分析:两个变量间是否存在相关关系,要看P值,而不是r值,r值用来说明相关关系的大小。当P<,才能讲两变量间存在相关关系,再看r值,r值越大,相关关系越强,反之越小;否则,P>,不能讲两变量间存在相关关系,r值毫无意义。
感谢kushuya, xiaoxiongzjh两位专家的补充和指正!之所以开这个专题,是真心想让初学者从这些<误区>中走出来!
六,Logistic regression 分析
在判断某因子对疾病的危险度时常用的方法。
1,假设要判断某因子对疾病的危险度(OR),要了解这个OR是一个相对危险度,即是有某因子存在和没有某因子存在之间比较的OR值。
2,OR 和 RR 不一样,OR是在Logistic regression model中使用,RR是在Cox proportional hazard model中使用。
3,假设要判断某因子对疾病的危险度,要在多变量Logistic regression model中校正一些混扰因素,如常见的年龄,性别,吸烟等等,并最后得出这个 Adjusted OR。但并不是说有了这些校正,我们就可以在实验设计上就不考虑这些混扰因素,相反,必须在实验设计上就把这些混扰因素在实验组和对照组配平,光靠在多变量Logistic regression model中校正是不可靠的。
其它方法---生存分析 (Kaplan-Meier法+ Logrank法):
我们有时在临床研究只注意到了用这种方法分析与生存相关的研究,其实,在疾病复发上也常用这种方法!前者是以生---死为判别,后者则以复发---不复发为判别。
1 设计方面的问题
11 分组没有严格遵循随机化原则研究对象的分组与抽样离不开随机化原则,在足够样本的前提下,随机抽样,随机分组,明确交代随机方法,各组样本量、基本特征等。随机不等于随便,有的作者滥用随机,只要抽样或分组,一概冠以随机,不描述随机方法,把随意、随便当做随机,使研究结果不可信。
12 无对照组或不合理医务科技工作者开展研究的目的就是验证假设是否正确,没有对照,无法做出判断。有的论文无对照组,没有对比观察,所得结论没有说服力。有的论文虽设有对照组,但不是严格的随机分组,组间缺乏可比性,如非同期对照,组间性别、年龄、患病状况不一致等。在实验组和对照组的可比性方面,两组例数要基本一致,否则没有可比性。
13 样本含量过少抽取恰当的样本量,结果才有可靠性。有些文章例数太少,这样抽样误差大,导致结果不可靠。研究对象变量标准差小的,样本可以小一些。观察计数指标的样本一般不少于20~30例,计量指标的样本不少于5~10例。有的作者仅仅观察了数例患者,就得出百分之多少的有效率,显然是不恰当的。
对于对比分析,样本太少得出的结果不可靠,往往随着样本量的增大而发生变化。
2 统计学处理不恰当在进行统计学处理时,首先要明白研究资料是计数资料还是计量资料,尽管是一个常识性的问题,但仍有不少作者搞混了。先分类再计数的资料叫计数资料,如A组30例,B组32例,可根据研究目的计算出阳性率、治愈率等。测定某项具体数值的资料叫计量资料,如身高、体重、脉搏、血压等许多物理诊断和化验结果。在医学科研论文中,计数资料最常用的统计学方法是检验,计量资料最常用的是t检验。在研究设计时,就应根据研究资料的特点,决定假设检验的方法。在处理资料时,因均数和标准差是用来描述正态分布资料集中和离散趋势的指标,可否采用均数±标准差描述研究资料的分布特征,首先要看资料是否是正态分布,如果资料不是正态分布或者方差不齐时,应对资料进行转换处理,使其符合正态分布,方差齐性后采用t检验或方差分析,达不到上述要求,用秩和检验。来稿中,不少作者不考虑适用条件,盲目使用t检验。造成统计学方法使用不当,结果不可靠。更有甚者,有的作者不分计数资料还是计量资料,乱用检验或t检验,其结果可想而知。这是无统计学常识或极不负责任的表现。
有的研究资料数据庞大,只能在表格描述中用阿拉伯数字或特殊符号表示与比较对象的P值,如 P>005 , P<005, P<001,无法一一给出具体的P值。但有的作者既不交代使用的统计学方法,也不给出具体的P值,直接列出 P<005或 P>005,认为差异有统计学意义或无统计学意义,使读者对无法判断结果的可靠性。正确的做法是写明使用的统计学方法,使用了什么统计学软件,如进行了校正检验。亦应说明。这才有说服力。
3 描述不严谨日常生活中对差异的判断与统计学上差异是否有统计学意义是两个完全不同的概念。我们主观上感觉差异不大,而经统计学处理差异可能具有统计学意义;主观上感觉差别很大,但经统计学处理差异可能有统计学意义。有相当数量的作者,在描述统计学结果时,常用差异显着或差异非常显着,易与日常生活中差异的概念混淆,使用差异有统计学意义或差异无统计学意义更为确切。
我们把检验水准设定为 a=005时就是以 P>005为界值,一般以 P>005, P<005, P<0O1 3个档次描述差异有无统计学意义即可,有的作者出现 P<0001,以强调差异的显着性。有的作者用 P>O01或 P<01来表示,是错误的, P>0O1既可能是 P>005,也可能是 P<005,二者有本质的不同。
4 统计符号使用不规范统计符号使用不规范是论文中经常出现的问题,把卡方检验中的 写成x或x2,丢掉平方或把希腊字母x写成英文字母x;把均数±标准差( ±s),丢掉z 上方的一横,既影响论文质量,又影响阅读效果。
5 统计表格不规范统计表格是论文的重要组成部分,表格是否符合统计学要求,对论文有重要影响。常见的问题有:
① 无表题;
② 表题过于简单或过于繁琐。不确切;
③ 横纵标目倒置,不符合语法规律;
④ 标目层次过多;
⑤ 线条太多。甚至左上角有斜线;
⑥ 表内同一栏目数字不对齐,小数点后位数不一致。
表题如同文章的题目,简明扼要,字数控制在15个字以内。表格左侧的标目叫横标目,相当于汉语的主语,表明相应横行内数字的涵义;纵标目位于表格的上方,相当于汉语的谓语部分,说明表格内相应纵行数字的'涵义。
主谓语倒置是统计表格最常见的错误,一般情况下主语做横标目,谓语做纵标目。统计表用三线表,即顶线、底线和隔开纵标目与表内数字的横线,必要时可在纵标目下加辅助线,其余线条一概省略。
统计表格和文字叙述相辅相成,互相补充,能用简洁的文字说明的,一般不用表格,文字描述不要和表格内容完全重复。表格要简洁明快,重点突出,让人一目了然,不要变成数字的堆彻。出现统计表前,要用简要文字描述或强调主要发现,不要把文字叙述放在表格后。
6 使用统计指标不当常见的问题是率与构成比、发病率与患病率、死亡率与病死率等的混淆。
61 把构成比当率构成比是说明事物或现象内部各构成部分的比重,构成比表示某事物内部各组成部分的比重或分布,单位为%,各组成部分之和应为100%。计算公式为:构成比=某组成部分的观察单位数/同一事物各组成的观察单位总数例如2011年某市围产儿死亡总数为18例,其中死胎7例、死产3例、新生儿死亡8例。其构成比分另0为3889%、1667%、4444%。
率为表示某种现象发生的频率或强度。常以%、/万或/lo万表示。计算公式为率=某时期内某现象实际观察单位数/同时期内可能发生该现象的观察单位总数,如共检测568名5~7岁儿童,患龋齿儿童314人,检出率5528%。
构成比和率都是相对数指标。有一篇题为某年某地区4种乙类传染病疫情分析。经数据处理后,作者认为,4种传染病的发病率依次为痢疾5453%(1546/2 835)、肝炎1619%(459/2 835)、乙脑921%(261/2 835)、流脑689% (569/28352007)。该资料是构成比,不是发病率。作者犯了以比代率的错误。
62 发病率与患病率发病率是指观察期内(年、季、月等)新发生某病的例数与同期平均人口数之比,强调在观察期内的新发病例数,常以‰、/7/或/lO万表示。其计算公式为:某病发病率等于某年(期)内所发生的新病例数除以同年(期)平均人口数乘1000%o。例如某地某年年平均人口数为2500人,白喉发病28人,该地白喉年发病率为1120%0。而患病率则指观察时点的某病的现患病例数与该时点人口数之比强调的是该观察时点上某病的现患(新、旧病例)情况,常以百分率表示。有人调查16 875人,其中男性8 674人,沙眼患者7 632人,发病率为8799%;女性8 201人,沙眼患者6 210人。发病率为7572%。这样的结论当然是错误的,其所描述的结果应该是患病率。
63 死亡率与病死率这也是两个容易混淆的指标。某病死亡率是观察人群中某病的死亡频率。常以‰、/万或/10万表示;某病病死率是某病患者中因该病而死亡的频率。
一般以百分率表示。前者反映人群因该病而死亡的频率,后者反映疾病的预后。部分作者常将某病住院病死率误为某病死亡率。如重症监护室患者死亡情况分析一文中报道,颅脑损伤32例,死亡20例,死亡率为625%;严重心衰26例,死亡9例,死亡率为346%;严重肾衰竭18例,死亡11例,死亡率为611%。很明显,作者在这里是将住院病死率误作死亡率来讨论。
我们在编辑医学论文中经常会发现存在这样那样的统计学问题,致使文章质量下降,甚至无法刊用,十分可惜。提高统计学应用水平,减少统计学差错,是作者、审稿专家和编辑共同的责任。树立严谨的科学态度,选择正确的统计学方法,对提高科研水平,确保论文质量有着十分重要的意义。
医学论文统计学方法应用的错误解析论文
摘 要: 统计学方法应用正确与否直接关系到医学科研结果的可信度和有效性,在研究设计时的错误应用会否决整个科研研究方案,基于错误统计学方法上产生的结果会浪费科研人员的时间和精力。编审人员应该高度重视医学论文的统计学方法应用,提高单篇文献的质量和学术水平。
关键词: 统计学方法;医学论文;解析
一、引 言
医学由于其研究的复杂性和系统性,常需要应用严谨的统计学方法,由于有些作者对医学科研的统计学理论和方法的应用缺乏深刻了解,在医学论文中错误应用统计学方法的现象时有发生。统计学方法应用的错误直接导致统计结果的错误。例如统计学图表、统计学指标、统计学的显著性检验等。因此,正确应用统计学方法,并将所获得的结果进行正确的描述有助于单篇论著的质量提高,现将医学论文中统计学方法应用及其常见结果的错误解析如下。
二、医学论文统计学方法应用概况
医学论文的摘要是全文的高度浓缩[1],主要由目的、方法、结果、结论组成。一般要求要写明主要的统计学方法、统计学研究结果和P值。一篇医学论文的质量往往通过摘要的统计学结果部分就能判断。统计学方法的选择和结果的表达直接影响单篇论著的科研水平。
(一)材料与方法部分
正文中,材料与方法部分必须对统计学方法的选择、应用、统计学显著性的设定进行明确说明。通过对统计学方法的描述,读者应该清楚论著的统计学设计思路。材料部分要清楚说明样本或病例的来源、入组和排除标准、样本量大小、研究组和对照组的设定条件、回顾性或者前瞻性研究、调查或者实验性研究、其他与研究有关的一般资料情况,其目的是表明统计学方法应用的合理性和可靠性,他人作相关研究时具备可重复性。方法部分应详细叙述研究组和对照组的不同处理过程、观察的具体指标、采用的测量技术,要具备可比较性和科学性,
方法部分还要专门介绍统计分析方法及其采用的统计软件。不同的数据处理要采用不同的方法,必须清楚的说明计数或者计量资料、两组或者多组比较、不同处理因素的关联性研究。常用的有两组间计量资料的t检验,多组间计量资料的F检验,计数资料的卡方检验,不同因素之间的相关分析和回归分析。有些遗传学研究方法还有专门的统计学方法,要在这里简要说明并给出参考文献,还要简单叙述统计方法的原理。统计学软件要清楚的说明软件的名称和版本号,如基于家系资料研究的版本。
(二)论文结果部分
论文结果部分要显示应用统计学方法得到的统计量[2],所采用的统计学指标较多时,往往分开叙述。分组比较多时还要借助统计图表来准确表达统计结果。对于数据的精确度,除了与测量仪器的精密程度有关外,还与样本本身的均数有关,所得值的单位一般采用紧邻均数除以三为原则。均数和标准差的有效位数要和原始数据一致。标准差或标准误差有时需要增加一个位数,百分比一般保留一个小数。在统计软件中,分析结果往往精确度比较高,一般要采用四舍五入的方法使其靠近实验的实际情况,否则还会降低论文的可信度和可读性。
结果部分的统计表采用统一的“三线”表,表题中要注明均数、标准差等数据类型。表格中的数值要按照行和列进行顺序放置,要求整齐美观,不能出现错行现象。要明确标注观察的例数,得到的检验统计量。统计图可以直观的表达研究结果,如回归和相关分析的散点图可以显示个体值的散布情况。曲线图表达个体均值在不同组别随时间变化的情况或者不同条件下重复测量的结果。误差条图由均数加减标准误绘出,描述的是67%的置信区间,不是95%,提倡在误差条图采用95%的置信区间。
关于统计量,一般采用均数与标准差两个指标,均数不宜单独使用。使用均数的时候要明确变异指标标准差或者精确性指标标准误。关于百分比,分母的确定必须要符合逻辑,过小的样本会导致分母过小而出现百分比过大的情况。百分率的比较要写清两者中不同的变化,可以采用卡方检验。
1.假设检验的结果中,常见只写P值的情况,有时候会误导读者,也会隐藏计算失误的情况,因此写出具体的统计值,如F值、t值,可以增强可信度。对于率、相关系数、均数这类描述统计量,要清楚写明进行过统计学检验并将结果列出。P值一般取与作为检验显著性,对于结果的计算要求具体的P值,如P=或P=。
2.在对论文进行讨论时,作为统计学方法产生的结果往往要作为作者的主要观点支持其科学假设,对统计结果的正确解释至关重要。P值很大表明两组间没有差别属于大概率事件,P值很小表明两组间没有差别的概率很小。当P<;,表明差异具有统计学意义。P值与观察的样本量的大小有关联,当样本量小的时候,数据之间的差别即使很大,P值也可能很大;当样本量大时,数据之间的差别即使很小,P值也可能显示有显著性差异。相关系数统计学意义的显著性也与相关系数的大小没有绝对的关联,有统计学意义的样本相关系数可能很小。因此,有统计学差异的描述并不一定意味着两组间差别很大,错判的危险性很大,显著性的检验为定性的结果,结合统计量大小方可判断是否具有专业意义。
变量间虚假的相关关系与变量随时间变化而变化相关,统计学意义的关联并不表示变量间一定存在因果关系。因果关系的确定要根据专业知识和采用的'研究方法的不同来考量。使用回归方程进行分析,当两变量间具有显著性关系,但是从自变量推测因变量仍然不会很精确。相关或回归系数不能预测推测结果的精确程度,而只是预测一个可信区间。诊断性检验应用于人群发病率很低的疾病,灵敏度、特异度的高低对于明确疾病诊断并不能很肯定。“假阳性率”与“假阴性率”根据实际的需要不同要求并不一致,在疾病患病率很低时,出现假阳性也是正常的,要确诊疾病必须要与临床症状体征相结合。因此,这两个率的计算方法必须交待清楚。
三、医学论文统计学方法应用的常见错误分析
(一)“材料与方法”中的统计学方法应用的常见错误
“材料与方法”中统计学方法常见的问题主要为:对样本的选择或者研究对象的来源和分组描述很少或者过于简单。例如,临床入组病例分组只采用简单的随机分组,未描述随机分组的方法,未描述是否双盲双模拟,未设置空白对照组,分组后对性别、年龄、文化程度的描述未进行统计学检验,对于特殊的统计学方法没有详细交代;动物实验分组的随机化原则描述过于简单,没有具体说清完全随机、配对或分层随机分组等;统计分析方法没有任何说明采用的分析软件,有的只说明采用的分析软件而不交代在软件中采用的统计方法;没有说明原因的情况下出现样本量过于小等情况。
(二)“结果”统计学方法应用的常见错误
1.应用正确的统计学方法出现的结果表达并不一定正确。例如前文所述数据的精确度要求。医学论文常见错误中包括均数、标准差、标准误等统计学指标与原始数据应保留的小数位数不同;对于率、例数、比值、比值比、相对危险度等统计学指标保留的小数点位数过多;罕见疾病的发病率、患病率、现患率等指标没有选择好基数,导致结果没有整数位;相关系数、回归系数等指标保留的小数位数过多或者过少;常用的一些检验统计量,如F值、t值保留的位数不符合要求。
2.对统计学指标进行分析和计算时,一般采用计数资料和计量资料进行区分。计量资料常用三线表,在近似服从正态分布的前提下采用均数、标准差进行说明,如果不符合正态分布时,可以采用加对数或其他的处理方式使其近似正态分布,否则只能采用中位数和四分位数间距等指标进行描述。医学论文中常见未对数据进行正态分布检验的计算,影响统计结果的真实性和可信度。对于率、构成比等常用的计数资料指标,常见样本量过小的问题,采用率进行描述会影响统计结果的可靠性,采用绝对数进行说明会显得客观一些。还有一些文献将构成比误用为率,也是不可取的。
3.在判断临床疗效之一指标时,两组平均疗效有差别并不意味着两组的每一个个体都有效或无效,必须通过计算有效率进行计算。如比较某药物治疗糖尿病的疗效,服药一周后,研究组和对照组的对血糖降低值分别为 ± 和 ± ( P = 1) 。按空腹血糖值低于的疗效判定有效率,研究组和对照组的有效率分别为和 ,尽管平均疗效相差较多,但也要注意到该药物对部分患者无效()。对假设检验结果的统计学分析结果,P 值的表达提倡报告精确P值,如P = 或P = 等。目前的统计学分析软件均可自动计算精确的P 值。例如常用的SAS,SPSS等,只要提供原始数据,就可以计算出t值、F值和相应的自由度,并可获得精确的P值。
四、小 结
提高医学论文中统计学方法的使用质量是编辑部值得重视的一项长期而又艰巨的工作[3],医学论文中统计方法应用和统计结果的表达正确与否,不仅体现了论文的科学性和严谨性,而且对于提高期刊整体的学术质量,促进医学科学的发展和传播也有着重要作用[4]。
参考文献:
[1] 李敬文,吕相征,薛爱华.医学期刊评论性文章摘要的添加对期刊被引频次的影响[J].编辑学报,2011(23).
[2] 陈长生.生物医学论文中统计结果的表达及解释[J].细胞与分子免疫学杂志,2008(24).
[3] 潘明志.新时期复合型医学科技期刊编辑应具备的素质和能力[J].中国科技期刊研究,2011 (22).
[4] 张春军,董凯.网络信息时代加强医学期刊编辑的信息素养[J].牡丹江医学院学报,2011(32).