医学论文统计误用例析

医学统计论文

医学统计是研究如何搜集、整理和分析医学研究对象的数据和作出推断的一门学科，下面是我为大家收集整理的是医学统计论文，仅供参考。

摘要：不同的统计分析方法均有其适用的范围和应用的条件，研究者在书写医学论文时应根据论文设计及资料的类型进行合理的试验设计，选择恰当的统计分析方法，切记勿盲目套用。同时，还应注意得出的结果和结论应满足设计的要求。医学统计方法的正确运用，是充分利用试验研究获得的数据，也是最终得出科学、可信的结论的必要条件。

关键词：医学统计；方法；运用；原理；选择

一、统计学方法简介

统计学方法包括统计软件包、统计分析方法以及检验水准三方面的内容。其中医学论文中常提到检验水准即α，它是用来表示组间实际无差别而统计结果判断有差别，犯这类错误的概率。实际工作中常取α=，当研究数据计算的P值小于时，组间差异比较被认为有统计学意义。统计学方法包括统计描述和假设检验两个方面的内容。统计描述是指根据资料及原始数据分布的类型，选择正确的指标来描叙资料及数据的特征。而假设检验即组间差异性检验，是医学论文中最常用的统计学方法。资料类型则包括能用具体数据表示的定量资料与不能用具体数值表示但能反映被观察对象某一特征的定性资料。定性资料的统计描述包括率、相对比和构成比。而参数法及非参数法是常用的定量资料统计分析方法。参数法一般包括t检验、方差分析，非参数法常用的有秩和检验。

二、试验设计中的统计学原理

合理的试验设计与统计处理的可信度存在直接联系，研究者在编写医学论文时应对医学研究设计方法进行说明。在进行试验设计时应遵循随机、对照、均衡和重复四大原则。在进行试验设计的时候通常会涉及到研究对象的选择，研究对象的分组及选择合理的检测指标三个方面的内容。

医学论文就是通过对样本的研究来进行推断总体，找出其共性，得出结论。因此研究者在选择研究对象时应注意选择样本应具有一定数量，能反映出该事物的规律性特征，但又应注意例数不能太多，以免造成不必要的浪费。其选择的原则就是在保证试验结果可靠性的前提下选择最少的样本例数。研究者在选择样本对象后应对其基本特征进行详细的描述，比如患者的年龄、性别、病理分期、疾病诊断的标准等。此外在试验中所用到的试剂、仪器的型号、规格等都应作出说明，以供读者借鉴和做出判断。选定好研究对象后就要对其进行分组。在进行分组时研究者一般遵循统计学中的“随机分配”、“设立对照”以及“均衡”、“重复”的原则。随机化原则是提高组间均衡性的一个重要手段，也是资料分析时进行统计推断的前提。有对照才有比较，在进行组间比较时，应确定好处理因素与实验效应的关系。均衡性则是要使得对结果产生影响的非处理因素尽可能保持一致，这样才能保证对照的结果让人信服。观察实验效应的.指标主要有主观指标与客观指标。正所谓主观指标就是通过问答的方式调查受试者自己判断的主观感受；而客观指标则是通过仪器来检验和测量所得出的结果。在进行试验设计时应选择客观性较强、高灵敏性和精确性的指标。

三、统计学方法的选择

统计学方法的正确选择是直接影响到论文结论可信度的重要依据，因此研究者在编写论文时应注意选择合适的统计学方法。不同的统计学方法应用的范围不同。研究者在编写医学论文时常根据论文研究的目的、资料类型、试验设计的方案、样品大小、水平数、特定条件、数据分布特征以及综合分析等来选择对应的统计方法，同时还要根据专业知识与资料的实际情况，结合统计学原则，灵活地选择。当定性资料正态分布时，研究者一般用均数和标准差来表示统计描述指标；当定性资料不符合正态分布时，则可选用中位数及级差来表示；当定量资料正态分布且组间方差齐时一般选用参数法，反之则选用非参数法。t检验一般适用于小样本（n<50）的定量资料且方差齐的两组数据之间的比较。其特点是在均方差不知道的情况下，可以检验样本平均数的显著性，大样本（n≥50）采用u检验；多个样本均数两两比较则用方差分析，如差异有统计学意义，可采用q检验；Dunnett检验则适用于多个实验组与一个对照组均数的比较。定性资料中，表现为互不相容的类别或属性，分为二分类和多类反应，如治疗结果为显著和好转的人数等，该种资料可选用字检验，大样本（n≥50）时采用u检验。如：患者的治疗结果评定为痊愈、显著有效、好转、无效或死亡。该种资料可选用秩和检验或u检验。总之，不论论文中选用的是哪种统计学方法，都要计算出检验值，然后再根据统计量值来判定P值的大小，结论一般描述为“差异有（无）统计学意义”。

四、常见统计学方法的误用分析及对策

1.统计方法误用。最常见统计方法误用是对等级资料进行比较时应用秩和检验而误用卡方检验。例如：在评价采取不同治疗方法的两组急性脑血管病患者疗效中，治疗组显著有效、有效、无效三种分型分别为15例、10例、8例，对照组分别为14例、11例、9例。本资料例数较少，应选用等级比较的秩和检验，而有些作者却认为只要是率的比较就可以采用字检验。研究者在选择统计学方法时应根据相应的原则，对文章研究目的、资料类型、样品大小、水平数、数据分布特征等进行综合分析后，再来选择对应的统计方法。

2.选用检验方法错误。在有些论文中，作者常将本应用方差分析和q检验的误用t检验。t检验一般适用于小样本（n<50）定量资料且方差齐的两组数据之间的比较，而方差分析及q检验主要用于对多个样本均数进行比较，几种不同治疗或处理方法等的同时比较。例如：在讨论中、西以及中西医结合治疗急性脑血管病时，两组患者的年龄、病程、病情严重程度等差别均无统计学意义，比较三组患者的一些指标变化。组间多重比较应用q检验，但文中作者采用的是t检验，对三组均数进行两两比较。这不仅造成了资料的利用率低，也增加了假阳性的概率，降低了试验结果的可信度。

五、结论表述中的统计学应用

资料的统计处理不是医学研究工作的最终目的，而是通过统计学分析为研究结论提供依据或者线索。因此，在对统计资料进行分析后应把握统计学术语，对结论做出科学的分析跟解释。在根据统计结果得出专业结论时研究者应遵循一个重要原则，就是统计结论都是概率性的，不能绝对地肯定或否定。研究者习惯上将“P<”称为显著性，不应误解为差别很大或者在医学上有显著的价值。统计推断是以一定的概率界值为依据，说明来自同一总体的可能性大小。“差异有统计学意义”说明在试验中的差异不能用抽象误差进行解释；“差异无统计学意义”表明在试验既定的条件下，差异可能是因抽象误差引起的，在增加样本数量的情况下，差异可能变成“有统计学意义”。

参考文献：

[1]医学统计工作的基本内容[J].国际检验医学杂志，2013（19）：2563.

[2]关红阳，郭轶男.医学统计t检验的分析研究[J].中国校外教育，2013（30）：114.

《河北省脑瘫患儿生存质量状况调查与经济负担评价_崔巍》文中表计算错误。统计表核算“合计”结果是错的。按照表里的数据，计算一下就知道了。

杜院士是博士毕业马上要上院士在学校当老师的医生。

最近他老人家给我种草了统计学，三言两语我被问的一愣一愣的，感觉自己以前学的统计学都被狗吃了。

我决定要弱弱地回击一下。嗯，先扳回三十城吧。

好，开始。

是统计学方法必须描述的3方面内容。

SPSS (statistics package for social science) 和 SAS (statistical analysis system ) 是全世界学术界公认且最常用的两大统计软件包。

检验水准即—— 表示组间实际无差别而统计结果判断为有差别，犯这类错误的概率。实际工作中常取，表示本次研究计算所得值必须小于，才能认为组间差异有统计学意义。因而对于检验水准的描述多简化为 " " 。

统计分析方法的准确描述是科技论文科学性的关键所在。统计学方法一般包括和 (即：假设检验 ) 两部分内容。

统计描述主要是根据资料类型及原始数据分布类型，选择正确的指标描述资料特征。

资料类型分为定量资料和定性资料。

定量资料是指对每个观察对象测得的某个指标能够用具体数值表示，如：年龄、身高、每张切片的阳性细胞百分率等;

定性资料指对每个观察对象测得的某个指标不能用具体数值表示，仅反映观察对象的某一特征，如: 阳性、阴性，ABO 血型，治愈、显效、好转、无效等。

定量资料如果符合正态分布，统计描述指标可用均数及标准差，一般描述为 “数据以均数±标准差表示” ;

定量资料如果不符合正态分布，则统计描述指标选用中位数和级差 (即: 最大值和最小值之差)。

区分资料是正态或偏态分布，可以通过SPSS、SAS 统计软件程序判断，也可以通过目测数据是否有"极端值"，即特别大或特别小的数据，进行判断。

定性资料的统计描述包括率、构成比及相对比。

率表示单位时间内某现象或事物发生的概率，如发病率、死亡率等；构成比指事物内部某一部分的个体数与该事物各部分个体数的总和之比，表示各构成部分在全体中所占的比重或分布，不能说明某现象发生的频率或强度，如性别构成、疾病构成、死亡构成等。然而，在实际应用中以构成比代替率很常见。

科技论文中最常用的是组间差异性检验。假设检验方法很多，不同的科研设计类型及资料类型适用的检验方法有所不同。定量资料与定性资料常用的统计分析方法介绍如下。

定量资料的统计分析方法包括参数法和非参数法 . 参数法——t检验、方差分析；非参数法——秩和检验。选择的关键在于资料分布类型，如果资料符合正态分布且组间方差齐 (即各组标准差彼此接近) 则选用参数法，不符合则选用非参数法。但在许多医学论文中经常忽略这两个条件，不考虑资料的分布直接采用t 检验或方差分析，由此得出的分析结果是不可信的，见例1。

例1: 为研究、肿瘤标志在喉癌患者手术前、后有无差异，分别检测了58 名患者前及术后和，经配对检验，术前、后差异有统计学意义，结果见表1。

表1. 肿瘤标记物术前术后的检测*

与术前比较p值﹤

表中两指标标准差均相差达2 倍以上，提示方差不齐，故不宜采用t 检验，而适合采用秩和检验。用于两组均数间的比较，包括两独立样本检验、配对检验和样本均数与总体均数比较的检验；用于两组或两组以上均数的比较。然而,在许多医学论文中，对于3 组或3 组以上均数的两两比较，常重复使用独立样本t 检验作比较，如例2。这样会加大犯阳性错误的概率，即可能将无差别的两个总体均数判断为有差别。这点尤其需引起作者的注意，这也是医学科技论文中滥用的重要表现之一。

此类资料正确的分析方法应是先进行方差分析，以确定这几组均数总体差异有无统计学意义；如果有统计学意义，则进一步采用 (任意组间两两比较) 或 (每个实验组与对照组比较) 以确定哪些组间差异有统计学意义。

例2: 为了解不同分化程度的下咽癌患者表达阳性脉管的数目表达阳性脉管差异，分别检测16 例高分化患者，15 例中分化者及13 例低分化者，作者采用独立样本，结果见表2。

表2 下咽癌组织中VEGFR- 3 表达阳性脉管与病理分级的关系

各组之间p 值﹥

定性资料整理与归纳后，主要分为3种类型，即四格表资料 (只有2组，且结果变量为2分类变量，总络子数为4见表3)、行×列表资料 (总格子数>4，见表4) 和列联表资料 (又称双向有序资料，见表5)。行×列表资料又包括单向有序资料 (即等级资料，2组或2组以上，结果变量为有序多分类变量，见表6)。不同资料类型采用的统计分析方法有所不同。

表3 四格表资料格式

表4 行×列表资料格式

表5 列联表资料格式

表6 单向有序资料格式

四格表资料χ2 检验医学论文中，四格表资料χ2 检验的应用很常见，但使用时应注意具体的应用条件。当总例数大于40，且每个格子的理论频数均不小于5 时，应用未校正的χ2 检验;如果总例数大于40,有一个格子的理论频数小于5 但大于1，采用校正的χ2 检验; 如果总例数小于40，或有一个格子的理论频数小于1，则采用Fisher 确切概率法。实际应用中，许多作者不考虑应用的前题条件，均使用未校正的χ2 检验，从而导致结果不可靠。行×列表资料χ2 检验行×列表资料χ2 检验主要用于多个率或构成比的比较。但此时要求所有格子中理论频数小于5 的格子数少于总格子数的1/5。如果大于1/5 ，则相邻格子应删除或合并后再计算。此时若需了解具体那些率之间差异有统计学意义，就需进行χ2 分割来确定。

单向有序资料此类资料如果是比较组间治疗效果差异有无统计学意义，则应采用秩和检验。如果采用χ2 检验，仅表明各组的疗效构成差异有无统计学意义，因为此时只利用了每组构成比提供的信息，损失了有序指标提供的“等级”信息。这也是许多作者误用统计学方法的资料类型之一，需尤其注意。列联表资料χ2 检验此类资料特征为对同一组观察对象，分别观察其两种有序分类变量的表现，归纳成双向交叉排列的统计表，分析两个分类变量是否有相关联系的假设检验，采用行×列表χ2 检验。

如果需了解两变量有无相关性，或相关程度有多大，此时需作相关分析。相关分析应报告相关系数及对该相关系数所作的假设检验P 值。相关系数种类很多，选择时应根据指标类型来确定。如果是计量指标,则应选择 Pearson 相关系数 ; 如果是等级指标，则应选择 Spearman 相关系数。

首先要明确“P 值< ”，习惯上称“显著”(significant) ，仅说明两组差异有统计学意义，并不能说明两组该指标相差很大，或在专业上有显著的(重要的)价值; 反之，P 值>，习惯上称“不显著”(non significant) ，不应误解为相差不大，或一定相等，仅说明从统计角度考虑这两组差异无统计学意义。为了不与一般意义上的“显著”、“不显著”相混淆，许多统计学家主张作结论时不用“是否显著”一词，而用“差异有无统计学意义”。

此外，根据统计结果得出专业结论不能太绝对化，因为统计结论均是概率性的，不是绝对的肯定或否定，本次研究统计结果是阴性，如果增加样本含量，组间差异可能就有统计学意义了。

综上所述，不同的统计分析方法均有其应用条件和适用范围，实际应用时，必须根据科研设计类型及变量类型选择恰当的统计分析方法，同时注意检查结果解释和专业结论是否同时满足专业和统计学要求。切忌将t 检验、χ2 检验视为分析资料的“万能工具”，盲目套用，导致文章的科学性降低。

你可以参考一下《当代医学论文研究》里面很多这样子的文章

医学论文统计学错误例析PDF

医学统计中的常见误区有哪些

医学统计学是运用概率论与数理统计的原理及方法，结合医学实际，研究数字资料的搜集、整理分析与推断的一门学科。医学研究的对象主要是人体以及与人的健康有关的各种因素。下面是我为大家带来的关于医学统计中的常见误区的知识，欢迎阅读。

一，真正差异和统计学差异

常常有人和我说： P值越小，试验结果的差异就越大!而且还有依据 [P < 是有显著性差异; P < 是有极显著性差异]。

其实，这些人忽略了 n 这个样本数的作用，n 的大小会影响 P 值。但更应该澄清一下的是： P 值代表的是统计学差异，并不是真正的差异!真正的差异只能靠平均值或者频度的比较才能得到。

二，卡方检验的局限性

我们知道各组之间的计数资料的比较，要用卡方检验，但有些情况是不行的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

2，当组与组之间有不同的背景，而这些背景因子还可能会影响到组与组之间结果差异，这是就必须要用 Mantel-Haenszel 检验!

这第2条可能大家不要理解，那我就举两个例子：

1) 关于男性和女性对于不同颜色的喜好的统计学分析

但这里应该注意到年龄可能会对这个分析造成影响，这就要用Mantel-Haenszel 检验了。

***红色蓝色黄色

男性 5 7 8

女性 15 10 6

可以按大人和小孩(比如我们以15岁为分界)分层，在SPSS中要把这个因素放到[行] [列]下边的[层化]一栏里，并在统计指标选项里，选 Cochran和Mantel-Haenszel的统计量选项，这样出来的结果就可靠了!

2)两种治疗(A和B)效果的评价分析：

*****A法 B法

生存 41 54

死亡 47 31

用卡方检验 X2=; P <

但是，病人的临床分期将影响着分析结果：

********生存**************死亡

——————————***——————————

————A****B————————A*****B———

1期-----18-----21--------------------0--------0-------

2期-----23-----33-------------------13------- 8-------

3期------0------0--------------------34-------23-------

再用Mantel-Haenszel检验： X2=; P >

说明实际上A法和B法两组的统计学差异，是这个不同的分期造成的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

三，t 检验的局限性

1，我们经常用 t 检验来判别两组病人血清中某种标记物水平上的差异，但这里要注意，有一些血清标记物的水平是不能用 t 检验的!

比如：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Mann-Whitney U test (Wilcoxon U test)。

2，关于用不用配对t 检验，我个人认为当同一组样本在不同时点，不同处理方式的比较上，应该用配对t 检验。

四，ANOVA 检验的局限性

1，在2组以上计量资料样本比较时，ANOVA 检验非常常用。但这个检验只是说明了一个趋势的比较结果，并不能说明真正的统计学差异，真正的`差异还要通过每两个点的直接比较，也就是说应该在ANOVA 检验后，还必须做两两比较或多重比较，这样才能从全貌上反映出统计的全部结果。

2，既然方差分析得到差别有显著性意义的结论后，还需进行两两比较，有人认为还不如一开始就进行多次t检验更方便，其实，这种认识是不妥当的。t检验用于ANOVA的两两比较将增大第一类错误，产生假阳性，因此要采用特定的方法，在SPSS的one-way ANOVA或General linear models中操作时，Post Hoc(多重比较)对话框内有多种方法可供选择，象两两比较一般用SNK法，而多个试验组和一个对照组的比较则多用dunnett检验。

3，我们经常用 ANOVA 检验来判别几组病人血清中某种标记物水平上的差异，但这里要注意，与 t 检验一样，有一些血清标记物的水平是不能用 ANOVA 检验的!

如上所说的：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Kruskal-Wallis rank test 。

五，单元线性相关分析

有时我们常常只注意到了 P 值大小，可最重要的是 r 值!

样本数 n 对 P 值结果的影响很大，容易让我们产生错觉，其实，相关的存在与否的评价是与 r 值最直接相关的，如下：

当 P 值小于时： r 值

几乎没有相关关系

弱的相关关系

有相关关系

强相关关系

极强相关关系

P 值只是证明这个相关在统计学上是否成立!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

不是说样本小于5

而是说：在R×C表中

理论频数不应该小于1，并且1≤T≤5的格子数不应该超过总格子数的1/5，若出现上述情况可以通过以下方法：

a.增加样本含量，使理论频数增大;

b.根据专业知识，删除理论频数太小的行和列;或者将理论频数太小的行或列与性质相近的邻行和邻近列合并。

c.改用双向无序的R×C表的fishher确切概率法。

还有一点

四格表卡方检验的适应指标：(T为理论频数)

1。n≥40，且T≥5时用卡方检验基本公式。但是当p≈α应该用fisher确切概率法

2。n≥40，但是1≤T≤5时，用四格表校正公式

3。n<40，或者T<1时，用fisher四格表确切概率法

4。四格表卡方检验的连续性校正仅仅用于自由度为1的四格表尤其是n较小时。

补充几点：

1. 关于P值：P值的大小并不是各组差异的大小，而是统计学差异显著性的大小。P值越小，说明得出各组没有差异的概率越小，越有理由说明各组存在差异(可以说，P值的大小反映了做出统计结论的“理由”的大小，而不是被比较的各组的实际差异的大小，得出有意义的结论后，其差异的大小可直接通过各组的均数或率进行比较)。

2. 关于t检验和方差分析：katalyster兄上面提到的t检验及方差分析在某些时候不适用，实际上就是每种方法都有其应用条件，不服从正态分布当然不能用。对这样的资料首先可考虑变量变换(如抗体滴度等资料，为指数或幂次的关系，可用对数转换)，如变换后，服从正态分布，可用上述方法;若还不符合，则考虑非参数检验。

3. 关于相关分析：两个变量间是否存在相关关系，要看P值，而不是r值，r值用来说明相关关系的大小。当P<，才能讲两变量间存在相关关系，再看r值，r值越大，相关关系越强，反之越小;否则，P>,不能讲两变量间存在相关关系，r值毫无意义。

感谢kushuya, xiaoxiongzjh两位专家的补充和指正!之所以开这个专题，是真心想让初学者从这些<误区>中走出来!

六，Logistic regression 分析

在判断某因子对疾病的危险度时常用的方法。

1，假设要判断某因子对疾病的危险度(OR)，要了解这个OR是一个相对危险度，即是有某因子存在和没有某因子存在之间比较的OR值。

2，OR 和 RR 不一样，OR是在Logistic regression model中使用，RR是在Cox proportional hazard model中使用。

3，假设要判断某因子对疾病的危险度，要在多变量Logistic regression model中校正一些混扰因素，如常见的年龄，性别，吸烟等等，并最后得出这个 Adjusted OR。但并不是说有了这些校正，我们就可以在实验设计上就不考虑这些混扰因素，相反，必须在实验设计上就把这些混扰因素在实验组和对照组配平，光靠在多变量Logistic regression model中校正是不可靠的。

其它方法---生存分析 (Kaplan-Meier法+ Logrank法)：

我们有时在临床研究只注意到了用这种方法分析与生存相关的研究，其实，在疾病复发上也常用这种方法!前者是以生---死为判别，后者则以复发---不复发为判别。

不论是什么错，还是谁提出的，一经核实，原刊物会在以后的期刊中，给出勘误表或更正。如果是作者本人，发现的最好尽快与杂志社联系，予以更正，并附一封对读者的致歉信。

中国光大（集团）总公司：你公司《关于报送企业集团统计报表的请示》（光京字［2003］67号）收悉。经研究，现批复如下：一、我局现行企业集团统计报表制度规定，国家试点企业集团和中央管理的企业集团统计报表由我局企业调查总队负责布置、收集。由于你公司属于中央管理的企业集团，因此你公司填报的企业集团统计报表应直接报送给我局企业调查总队，具体执行时间从今年半年报开始。二、《北京市统计局关于完善企业集团统计报表制度的通知》（京统发［2003］85号）要求你公司向其报送集团2003年年报和半年报的有关事宜，我局企业调查总队已和北京市统计局企调队进行了沟通，北京市企业集团统计的范围不再包括你公司，其所需资料由我局企业调查总队予以提供。国家统计局办公室二○○三年九月十五日

医学论文统计学方法应用的错误解析论文

摘要：统计学方法应用正确与否直接关系到医学科研结果的可信度和有效性，在研究设计时的错误应用会否决整个科研研究方案，基于错误统计学方法上产生的结果会浪费科研人员的时间和精力。编审人员应该高度重视医学论文的统计学方法应用，提高单篇文献的质量和学术水平。

关键词：统计学方法；医学论文；解析

一、引言

医学由于其研究的复杂性和系统性，常需要应用严谨的统计学方法，由于有些作者对医学科研的统计学理论和方法的应用缺乏深刻了解，在医学论文中错误应用统计学方法的现象时有发生。统计学方法应用的错误直接导致统计结果的错误。例如统计学图表、统计学指标、统计学的显著性检验等。因此，正确应用统计学方法，并将所获得的结果进行正确的描述有助于单篇论著的质量提高，现将医学论文中统计学方法应用及其常见结果的错误解析如下。

二、医学论文统计学方法应用概况

医学论文的摘要是全文的高度浓缩[1]，主要由目的、方法、结果、结论组成。一般要求要写明主要的统计学方法、统计学研究结果和P值。一篇医学论文的质量往往通过摘要的统计学结果部分就能判断。统计学方法的选择和结果的表达直接影响单篇论著的科研水平。

(一)材料与方法部分

正文中，材料与方法部分必须对统计学方法的选择、应用、统计学显著性的设定进行明确说明。通过对统计学方法的描述，读者应该清楚论著的统计学设计思路。材料部分要清楚说明样本或病例的来源、入组和排除标准、样本量大小、研究组和对照组的设定条件、回顾性或者前瞻性研究、调查或者实验性研究、其他与研究有关的一般资料情况，其目的是表明统计学方法应用的合理性和可靠性，他人作相关研究时具备可重复性。方法部分应详细叙述研究组和对照组的不同处理过程、观察的具体指标、采用的测量技术，要具备可比较性和科学性，

方法部分还要专门介绍统计分析方法及其采用的统计软件。不同的数据处理要采用不同的方法，必须清楚的说明计数或者计量资料、两组或者多组比较、不同处理因素的关联性研究。常用的有两组间计量资料的t检验，多组间计量资料的F检验，计数资料的卡方检验，不同因素之间的相关分析和回归分析。有些遗传学研究方法还有专门的统计学方法，要在这里简要说明并给出参考文献，还要简单叙述统计方法的原理。统计学软件要清楚的说明软件的名称和版本号，如基于家系资料研究的版本。

(二)论文结果部分

论文结果部分要显示应用统计学方法得到的统计量[2]，所采用的统计学指标较多时，往往分开叙述。分组比较多时还要借助统计图表来准确表达统计结果。对于数据的精确度，除了与测量仪器的精密程度有关外，还与样本本身的均数有关，所得值的单位一般采用紧邻均数除以三为原则。均数和标准差的有效位数要和原始数据一致。标准差或标准误差有时需要增加一个位数，百分比一般保留一个小数。在统计软件中，分析结果往往精确度比较高，一般要采用四舍五入的方法使其靠近实验的实际情况，否则还会降低论文的可信度和可读性。

结果部分的统计表采用统一的“三线”表，表题中要注明均数、标准差等数据类型。表格中的数值要按照行和列进行顺序放置，要求整齐美观，不能出现错行现象。要明确标注观察的例数，得到的检验统计量。统计图可以直观的表达研究结果，如回归和相关分析的散点图可以显示个体值的散布情况。曲线图表达个体均值在不同组别随时间变化的情况或者不同条件下重复测量的结果。误差条图由均数加减标准误绘出，描述的是67%的置信区间，不是95%，提倡在误差条图采用95%的置信区间。

关于统计量，一般采用均数与标准差两个指标，均数不宜单独使用。使用均数的时候要明确变异指标标准差或者精确性指标标准误。关于百分比，分母的确定必须要符合逻辑，过小的样本会导致分母过小而出现百分比过大的情况。百分率的比较要写清两者中不同的变化，可以采用卡方检验。

1.假设检验的结果中，常见只写P值的情况，有时候会误导读者，也会隐藏计算失误的情况，因此写出具体的统计值，如F值、t值，可以增强可信度。对于率、相关系数、均数这类描述统计量，要清楚写明进行过统计学检验并将结果列出。P值一般取与作为检验显著性，对于结果的计算要求具体的P值，如P=或P=。

2.在对论文进行讨论时，作为统计学方法产生的结果往往要作为作者的主要观点支持其科学假设，对统计结果的正确解释至关重要。P值很大表明两组间没有差别属于大概率事件，P值很小表明两组间没有差别的概率很小。当P<；，表明差异具有统计学意义。P值与观察的样本量的大小有关联，当样本量小的时候，数据之间的差别即使很大，P值也可能很大；当样本量大时，数据之间的差别即使很小，P值也可能显示有显著性差异。相关系数统计学意义的显著性也与相关系数的大小没有绝对的关联，有统计学意义的样本相关系数可能很小。因此，有统计学差异的描述并不一定意味着两组间差别很大，错判的危险性很大，显著性的检验为定性的结果，结合统计量大小方可判断是否具有专业意义。

变量间虚假的相关关系与变量随时间变化而变化相关，统计学意义的关联并不表示变量间一定存在因果关系。因果关系的确定要根据专业知识和采用的'研究方法的不同来考量。使用回归方程进行分析，当两变量间具有显著性关系，但是从自变量推测因变量仍然不会很精确。相关或回归系数不能预测推测结果的精确程度，而只是预测一个可信区间。诊断性检验应用于人群发病率很低的疾病，灵敏度、特异度的高低对于明确疾病诊断并不能很肯定。“假阳性率”与“假阴性率”根据实际的需要不同要求并不一致，在疾病患病率很低时，出现假阳性也是正常的，要确诊疾病必须要与临床症状体征相结合。因此，这两个率的计算方法必须交待清楚。

三、医学论文统计学方法应用的常见错误分析

(一)“材料与方法”中的统计学方法应用的常见错误

“材料与方法”中统计学方法常见的问题主要为：对样本的选择或者研究对象的来源和分组描述很少或者过于简单。例如，临床入组病例分组只采用简单的随机分组，未描述随机分组的方法，未描述是否双盲双模拟，未设置空白对照组，分组后对性别、年龄、文化程度的描述未进行统计学检验，对于特殊的统计学方法没有详细交代；动物实验分组的随机化原则描述过于简单，没有具体说清完全随机、配对或分层随机分组等；统计分析方法没有任何说明采用的分析软件，有的只说明采用的分析软件而不交代在软件中采用的统计方法；没有说明原因的情况下出现样本量过于小等情况。

(二)“结果”统计学方法应用的常见错误

1.应用正确的统计学方法出现的结果表达并不一定正确。例如前文所述数据的精确度要求。医学论文常见错误中包括均数、标准差、标准误等统计学指标与原始数据应保留的小数位数不同；对于率、例数、比值、比值比、相对危险度等统计学指标保留的小数点位数过多；罕见疾病的发病率、患病率、现患率等指标没有选择好基数，导致结果没有整数位；相关系数、回归系数等指标保留的小数位数过多或者过少；常用的一些检验统计量，如F值、t值保留的位数不符合要求。

2.对统计学指标进行分析和计算时，一般采用计数资料和计量资料进行区分。计量资料常用三线表，在近似服从正态分布的前提下采用均数、标准差进行说明，如果不符合正态分布时，可以采用加对数或其他的处理方式使其近似正态分布，否则只能采用中位数和四分位数间距等指标进行描述。医学论文中常见未对数据进行正态分布检验的计算，影响统计结果的真实性和可信度。对于率、构成比等常用的计数资料指标，常见样本量过小的问题，采用率进行描述会影响统计结果的可靠性，采用绝对数进行说明会显得客观一些。还有一些文献将构成比误用为率，也是不可取的。

3.在判断临床疗效之一指标时，两组平均疗效有差别并不意味着两组的每一个个体都有效或无效，必须通过计算有效率进行计算。如比较某药物治疗糖尿病的疗效，服药一周后，研究组和对照组的对血糖降低值分别为 ± 和 ± ( P = 1) 。按空腹血糖值低于的疗效判定有效率，研究组和对照组的有效率分别为和，尽管平均疗效相差较多，但也要注意到该药物对部分患者无效()。对假设检验结果的统计学分析结果，P 值的表达提倡报告精确P值，如P = 或P = 等。目前的统计学分析软件均可自动计算精确的P 值。例如常用的SAS，SPSS等，只要提供原始数据，就可以计算出t值、F值和相应的自由度，并可获得精确的P值。

四、小结

提高医学论文中统计学方法的使用质量是编辑部值得重视的一项长期而又艰巨的工作[3]，医学论文中统计方法应用和统计结果的表达正确与否，不仅体现了论文的科学性和严谨性，而且对于提高期刊整体的学术质量，促进医学科学的发展和传播也有着重要作用[4]。

参考文献：

[1] 李敬文,吕相征,薛爱华.医学期刊评论性文章摘要的添加对期刊被引频次的影响[J].编辑学报,2011(23).

[2] 陈长生.生物医学论文中统计结果的表达及解释[J].细胞与分子免疫学杂志,2008(24).

[3] 潘明志.新时期复合型医学科技期刊编辑应具备的素质和能力[J].中国科技期刊研究,2011 (22).

[4] 张春军,董凯.网络信息时代加强医学期刊编辑的信息素养[J].牡丹江医学院学报,2011(32).

医学论文统计错误案例分析

不论是什么错，还是谁提出的，一经核实，原刊物会在以后的期刊中，给出勘误表或更正。如果是作者本人，发现的最好尽快与杂志社联系，予以更正，并附一封对读者的致歉信。

《河北省脑瘫患儿生存质量状况调查与经济负担评价_崔巍》文中表计算错误。统计表核算“合计”结果是错的。按照表里的数据，计算一下就知道了。

科学研究很早就已经从简单的定性分析深入到细致的定量分析，科研工作者要面对大量的数据分析问题，科研数据的统计分析结果直接影响着论文的结果分析。在医学科研写作中，实验设计的方法直接决定了数据采取何种统计学方法，因为每种统计方法都要求数据满足一定的前提和假定，所以论文在实验设计的时候，就要考虑到以后将采取哪种数据统计方法更可靠。医学统计方法的错误千差万别，其中最主要的就是统计方法和实验设计不符，造成数据统计结果不可靠。下面，医刊汇编译列举一些常见的可以避免的问题和错误：打开百度APP，查看更多高清图片一、数据统计分析方法使用错误或不当。医学论文中，最常见的此类错误就是实验设计是多组研究，需要对数据使用方差分析的时候，而作者都采用了两样本的均数检验。二、统计方法阐述不清楚。在同一篇医学论文中，不同数据要采取不同统计处理方法，这就需要作者清楚地描述出每个统计值采用的是何种统计学方法，但在许多使用一种以上数据统计分析方法的医学论文中，作者往往只是简单地把论文采用的数据统计方法进行了整体罗列，并没有对每个数据结果分析分别交代具体的统计方法，这就很难让读者确认某一具体结果作者到底采用的是何种数据分析方法。三、统计表和统计图缺失或者重复。统计表或者统计图可以直观地让读者了解统计结果。一个好的统计表或统计图应该具有独立性，即作者即使不看文章内容，也可从统计表或统计图中推断出正确的实验结果。而一些医学论文只是简单地堆砌了大量的统计数字，缺乏直观的统计图或表；或者虽然也列出了统计表或统计图，但表或图内缺项很多，让读者难以从中提取太多有用的信息。另外，也有作者为了增加文章篇幅，同时列出统计表和统计图，造成不必要的浪费和重复。统计表的优点是详细，便于分析研究各类问题。统计图(尤其是条形统计图)的优点是能够直观反映变量的数量差异。医学论文中对数据统计结果的解释，最常见的两个错误就是过度信赖P值(结果可信程度的一个递减指标)和回避阴性结果。前一个错误的原因是因为一些作者对P值含义理解有误，把数据的统计学意义和研究的临床意义混淆。所以医学研究人员一定要注意不能单纯依靠统计值武断地得出一些结论，一定要把统计结果和临床实践结合在一起，这样才会避免出现类似的错误。至于回避阴性结果，只提供阳性结果，是因为不少作者在研究设计时，难以摆脱的一种单向的思维定式就是主观地先认定自己所预想的某种结果结论。在归纳某种结果原因时，从一个方向的实验就下完美的结论，尤其是如果这个结论可能对实际情形非常有意义时。这样的思维定势过于强调统计差异的显著性，有时会刻意回避报道差异的不显著结果，不思考和探究差异不显著的原因和意义，反而会因此忽视一些重大的科学发现。

中国光大（集团）总公司：你公司《关于报送企业集团统计报表的请示》（光京字［2003］67号）收悉。经研究，现批复如下：一、我局现行企业集团统计报表制度规定，国家试点企业集团和中央管理的企业集团统计报表由我局企业调查总队负责布置、收集。由于你公司属于中央管理的企业集团，因此你公司填报的企业集团统计报表应直接报送给我局企业调查总队，具体执行时间从今年半年报开始。二、《北京市统计局关于完善企业集团统计报表制度的通知》（京统发［2003］85号）要求你公司向其报送集团2003年年报和半年报的有关事宜，我局企业调查总队已和北京市统计局企调队进行了沟通，北京市企业集团统计的范围不再包括你公司，其所需资料由我局企业调查总队予以提供。国家统计局办公室二○○三年九月十五日

医学期刊统计学误用分析

我搜到3篇文章，希望对你有所帮助医学科研设计中一个常被忽视的统计学错误辨析【作者中文名】毕京峰; 段俊国; 【作者单位】山东中医药大学; 成都中医药大学; 【文献出处】时珍国医国药, Lishizhen Medicine and Materia Medica Research, 编辑部邮箱 2008年 10期期刊荣誉：中文核心期刊要目总览 ASPT来源刊 CJFD收录刊【关键词】医学统计学; 科研设计; 【摘要】统计学错误在既往的临床科研设计中是常见的,但一般易于发现和改正。笔者近期查阅相关医学科研论文发现,有一个统计学错误,其错误应用率很高,甚至许多统计专业人员也不例外。例:某研究者研究A药对高脂血症性脂肪肝大鼠的作用,设计了如下试验方案:建立高脂血症性脂肪肝大鼠模型,以高、中、低剂量去脂胶囊进行干预,通过血液生化检查,观察其对脂肪肝大鼠的血脂的影响。结果:去脂胶囊能明显降低脂肪肝大鼠血脂,与对照组比较差异有显著性意义(P<)。结论:去脂胶囊对大鼠脂肪肝有肯定治疗作用。在本设计方案中,研究者将A药高、中、低3个剂量组与甲硫氨酸片组和自然恢复组按多因素一水平的统计方法进行方差分析。仔细考察各处理组之间的关系,其实本研究主要涉及两个因素:A药治疗与甲硫氨酸片治疗,而A药高、中、低3个剂量组是A药的3个水平,而不是与甲硫氨酸片平等的3个因素。表1各组大鼠血清脂质比较(x-±s)mmol·L-1组别TC TG HDL-C自然恢复± ± ±药低剂量± ± ±药中剂量±... 【DOI】 CNKI:SUN: 医学科研论文中常见的统计学错误【作者中文名】李祝华; 【作者单位】白城市传染病医院吉林白城; 【文献出处】吉林医药学院学报, Journal of Jilin Medical College, 编辑部邮箱 2007年 02期期刊荣誉：ASPT来源刊 CJFD收录刊【关键词】医学; 科研论文; 统计学错误; 【摘要】科技论文常用统计学方法对资料进行加工、整理与分析,从而定性或定量地阐述一些理论或实验结果。现就一些医学期刊(1999~2000年度国家级期刊8种共60期)中出现错误的统计方法进行归纳分析,以提醒科技工作者在撰写科技论文时能合理应用统计学方法,准确地进行描述、估计、比较、预测与分析,尽量减少统计学方法的错误应用,提高科技论文的写作水平。1资料缺乏可靠性有的资料样本数量较少,有的作者选择的实验对象不具代表性,有许多人为因素,有个别作者根据自己主观期望判断结果,更有甚者有时更改实验数据,致使一些实验结果出现较大误差。2统计学方法缺乏科学性统计学方法比较多,如率、构成比、发展速度、显著性检验方法等。有时计算方法不当就能直接影响结果或造成误解。如率与构成比的联系与区别就常被人误解,也有的作者只看表面现象,不经统计学方法处理,就下结论。3统计量投入缺乏规范性科学恰当地计算统计量,才能正确反映事物的真实情况,但如果计算不当,则会出现假象或错误的结果。如未经标准化处理的资料就进行率的比较,由于两组资料的内部结构不同,结... 【DOI】 CNKI:SUN: 医学论文中常见的统计学错误及对策【作者中文名】杨云华; 【作者单位】天津市医学科学技术信息研究所 300050天津; 【文献出处】中华医学科研管理杂志, Chinese Journal of Medical Science Research Management, 编辑部邮箱 2004年 02期期刊荣誉：ASPT来源刊 CJFD收录刊【关键词】医学论文; 统计学; 常见错误; 对策; 【摘要】分析医学科研论文中统计学方法应用中常出现的错误 ,提高编辑人员识别统计学常见错误的能力 ,确保科研论文的科学性、准确性和可信性 ,努力办成精品期刊。【DOI】 cnki:ISSN:

医学统计论文

医学统计是研究如何搜集、整理和分析医学研究对象的数据和作出推断的一门学科，下面是我为大家收集整理的是医学统计论文，仅供参考。

摘要：不同的统计分析方法均有其适用的范围和应用的条件，研究者在书写医学论文时应根据论文设计及资料的类型进行合理的试验设计，选择恰当的统计分析方法，切记勿盲目套用。同时，还应注意得出的结果和结论应满足设计的要求。医学统计方法的正确运用，是充分利用试验研究获得的数据，也是最终得出科学、可信的结论的必要条件。

关键词：医学统计；方法；运用；原理；选择

一、统计学方法简介

统计学方法包括统计软件包、统计分析方法以及检验水准三方面的内容。其中医学论文中常提到检验水准即α，它是用来表示组间实际无差别而统计结果判断有差别，犯这类错误的概率。实际工作中常取α=，当研究数据计算的P值小于时，组间差异比较被认为有统计学意义。统计学方法包括统计描述和假设检验两个方面的内容。统计描述是指根据资料及原始数据分布的类型，选择正确的指标来描叙资料及数据的特征。而假设检验即组间差异性检验，是医学论文中最常用的统计学方法。资料类型则包括能用具体数据表示的定量资料与不能用具体数值表示但能反映被观察对象某一特征的定性资料。定性资料的统计描述包括率、相对比和构成比。而参数法及非参数法是常用的定量资料统计分析方法。参数法一般包括t检验、方差分析，非参数法常用的有秩和检验。

二、试验设计中的统计学原理

合理的试验设计与统计处理的可信度存在直接联系，研究者在编写医学论文时应对医学研究设计方法进行说明。在进行试验设计时应遵循随机、对照、均衡和重复四大原则。在进行试验设计的时候通常会涉及到研究对象的选择，研究对象的分组及选择合理的检测指标三个方面的内容。

医学论文就是通过对样本的研究来进行推断总体，找出其共性，得出结论。因此研究者在选择研究对象时应注意选择样本应具有一定数量，能反映出该事物的规律性特征，但又应注意例数不能太多，以免造成不必要的浪费。其选择的原则就是在保证试验结果可靠性的前提下选择最少的样本例数。研究者在选择样本对象后应对其基本特征进行详细的描述，比如患者的年龄、性别、病理分期、疾病诊断的标准等。此外在试验中所用到的试剂、仪器的型号、规格等都应作出说明，以供读者借鉴和做出判断。选定好研究对象后就要对其进行分组。在进行分组时研究者一般遵循统计学中的“随机分配”、“设立对照”以及“均衡”、“重复”的原则。随机化原则是提高组间均衡性的一个重要手段，也是资料分析时进行统计推断的前提。有对照才有比较，在进行组间比较时，应确定好处理因素与实验效应的关系。均衡性则是要使得对结果产生影响的非处理因素尽可能保持一致，这样才能保证对照的结果让人信服。观察实验效应的.指标主要有主观指标与客观指标。正所谓主观指标就是通过问答的方式调查受试者自己判断的主观感受；而客观指标则是通过仪器来检验和测量所得出的结果。在进行试验设计时应选择客观性较强、高灵敏性和精确性的指标。

三、统计学方法的选择

统计学方法的正确选择是直接影响到论文结论可信度的重要依据，因此研究者在编写论文时应注意选择合适的统计学方法。不同的统计学方法应用的范围不同。研究者在编写医学论文时常根据论文研究的目的、资料类型、试验设计的方案、样品大小、水平数、特定条件、数据分布特征以及综合分析等来选择对应的统计方法，同时还要根据专业知识与资料的实际情况，结合统计学原则，灵活地选择。当定性资料正态分布时，研究者一般用均数和标准差来表示统计描述指标；当定性资料不符合正态分布时，则可选用中位数及级差来表示；当定量资料正态分布且组间方差齐时一般选用参数法，反之则选用非参数法。t检验一般适用于小样本（n<50）的定量资料且方差齐的两组数据之间的比较。其特点是在均方差不知道的情况下，可以检验样本平均数的显著性，大样本（n≥50）采用u检验；多个样本均数两两比较则用方差分析，如差异有统计学意义，可采用q检验；Dunnett检验则适用于多个实验组与一个对照组均数的比较。定性资料中，表现为互不相容的类别或属性，分为二分类和多类反应，如治疗结果为显著和好转的人数等，该种资料可选用字检验，大样本（n≥50）时采用u检验。如：患者的治疗结果评定为痊愈、显著有效、好转、无效或死亡。该种资料可选用秩和检验或u检验。总之，不论论文中选用的是哪种统计学方法，都要计算出检验值，然后再根据统计量值来判定P值的大小，结论一般描述为“差异有（无）统计学意义”。

四、常见统计学方法的误用分析及对策

1.统计方法误用。最常见统计方法误用是对等级资料进行比较时应用秩和检验而误用卡方检验。例如：在评价采取不同治疗方法的两组急性脑血管病患者疗效中，治疗组显著有效、有效、无效三种分型分别为15例、10例、8例，对照组分别为14例、11例、9例。本资料例数较少，应选用等级比较的秩和检验，而有些作者却认为只要是率的比较就可以采用字检验。研究者在选择统计学方法时应根据相应的原则，对文章研究目的、资料类型、样品大小、水平数、数据分布特征等进行综合分析后，再来选择对应的统计方法。

2.选用检验方法错误。在有些论文中，作者常将本应用方差分析和q检验的误用t检验。t检验一般适用于小样本（n<50）定量资料且方差齐的两组数据之间的比较，而方差分析及q检验主要用于对多个样本均数进行比较，几种不同治疗或处理方法等的同时比较。例如：在讨论中、西以及中西医结合治疗急性脑血管病时，两组患者的年龄、病程、病情严重程度等差别均无统计学意义，比较三组患者的一些指标变化。组间多重比较应用q检验，但文中作者采用的是t检验，对三组均数进行两两比较。这不仅造成了资料的利用率低，也增加了假阳性的概率，降低了试验结果的可信度。

五、结论表述中的统计学应用

资料的统计处理不是医学研究工作的最终目的，而是通过统计学分析为研究结论提供依据或者线索。因此，在对统计资料进行分析后应把握统计学术语，对结论做出科学的分析跟解释。在根据统计结果得出专业结论时研究者应遵循一个重要原则，就是统计结论都是概率性的，不能绝对地肯定或否定。研究者习惯上将“P<”称为显著性，不应误解为差别很大或者在医学上有显著的价值。统计推断是以一定的概率界值为依据，说明来自同一总体的可能性大小。“差异有统计学意义”说明在试验中的差异不能用抽象误差进行解释；“差异无统计学意义”表明在试验既定的条件下，差异可能是因抽象误差引起的，在增加样本数量的情况下，差异可能变成“有统计学意义”。

参考文献：

[1]医学统计工作的基本内容[J].国际检验医学杂志，2013（19）：2563.

[2]关红阳，郭轶男.医学统计t检验的分析研究[J].中国校外教育，2013（30）：114.

医学统计中的常见误区有哪些

医学统计学是运用概率论与数理统计的原理及方法，结合医学实际，研究数字资料的搜集、整理分析与推断的一门学科。医学研究的对象主要是人体以及与人的健康有关的各种因素。下面是我为大家带来的关于医学统计中的常见误区的知识，欢迎阅读。

一，真正差异和统计学差异

常常有人和我说： P值越小，试验结果的差异就越大!而且还有依据 [P < 是有显著性差异; P < 是有极显著性差异]。

其实，这些人忽略了 n 这个样本数的作用，n 的大小会影响 P 值。但更应该澄清一下的是： P 值代表的是统计学差异，并不是真正的差异!真正的差异只能靠平均值或者频度的比较才能得到。

二，卡方检验的局限性

我们知道各组之间的计数资料的比较，要用卡方检验，但有些情况是不行的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

2，当组与组之间有不同的背景，而这些背景因子还可能会影响到组与组之间结果差异，这是就必须要用 Mantel-Haenszel 检验!

这第2条可能大家不要理解，那我就举两个例子：

1) 关于男性和女性对于不同颜色的喜好的统计学分析

但这里应该注意到年龄可能会对这个分析造成影响，这就要用Mantel-Haenszel 检验了。

***红色蓝色黄色

男性 5 7 8

女性 15 10 6

可以按大人和小孩(比如我们以15岁为分界)分层，在SPSS中要把这个因素放到[行] [列]下边的[层化]一栏里，并在统计指标选项里，选 Cochran和Mantel-Haenszel的统计量选项，这样出来的结果就可靠了!

2)两种治疗(A和B)效果的评价分析：

*****A法 B法

生存 41 54

死亡 47 31

用卡方检验 X2=; P <

但是，病人的临床分期将影响着分析结果：

********生存**************死亡

——————————***——————————

————A****B————————A*****B———

1期-----18-----21--------------------0--------0-------

2期-----23-----33-------------------13------- 8-------

3期------0------0--------------------34-------23-------

再用Mantel-Haenszel检验： X2=; P >

说明实际上A法和B法两组的统计学差异，是这个不同的分期造成的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

三，t 检验的局限性

1，我们经常用 t 检验来判别两组病人血清中某种标记物水平上的差异，但这里要注意，有一些血清标记物的水平是不能用 t 检验的!

比如：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Mann-Whitney U test (Wilcoxon U test)。

2，关于用不用配对t 检验，我个人认为当同一组样本在不同时点，不同处理方式的比较上，应该用配对t 检验。

四，ANOVA 检验的局限性

1，在2组以上计量资料样本比较时，ANOVA 检验非常常用。但这个检验只是说明了一个趋势的比较结果，并不能说明真正的统计学差异，真正的`差异还要通过每两个点的直接比较，也就是说应该在ANOVA 检验后，还必须做两两比较或多重比较，这样才能从全貌上反映出统计的全部结果。

2，既然方差分析得到差别有显著性意义的结论后，还需进行两两比较，有人认为还不如一开始就进行多次t检验更方便，其实，这种认识是不妥当的。t检验用于ANOVA的两两比较将增大第一类错误，产生假阳性，因此要采用特定的方法，在SPSS的one-way ANOVA或General linear models中操作时，Post Hoc(多重比较)对话框内有多种方法可供选择，象两两比较一般用SNK法，而多个试验组和一个对照组的比较则多用dunnett检验。

3，我们经常用 ANOVA 检验来判别几组病人血清中某种标记物水平上的差异，但这里要注意，与 t 检验一样，有一些血清标记物的水平是不能用 ANOVA 检验的!

如上所说的：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Kruskal-Wallis rank test 。

五，单元线性相关分析

有时我们常常只注意到了 P 值大小，可最重要的是 r 值!

样本数 n 对 P 值结果的影响很大，容易让我们产生错觉，其实，相关的存在与否的评价是与 r 值最直接相关的，如下：

当 P 值小于时： r 值

几乎没有相关关系

弱的相关关系

有相关关系

强相关关系

极强相关关系

P 值只是证明这个相关在统计学上是否成立!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

不是说样本小于5

而是说：在R×C表中

理论频数不应该小于1，并且1≤T≤5的格子数不应该超过总格子数的1/5，若出现上述情况可以通过以下方法：

a.增加样本含量，使理论频数增大;

b.根据专业知识，删除理论频数太小的行和列;或者将理论频数太小的行或列与性质相近的邻行和邻近列合并。

c.改用双向无序的R×C表的fishher确切概率法。

还有一点

四格表卡方检验的适应指标：(T为理论频数)

1。n≥40，且T≥5时用卡方检验基本公式。但是当p≈α应该用fisher确切概率法

2。n≥40，但是1≤T≤5时，用四格表校正公式

3。n<40，或者T<1时，用fisher四格表确切概率法

4。四格表卡方检验的连续性校正仅仅用于自由度为1的四格表尤其是n较小时。

补充几点：

1. 关于P值：P值的大小并不是各组差异的大小，而是统计学差异显著性的大小。P值越小，说明得出各组没有差异的概率越小，越有理由说明各组存在差异(可以说，P值的大小反映了做出统计结论的“理由”的大小，而不是被比较的各组的实际差异的大小，得出有意义的结论后，其差异的大小可直接通过各组的均数或率进行比较)。

2. 关于t检验和方差分析：katalyster兄上面提到的t检验及方差分析在某些时候不适用，实际上就是每种方法都有其应用条件，不服从正态分布当然不能用。对这样的资料首先可考虑变量变换(如抗体滴度等资料，为指数或幂次的关系，可用对数转换)，如变换后，服从正态分布，可用上述方法;若还不符合，则考虑非参数检验。

3. 关于相关分析：两个变量间是否存在相关关系，要看P值，而不是r值，r值用来说明相关关系的大小。当P<，才能讲两变量间存在相关关系，再看r值，r值越大，相关关系越强，反之越小;否则，P>,不能讲两变量间存在相关关系，r值毫无意义。

感谢kushuya, xiaoxiongzjh两位专家的补充和指正!之所以开这个专题，是真心想让初学者从这些<误区>中走出来!

六，Logistic regression 分析

在判断某因子对疾病的危险度时常用的方法。

1，假设要判断某因子对疾病的危险度(OR)，要了解这个OR是一个相对危险度，即是有某因子存在和没有某因子存在之间比较的OR值。

2，OR 和 RR 不一样，OR是在Logistic regression model中使用，RR是在Cox proportional hazard model中使用。

3，假设要判断某因子对疾病的危险度，要在多变量Logistic regression model中校正一些混扰因素，如常见的年龄，性别，吸烟等等，并最后得出这个 Adjusted OR。但并不是说有了这些校正，我们就可以在实验设计上就不考虑这些混扰因素，相反，必须在实验设计上就把这些混扰因素在实验组和对照组配平，光靠在多变量Logistic regression model中校正是不可靠的。

其它方法---生存分析 (Kaplan-Meier法+ Logrank法)：

我们有时在临床研究只注意到了用这种方法分析与生存相关的研究，其实，在疾病复发上也常用这种方法!前者是以生---死为判别，后者则以复发---不复发为判别。

中国光大（集团）总公司：你公司《关于报送企业集团统计报表的请示》（光京字［2003］67号）收悉。经研究，现批复如下：一、我局现行企业集团统计报表制度规定，国家试点企业集团和中央管理的企业集团统计报表由我局企业调查总队负责布置、收集。由于你公司属于中央管理的企业集团，因此你公司填报的企业集团统计报表应直接报送给我局企业调查总队，具体执行时间从今年半年报开始。二、《北京市统计局关于完善企业集团统计报表制度的通知》（京统发［2003］85号）要求你公司向其报送集团2003年年报和半年报的有关事宜，我局企业调查总队已和北京市统计局企调队进行了沟通，北京市企业集团统计的范围不再包括你公司，其所需资料由我局企业调查总队予以提供。国家统计局办公室二○○三年九月十五日

医学论文统计错误案例

呵呵~~~没事，查到也是学校的责任，学校会帮你的，没事放心吧！

《中国电子商务》格式说明 [论文题目]作者A1作者B2[作者]1(单位A上海 210000)[单位] 2(单位B上海 210000)本规格为在《中国电子商务》上发表的科技论文而设定。请作者逐条阅读并落实，如不符合要求，将影响文章的发表。摘要的内容应包含与论文同等量的主要信息，一般应说明研究工作目的、实验方法、结果和最终结论等，而重点是结果和结论。电子商务格式说明信息化FORMAT DESCRIPTION OF COMPUTER APPLICATIONS AND SOFTWARE[英文题目]Zuo Zhe A1 Zuo Zhe B2 [英文作者]1(Editorial Department, Computer Applications and Software, Shanghai 210000，China) [英文单位]2(Editorial Department, Computer Applications and Software, Shanghai 210000，China) [英文单位]This specification is set for the theses to be published in Computer Applications and Software, including fonts, margins, page size and print area. Computer Format description Software [keywords] 引言 [标题1]采用Word 2000或Word xp格式排版，请同时提供Word版本和打印稿。[正文缩进]务请作者按照本规格编排论文。请直接使用样式，不要对样式作任何修改！格式说明版心说明 [标题2]用A4纸，页边距上下左右已经设置好，请不要改动。论文题目一般不要超过两行。作者关于作者中文名字的要求 [标题3]使用“作者”样式。姓名是两个字的，中间用一个中文空格或两个英文空格隔开。只有一个作者的，且作者姓名字数为三个的（包括三个的），姓名的每个字之间用一个英文空格隔开。关于作者简介使用“收稿日期”样式。在文章的第一页右下角，可附一段说明，内容包括收稿日期、基金项目、第一作者姓名、职称、主研领域等。多个研究领域之间使用全角逗号隔开。一般保持在2行，如果高度不够，可作适当调整。单位使用“单位”样式。作者工作单位准确到系或学院等，要写全称。如：“清华大学计算机科学与技术系”不应简写为“清华大学计算机系”；“浙江大学计算机科学与工程学系”不应简写为“浙江大学计算机系”。单位是多个的写在多行中，可以用上标加以区分。在单位名称和城市名之间使用一个中文空格或两个英文空格隔开，在城市名和邮编之间使用一个英文空格隔开，不能用逗号。摘要使用“摘要”样式。中文摘要需写成200字左右的篇幅，摘要内容不能太简单，要有研究目的、方法、结果和结论等。摘要请采用第3人称的写法，且放在一个段落中。关键词提供3-8个关键词，之间用一个中文空格或两个英文空格隔开。英文题目使用“英文题目”样式。英文标题全部大写，一般不要超过两行。英文署名使用“英文作者”样式。两个姓名中间用两个英文空格隔开。姓氏第一个字母大写，单、双名第1个字母大写，双名中间不加连字符。例如：李伟 Li Wei 张小军 Zhang Xiaojun英文单位使用“英文单位”样式。作者单位的中英文要完全对应。每个实词的首字母大写。在部门名称和单位名称之间、在单位名称和城市名之间使用英文逗号隔开，城市名和邮编之间使用一个英文空格隔开，不能用逗号。 Abstract使用“Abstract”样式。英文摘要需写成200词左右的篇幅，为了使本刊尽快实现国际化，所以要求英文摘要水平一定要高，内容要充实，要包括研究目的、方法、结果和结论等，与中文摘要可不完全对应。Keywords使用“Keywords”样式。提供与中文关键词对应的英文关键词。每个关键词之间用两个英文空格分开。每个关键词以一个单词的首字母大写，其余小写。标题一级标题使用“标题1”样式。用阿拉伯数字1，2，3…，数字之后没有任何符号，如小数点、顿号、逗号等。一般不超过一行。二级标题使用“标题2”样式。前面冠之于一级标题，用阿拉伯数字表示，形如，，…。一般不超过一行。三级标题及下级标题要求如同二级标题。形如，…。一般不超过一行。四级标题使用“标题4”样式。形如，…。…。可以是多行。标题文字标题为两个字的，如“引言”、“结论”等，两字中间用空格(一个中文空格或两个英文空格)隔开。正文使用“正文缩进”样式。每个自然段开始时缩进两个汉字。

我搜到3篇文章，希望对你有所帮助医学科研设计中一个常被忽视的统计学错误辨析【作者中文名】毕京峰; 段俊国; 【作者单位】山东中医药大学; 成都中医药大学; 【文献出处】时珍国医国药, Lishizhen Medicine and Materia Medica Research, 编辑部邮箱 2008年 10期期刊荣誉：中文核心期刊要目总览 ASPT来源刊 CJFD收录刊【关键词】医学统计学; 科研设计; 【摘要】统计学错误在既往的临床科研设计中是常见的,但一般易于发现和改正。笔者近期查阅相关医学科研论文发现,有一个统计学错误,其错误应用率很高,甚至许多统计专业人员也不例外。例:某研究者研究A药对高脂血症性脂肪肝大鼠的作用,设计了如下试验方案:建立高脂血症性脂肪肝大鼠模型,以高、中、低剂量去脂胶囊进行干预,通过血液生化检查,观察其对脂肪肝大鼠的血脂的影响。结果:去脂胶囊能明显降低脂肪肝大鼠血脂,与对照组比较差异有显著性意义(P<)。结论:去脂胶囊对大鼠脂肪肝有肯定治疗作用。在本设计方案中,研究者将A药高、中、低3个剂量组与甲硫氨酸片组和自然恢复组按多因素一水平的统计方法进行方差分析。仔细考察各处理组之间的关系,其实本研究主要涉及两个因素:A药治疗与甲硫氨酸片治疗,而A药高、中、低3个剂量组是A药的3个水平,而不是与甲硫氨酸片平等的3个因素。表1各组大鼠血清脂质比较(x-±s)mmol·L-1组别TC TG HDL-C自然恢复± ± ±药低剂量± ± ±药中剂量±... 【DOI】 CNKI:SUN: 医学科研论文中常见的统计学错误【作者中文名】李祝华; 【作者单位】白城市传染病医院吉林白城; 【文献出处】吉林医药学院学报, Journal of Jilin Medical College, 编辑部邮箱 2007年 02期期刊荣誉：ASPT来源刊 CJFD收录刊【关键词】医学; 科研论文; 统计学错误; 【摘要】科技论文常用统计学方法对资料进行加工、整理与分析,从而定性或定量地阐述一些理论或实验结果。现就一些医学期刊(1999~2000年度国家级期刊8种共60期)中出现错误的统计方法进行归纳分析,以提醒科技工作者在撰写科技论文时能合理应用统计学方法,准确地进行描述、估计、比较、预测与分析,尽量减少统计学方法的错误应用,提高科技论文的写作水平。1资料缺乏可靠性有的资料样本数量较少,有的作者选择的实验对象不具代表性,有许多人为因素,有个别作者根据自己主观期望判断结果,更有甚者有时更改实验数据,致使一些实验结果出现较大误差。2统计学方法缺乏科学性统计学方法比较多,如率、构成比、发展速度、显著性检验方法等。有时计算方法不当就能直接影响结果或造成误解。如率与构成比的联系与区别就常被人误解,也有的作者只看表面现象,不经统计学方法处理,就下结论。3统计量投入缺乏规范性科学恰当地计算统计量,才能正确反映事物的真实情况,但如果计算不当,则会出现假象或错误的结果。如未经标准化处理的资料就进行率的比较,由于两组资料的内部结构不同,结... 【DOI】 CNKI:SUN: 医学论文中常见的统计学错误及对策【作者中文名】杨云华; 【作者单位】天津市医学科学技术信息研究所 300050天津; 【文献出处】中华医学科研管理杂志, Chinese Journal of Medical Science Research Management, 编辑部邮箱 2004年 02期期刊荣誉：ASPT来源刊 CJFD收录刊【关键词】医学论文; 统计学; 常见错误; 对策; 【摘要】分析医学科研论文中统计学方法应用中常出现的错误 ,提高编辑人员识别统计学常见错误的能力 ,确保科研论文的科学性、准确性和可信性 ,努力办成精品期刊。【DOI】 cnki:ISSN:

算数据造假，但是已经毕业，应该不至于被取消学位。

硕士论文算错也就是数据造假。如果论文数据的确存在造假行为，那就存在被人发现的可能，一旦被查，将会受到相应的处罚。据统计，数据造假发生最多的领域，第一是医学，其次是药理学。硕士论文一般是由学校保存，只有优秀的论文才能被知网等网络数据库收录。

但是在论文答辩之前要经过审核的，还是要注意一些为好。对论文的认真程度，要看你的答辩组的老师态度了，还有硕士论文在毕业之后，还会经历一次教育部的抽查，如果到那时被发现出了问题，就比较麻烦了。所以建议你如果数据可以得到真实的，就避免使用虚假数据。

论文数据重要性：

虽然审稿专家没有发现，但是并不代表论文发表出去后，别人发现不了。要知道论文发表出去，面向的是与你方向相同的人员，肯定会有不少同行业的人员阅读你的论文，若是发现错误，那么会质疑你的论文水平，也会怀疑杂志社及审稿专家的水平，对你今后在行业的发展并没有好处。

所以，一旦发现错误之后，就要及时联系杂志社或是审稿专家修改。尤其是医学方面的作者来说，任何一个小数的错误，可能都会影响整个研究实验，甚至会造成连锁反应。就拿药学论文来说，因为一个小数原则，可能导致某一项药品成分增加或是减少, 起到相反的作用，那么后果是非常严重的。

而对于一件机械零件的设计而言，可能因为一厘一毫的差别，而导致一批零件无法投入使用。所以发现错误后要及时修改，这既是对自己，也是对他人负责的表现。

医学论文

医学论文统计误用例析