医学论文中常见统计错误

医学统计中的常见误区有哪些

医学统计学是运用概率论与数理统计的原理及方法，结合医学实际，研究数字资料的搜集、整理分析与推断的一门学科。医学研究的对象主要是人体以及与人的健康有关的各种因素。下面是我为大家带来的关于医学统计中的常见误区的知识，欢迎阅读。

一，真正差异和统计学差异

常常有人和我说： P值越小，试验结果的差异就越大!而且还有依据 [P < 是有显著性差异; P < 是有极显著性差异]。

其实，这些人忽略了 n 这个样本数的作用，n 的大小会影响 P 值。但更应该澄清一下的是： P 值代表的是统计学差异，并不是真正的差异!真正的差异只能靠平均值或者频度的比较才能得到。

二，卡方检验的局限性

我们知道各组之间的计数资料的比较，要用卡方检验，但有些情况是不行的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

2，当组与组之间有不同的背景，而这些背景因子还可能会影响到组与组之间结果差异，这是就必须要用 Mantel-Haenszel 检验!

这第2条可能大家不要理解，那我就举两个例子：

1) 关于男性和女性对于不同颜色的喜好的统计学分析

但这里应该注意到年龄可能会对这个分析造成影响，这就要用Mantel-Haenszel 检验了。

***红色蓝色黄色

男性 5 7 8

女性 15 10 6

可以按大人和小孩(比如我们以15岁为分界)分层，在SPSS中要把这个因素放到[行] [列]下边的[层化]一栏里，并在统计指标选项里，选 Cochran和Mantel-Haenszel的统计量选项，这样出来的结果就可靠了!

2)两种治疗(A和B)效果的评价分析：

*****A法 B法

生存 41 54

死亡 47 31

用卡方检验 X2=; P <

但是，病人的临床分期将影响着分析结果：

********生存**************死亡

——————————***——————————

————A****B————————A*****B———

1期-----18-----21--------------------0--------0-------

2期-----23-----33-------------------13------- 8-------

3期------0------0--------------------34-------23-------

再用Mantel-Haenszel检验： X2=; P >

说明实际上A法和B法两组的统计学差异，是这个不同的分期造成的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

三，t 检验的局限性

1，我们经常用 t 检验来判别两组病人血清中某种标记物水平上的差异，但这里要注意，有一些血清标记物的水平是不能用 t 检验的!

比如：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Mann-Whitney U test (Wilcoxon U test)。

2，关于用不用配对t 检验，我个人认为当同一组样本在不同时点，不同处理方式的比较上，应该用配对t 检验。

四，ANOVA 检验的局限性

1，在2组以上计量资料样本比较时，ANOVA 检验非常常用。但这个检验只是说明了一个趋势的比较结果，并不能说明真正的统计学差异，真正的`差异还要通过每两个点的直接比较，也就是说应该在ANOVA 检验后，还必须做两两比较或多重比较，这样才能从全貌上反映出统计的全部结果。

2，既然方差分析得到差别有显著性意义的结论后，还需进行两两比较，有人认为还不如一开始就进行多次t检验更方便，其实，这种认识是不妥当的。t检验用于ANOVA的两两比较将增大第一类错误，产生假阳性，因此要采用特定的方法，在SPSS的one-way ANOVA或General linear models中操作时，Post Hoc(多重比较)对话框内有多种方法可供选择，象两两比较一般用SNK法，而多个试验组和一个对照组的比较则多用dunnett检验。

3，我们经常用 ANOVA 检验来判别几组病人血清中某种标记物水平上的差异，但这里要注意，与 t 检验一样，有一些血清标记物的水平是不能用 ANOVA 检验的!

如上所说的：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Kruskal-Wallis rank test 。

五，单元线性相关分析

有时我们常常只注意到了 P 值大小，可最重要的是 r 值!

样本数 n 对 P 值结果的影响很大，容易让我们产生错觉，其实，相关的存在与否的评价是与 r 值最直接相关的，如下：

当 P 值小于时： r 值

几乎没有相关关系

弱的相关关系

有相关关系

强相关关系

极强相关关系

P 值只是证明这个相关在统计学上是否成立!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

不是说样本小于5

而是说：在R×C表中

理论频数不应该小于1，并且1≤T≤5的格子数不应该超过总格子数的1/5，若出现上述情况可以通过以下方法：

a.增加样本含量，使理论频数增大;

b.根据专业知识，删除理论频数太小的行和列;或者将理论频数太小的行或列与性质相近的邻行和邻近列合并。

c.改用双向无序的R×C表的fishher确切概率法。

还有一点

四格表卡方检验的适应指标：(T为理论频数)

1。n≥40，且T≥5时用卡方检验基本公式。但是当p≈α应该用fisher确切概率法

2。n≥40，但是1≤T≤5时，用四格表校正公式

3。n<40，或者T<1时，用fisher四格表确切概率法

4。四格表卡方检验的连续性校正仅仅用于自由度为1的四格表尤其是n较小时。

补充几点：

1. 关于P值：P值的大小并不是各组差异的大小，而是统计学差异显著性的大小。P值越小，说明得出各组没有差异的概率越小，越有理由说明各组存在差异(可以说，P值的大小反映了做出统计结论的“理由”的大小，而不是被比较的各组的实际差异的大小，得出有意义的结论后，其差异的大小可直接通过各组的均数或率进行比较)。

2. 关于t检验和方差分析：katalyster兄上面提到的t检验及方差分析在某些时候不适用，实际上就是每种方法都有其应用条件，不服从正态分布当然不能用。对这样的资料首先可考虑变量变换(如抗体滴度等资料，为指数或幂次的关系，可用对数转换)，如变换后，服从正态分布，可用上述方法;若还不符合，则考虑非参数检验。

3. 关于相关分析：两个变量间是否存在相关关系，要看P值，而不是r值，r值用来说明相关关系的大小。当P<，才能讲两变量间存在相关关系，再看r值，r值越大，相关关系越强，反之越小;否则，P>,不能讲两变量间存在相关关系，r值毫无意义。

感谢kushuya, xiaoxiongzjh两位专家的补充和指正!之所以开这个专题，是真心想让初学者从这些<误区>中走出来!

六，Logistic regression 分析

在判断某因子对疾病的危险度时常用的方法。

1，假设要判断某因子对疾病的危险度(OR)，要了解这个OR是一个相对危险度，即是有某因子存在和没有某因子存在之间比较的OR值。

2，OR 和 RR 不一样，OR是在Logistic regression model中使用，RR是在Cox proportional hazard model中使用。

3，假设要判断某因子对疾病的危险度，要在多变量Logistic regression model中校正一些混扰因素，如常见的年龄，性别，吸烟等等，并最后得出这个 Adjusted OR。但并不是说有了这些校正，我们就可以在实验设计上就不考虑这些混扰因素，相反，必须在实验设计上就把这些混扰因素在实验组和对照组配平，光靠在多变量Logistic regression model中校正是不可靠的。

其它方法---生存分析 (Kaplan-Meier法+ Logrank法)：

我们有时在临床研究只注意到了用这种方法分析与生存相关的研究，其实，在疾病复发上也常用这种方法!前者是以生---死为判别，后者则以复发---不复发为判别。

第一类错误是：零假设H0实际上是正确的，却被否定了。

第二类错误则是：H0实际上是错的，却没有被否定。

假设检验系指拒绝或保留零假设的判断，又称显著性检定。在选择否定域并计算检验统计量之后，完成最后一道手续，即根据试验或样本结果决定假设的取与舍。

如果结果落在否定域内，将在已知犯第一类错误概率的条件下，否定零假设。反之，如果结果落在否定域外，则不否定零假设，与此同时，就有了犯第二类错误的危险。

扩展资料

统计检验亦称“假设检验”。根据抽样结果，在一定可靠性程度上对一个或多个总体分布的原假设作出拒绝还是不拒绝（予以接受）结论的程序。决定常取决于样本统计量的数值与所假设的总体参数是否有显著差异。这时称差异显著性检验。检验的推理逻辑为具有概率性质的反证法。

例如，在参数假设检验中，当对总体分布的参数作出原假设 H0 后，先承认总体与原假设相同，然后根据样本计算一个统计量，并求出该统计量的分布，再给定一个小概率（一般为，等，视情况而定），确定拒绝原假设 H0 的区域（拒绝域）。

参考资料来源：百度百科——统计检验

计学，可以说无处不在，我们每个人的日常生活都会受到统计学的影响。但是很多人，即使受过统计学的正规训练，也会在不知不觉之间犯一些常见的分析错误。下面这篇文章，我就和大家分享一些现实生活中比较常见的统计研究错误。1. 参照组（Control group）那天我恰好在网上看到一篇文章，叫做《眼保健操对于保护眼睛有作用么？》。作者的观点是眼保健操没有什么作用，列举的证据是眼保健操在中国的学校里推行了50多年，小学生和中学生的近视率大大上升了，而非下降。因此作者得出结论：眼保健操对视力有害。乍一看，好像确实是这么回事：50多年前我们开始在学校里要求学生们做眼保健操。但是现在孩子们的近视率，则要比当时的那些孩子的近视率高出很多。但是如果就因为这个而得出眼保健操没用的结论，则是谬之大矣。主要原因在于：没有参照组。和建国初那时候的孩子们相比，现在的孩子由于功课压力，在室内花的时间（读书，做作业，上补习班等）大幅度增长，用眼的“诱惑”也大大增加，比如电视，电脑，手机等等。因此无论是否做眼保健操，现在孩子的视力肯定都不及当时的孩子。这也不是中国独有的现象，日本，韩国，新加坡等国的情况也类似。而这些国家都没有眼保健操。如果要真正研究眼保健操对于保护视力是否有效，那么就应该通过参照组来对比。研究人员应该找到两组情况类似的样本（比如同一个学校里的孩子）进行研究。这两组样本的区别除了他们是否做眼保健操以外，在其他方面越相似越好。然后通过一定时间的跟踪调查，研究人员才可能得出更加客观和可靠的研究结果。1747年，苏格兰医生James Lind在一艘名叫Salisbury的船上成功的找到了治疗坏血病的方法：就是通过吃橙子和柠檬补充维他命C。而他找到该疗法的关键就是运用了参照组实验方法。坏血病是一种非常可怕的疾病。坏血病的发病特征包括皮下出血（因此腿会变黑），极度疲劳，牙床腐烂，肌肉变软。长期出海的船员和海盗是坏血病的多发人群。James Lind使用的参照组实验是这样进行的。在Salisbury这艘船上，Lind医生找到了12个坏血病严重程度差不多的病人，将他们两人一组分成6组。对于这6组病人，Lind医生给予了他们6种不同的治疗方法，包括橙子，柠檬，苹果酒，醋和盐水等。后来Lind医生发现，食用橙子和柠檬的那组病人的恢复速度显然比其他组别要快很多，因此得出结论橙子和柠檬可以治疗坏血病。现在我们知道，橙子中的维他命C才是坏血病的克星。Lind医生通过参照组实验获得的这项重要发现，帮助挽救了成千上万的水手的生命。如果没有参照组这个重要的分析方法，Lind医生能否找到正确的解药要打一个大问号。当时，Lind医生一度怀疑坏血病的病因和啤酒有关。Lind医生观察到，每次船上的啤酒被喝光时，往往也伴之以坏血病的大面积流行。但事实上，啤酒喝光，和坏血病盛行，只是一个巧合而已。因为坏血病往往多发于长期航海旅途中，而在海上旅行久了，啤酒自然也会被喝完。如果不通过参照组方法去分析真正的原因，那么就可能得出啤酒能够治疗坏血病这样错误的结论。在我们阅读分析一些统计研究报告时，一个很重要的地方就是要看该研究有没有参照组进行对比。如果研究只是比较了几个变量之间的关系而缺乏参照组进行对照，那么该研究的结论就值得怀疑。2. 随机取样（Random Sampling）下面来讲讲“随机取样（Random Sampling）”这个问题。在现实中，我们经常面对的问题是，需要研究的样本量太大，无法收集到完整的数据。比如我们想要了解全国十几亿人的想法，或者想要知道所有沿海城市的中产阶级的消费偏好，等等。要想精确的回答这些问题，我们就需要随机抽取一些代表性样本，通过样本的表现来推测整体的特征。如何确保收集到的样本真正“随机”，是一个技术含量很高的问题。在这方面有很多失败的例子可供我们学习。1936年，美国的总统选举大战在罗斯福(FDR）和兰登（Alf Landon）之间展开。在选举投票前，当时一家非常大的调查机构Literary Digest发出了1千万张明信片来收集美国人的投票倾向。在这1千万张明信片中，Literary Digest收到了2百万份回复。在这些回复中，绝大部分人都倾向于选兰登。因此Literary Digest得出结论：兰登将赢得总统选举。当时还有另外一家新成立不久的调查公司，名叫Gallup。Gallup没有Literary Digest那么大的预算。他们只是有针对性的选了几千个受访者做了民意调查，并得出罗斯福将会赢得总统大选的结论。

一类错误是原假设Ho为真却被我们拒绝了,犯这种错误的概率用α表示,所以也称α错误或弃真错误;另一类错误是原假设为伪我们却没有拒绝,犯这种错误的概率用β表示,所以也称β错误或取伪错误.

医学论文常见统计错误

缺失值的处理：缺失值是人群研究中不可避免的问题，其处理方式的差异可能在不同程度上引入偏倚，因此，详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进行评价。例如，瑞舒伐他汀试验在统计分析部分详细说明了缺失值的填补策略，包括：将二分类结局中的缺失值视为未发生事件；将生物标志物和心电图测量中的缺失值进行多重填补（multiple imputation）；为了证明缺失值处理的合理性和填补结果的稳定性，研究还比较了多重填补与完整数据（complete-case）分析的结果。2、数据的预处理：实施统计分析之前往往需要将原始数据进行预处理，如：对连续变量进行函数转换使其更接近正态分布，基于原始数据构建衍生变量，将连续变量拆分为分类变量或将分类变量的不同类别进行合并等。医学论文应报告处理原始数据的方法及依据，瑞舒伐他汀试验即在统计分析部分描述了对血液生物标志物的对数转换。3、变量分布特征描述：确定统计分析使用的变量，并针对每一个变量的分布特征进行描述，是决定研究选用何种统计分析方法的基础。医学期刊虽然普遍对此提出要求，但作者往往套用常用方法，如：连续变量符合正态分布时，采用均数（标准差）描述，否则采用中位数（四分位间距）描述；分类变量采用频数（百分比）描述等。事实上，应根据研究设计类型、统计分析目的和数据特征选择恰当的描述方法。例如，CKB选择采用年龄、性别和地区校正的均值和率来描述人群分布特征，而非简单的报告连续变量的均数和分类变量的构成比。4、主要分析（primary analysis）：指针对研究结局的统计分析，是研究论文的核心证据。因此，医学论文应详细描述主要分析的实施过程和适用性。在试验性研究中，应明确统计分析数据集、试验效应指标、相对或绝对风险及其置信区间的计算方法、以及假设检验的方法。

医学统计中的常见误区有哪些

医学统计学是运用概率论与数理统计的原理及方法，结合医学实际，研究数字资料的搜集、整理分析与推断的一门学科。医学研究的对象主要是人体以及与人的健康有关的各种因素。下面是我为大家带来的关于医学统计中的常见误区的知识，欢迎阅读。

一，真正差异和统计学差异

常常有人和我说： P值越小，试验结果的差异就越大!而且还有依据 [P < 是有显著性差异; P < 是有极显著性差异]。

其实，这些人忽略了 n 这个样本数的作用，n 的大小会影响 P 值。但更应该澄清一下的是： P 值代表的是统计学差异，并不是真正的差异!真正的差异只能靠平均值或者频度的比较才能得到。

二，卡方检验的局限性

我们知道各组之间的计数资料的比较，要用卡方检验，但有些情况是不行的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

2，当组与组之间有不同的背景，而这些背景因子还可能会影响到组与组之间结果差异，这是就必须要用 Mantel-Haenszel 检验!

这第2条可能大家不要理解，那我就举两个例子：

1) 关于男性和女性对于不同颜色的喜好的统计学分析

但这里应该注意到年龄可能会对这个分析造成影响，这就要用Mantel-Haenszel 检验了。

***红色蓝色黄色

男性 5 7 8

女性 15 10 6

可以按大人和小孩(比如我们以15岁为分界)分层，在SPSS中要把这个因素放到[行] [列]下边的[层化]一栏里，并在统计指标选项里，选 Cochran和Mantel-Haenszel的统计量选项，这样出来的结果就可靠了!

2)两种治疗(A和B)效果的评价分析：

*****A法 B法

生存 41 54

死亡 47 31

用卡方检验 X2=; P <

但是，病人的临床分期将影响着分析结果：

********生存**************死亡

——————————***——————————

————A****B————————A*****B———

1期-----18-----21--------------------0--------0-------

2期-----23-----33-------------------13------- 8-------

3期------0------0--------------------34-------23-------

再用Mantel-Haenszel检验： X2=; P >

说明实际上A法和B法两组的统计学差异，是这个不同的分期造成的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

三，t 检验的局限性

1，我们经常用 t 检验来判别两组病人血清中某种标记物水平上的差异，但这里要注意，有一些血清标记物的水平是不能用 t 检验的!

比如：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Mann-Whitney U test (Wilcoxon U test)。

2，关于用不用配对t 检验，我个人认为当同一组样本在不同时点，不同处理方式的比较上，应该用配对t 检验。

四，ANOVA 检验的局限性

1，在2组以上计量资料样本比较时，ANOVA 检验非常常用。但这个检验只是说明了一个趋势的比较结果，并不能说明真正的统计学差异，真正的`差异还要通过每两个点的直接比较，也就是说应该在ANOVA 检验后，还必须做两两比较或多重比较，这样才能从全貌上反映出统计的全部结果。

2，既然方差分析得到差别有显著性意义的结论后，还需进行两两比较，有人认为还不如一开始就进行多次t检验更方便，其实，这种认识是不妥当的。t检验用于ANOVA的两两比较将增大第一类错误，产生假阳性，因此要采用特定的方法，在SPSS的one-way ANOVA或General linear models中操作时，Post Hoc(多重比较)对话框内有多种方法可供选择，象两两比较一般用SNK法，而多个试验组和一个对照组的比较则多用dunnett检验。

3，我们经常用 ANOVA 检验来判别几组病人血清中某种标记物水平上的差异，但这里要注意，与 t 检验一样，有一些血清标记物的水平是不能用 ANOVA 检验的!

如上所说的：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Kruskal-Wallis rank test 。

五，单元线性相关分析

有时我们常常只注意到了 P 值大小，可最重要的是 r 值!

样本数 n 对 P 值结果的影响很大，容易让我们产生错觉，其实，相关的存在与否的评价是与 r 值最直接相关的，如下：

当 P 值小于时： r 值

几乎没有相关关系

弱的相关关系

有相关关系

强相关关系

极强相关关系

P 值只是证明这个相关在统计学上是否成立!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

不是说样本小于5

而是说：在R×C表中

理论频数不应该小于1，并且1≤T≤5的格子数不应该超过总格子数的1/5，若出现上述情况可以通过以下方法：

a.增加样本含量，使理论频数增大;

b.根据专业知识，删除理论频数太小的行和列;或者将理论频数太小的行或列与性质相近的邻行和邻近列合并。

c.改用双向无序的R×C表的fishher确切概率法。

还有一点

四格表卡方检验的适应指标：(T为理论频数)

1。n≥40，且T≥5时用卡方检验基本公式。但是当p≈α应该用fisher确切概率法

2。n≥40，但是1≤T≤5时，用四格表校正公式

3。n<40，或者T<1时，用fisher四格表确切概率法

4。四格表卡方检验的连续性校正仅仅用于自由度为1的四格表尤其是n较小时。

补充几点：

1. 关于P值：P值的大小并不是各组差异的大小，而是统计学差异显著性的大小。P值越小，说明得出各组没有差异的概率越小，越有理由说明各组存在差异(可以说，P值的大小反映了做出统计结论的“理由”的大小，而不是被比较的各组的实际差异的大小，得出有意义的结论后，其差异的大小可直接通过各组的均数或率进行比较)。

2. 关于t检验和方差分析：katalyster兄上面提到的t检验及方差分析在某些时候不适用，实际上就是每种方法都有其应用条件，不服从正态分布当然不能用。对这样的资料首先可考虑变量变换(如抗体滴度等资料，为指数或幂次的关系，可用对数转换)，如变换后，服从正态分布，可用上述方法;若还不符合，则考虑非参数检验。

3. 关于相关分析：两个变量间是否存在相关关系，要看P值，而不是r值，r值用来说明相关关系的大小。当P<，才能讲两变量间存在相关关系，再看r值，r值越大，相关关系越强，反之越小;否则，P>,不能讲两变量间存在相关关系，r值毫无意义。

感谢kushuya, xiaoxiongzjh两位专家的补充和指正!之所以开这个专题，是真心想让初学者从这些<误区>中走出来!

六，Logistic regression 分析

在判断某因子对疾病的危险度时常用的方法。

1，假设要判断某因子对疾病的危险度(OR)，要了解这个OR是一个相对危险度，即是有某因子存在和没有某因子存在之间比较的OR值。

2，OR 和 RR 不一样，OR是在Logistic regression model中使用，RR是在Cox proportional hazard model中使用。

3，假设要判断某因子对疾病的危险度，要在多变量Logistic regression model中校正一些混扰因素，如常见的年龄，性别，吸烟等等，并最后得出这个 Adjusted OR。但并不是说有了这些校正，我们就可以在实验设计上就不考虑这些混扰因素，相反，必须在实验设计上就把这些混扰因素在实验组和对照组配平，光靠在多变量Logistic regression model中校正是不可靠的。

其它方法---生存分析 (Kaplan-Meier法+ Logrank法)：

我们有时在临床研究只注意到了用这种方法分析与生存相关的研究，其实，在疾病复发上也常用这种方法!前者是以生---死为判别，后者则以复发---不复发为判别。

人们常说“用数据说谎”，我要说往往数据的分析是没问题的，但这些分析却是建立在夸大或不实的数据之上。下面便是几个常见的“错进错出”案例。选择偏倚《纽约客》资深影评人宝琳?凯尔（Pauline Kael）据称曾经在理查德?尼克松（Richard Nixon）当选美国总统后评论：“尼克松不可能赢了竞选，我认识的人里面没一个投了他。”这句话很有可能是杜撰的，但却很好地说明了糟糕的样本（一群自由派朋友）会如何给更大的群体带来错误的偏见（全美国的投票结果）。而这也引出了我们应该问自己的问题：如何选择评估样本？如果要接受评估的群体的每一个成员没有均等的机会入选样本，那么最终得出的结论就将会有偏颇。以爱荷华州的民意测验为例，这是美国总统竞选中的一项惯例，在总统大选年的8月，也就是正式投票的前一个月，共和党的候选人会来到爱荷华州的埃姆斯市（Ames）笼络选民，选民每个人支付30美元投上一票以参与表决。爱荷华州的民意测验结果并不能告诉我们共和党候选人的未来。（该调查的预测在过去5次大选中只说对了3次共和党提名候选人的结果。）为什么？因为支付30美元投票参与这项民意测验的爱荷华州共和党选民跟爱荷华州的其他共和党选民不同，而爱荷华州的共和党选民又跟美国其他地区的共和党选民不同。“尼克松不可能赢了竞选，我认识的人里面没一个投了他。”选择偏倚还有其他很多种形式。在机场做消费者问卷调查很可能造成偏倚，因为坐飞机的人大体上会比一般人更富裕；而在90号洲际公路上做同样的调查问卷结果又会偏向另一端。而两项调查都有可能出现的偏倚则是那些愿意在公共场合接受问卷调查的人不同于那些不愿意被打扰的人。如果你在公共场合问100个人做一份简短的调查，其中只有60人愿意，那么这60个人跟剩下40个看都不看你一眼就走开的人在某些地方有着显著的不同。发表偏倚正面的结果比负面的更有可能得到发表，而这可能会混淆我们最终所见到的结论。假设你刚刚做完了一次严谨的追踪调查，得出结论认为玩视频游戏不能预防结肠癌。在这项调查中，你花了20年的时间跟踪访问了作为代表性样本的10万个美国人；这些人当中，长时间玩视频游戏的跟不玩儿视频游戏的罹患结肠癌的几率基本一致。我们假设你的研究方法完美无缺。但哪家医学期刊会发表你的研究结论呢？“大多数活动都不能预防结肠癌。”答案是没有。原因有二：第一，没有有力的科学理由认为玩儿视频游戏对结肠癌有什么影响，因此你研究这个的意义不明；其次，也是更重要的一点，某件事情不能预防结肠癌不是什么有趣的发现。毕竟，大多数东西都不能预防结肠癌。否定的结论尤其不性感，不论是在医疗领域还是其他。而两相抵消，就对我们看到的研究（或者说看不到的）产生了偏倚。假设你的研究生同学经过另一项追踪调查得出了不同的结论，她发现玩视频游戏的人确实罹患结肠癌的几率较小。现在就有意思多了！医学期刊要的就是这样的论文，大众媒体、博客写手，还有视频游戏的制作商（他们巴不得在自己产品的包装上标注玩游戏有益身体健康），都在寻找这样的内容。要不了多久，全美国的虎妈们就会纷纷夺过自己孩子手里的书本，转而逼迫他们玩游戏来“保护”下一代免于癌症困扰了。当然，统计学里反复强调的一个论点是，异乎寻常的事情时而发生，这只是概率问题。如果你进行100次调查，其中有一次很可能会出现纯属无稽的结果——就像玩视频游戏和结肠癌患病率低之间的数据关联。而问题在于：99次发现玩游戏跟患结肠癌无关的研究都得不到发表，因为它们没有意思，而那一次发现两者有关联的研究却被印刷出来，迎来了众多关注。偏倚的源头并不在于研究本身，但传达给公众的信息却是偏颇的。而研读视频游戏和癌症关联的研究者只能发现一篇论文，而这篇论文表明的却是玩视频游戏能预防癌症。实际上，100项研究里有99项都找不出二者之间有任何关联。回忆偏倚记忆是件奇妙的东西——尽管不能总算作优质数据的来源。人类天生就有冲动将现状理解成过去发生的事情合乎逻辑的结果，也就是因果关系。问题出在当我们试图去解释某些当前特别好或者特别糟糕的结果时，记忆就会变得“系统性的不堪一击”。例如一项研究饮食和癌症之间的关系的研究。1993年，一名哈佛大学的研究者构建了一组罹患乳腺癌的妇女和没有被诊断出癌症的年龄匹配组女性的数据。研究人员分别询问了这两组女性的早年饮食习惯。研究得出了清晰的结论：患有乳腺癌的妇女在年轻时有更显著的可能拥有高脂肪的饮食。哈，不过，这实际上不是在研究饮食习惯对罹患癌症几率有什么影响。这项研究真正调查的是患上癌症如何影响了女性对自己早年饮食习惯的记忆。所有参与这项研究的女性都在多年以前，在任何人都没有被诊断患有癌症的时候，填写了关于其饮食习惯的调查问卷。研究的结果十分惊人，患有乳腺癌的妇女回想自己过去饮食摄入的脂肪的含量比她们实际消耗的要多得多；没有患癌症的女性则没有出现这种情况。《纽约时报杂志》在描述这种记忆偏倚的隐秘本质时称：“罹患乳腺癌不仅改变了一位女性的当下和未来；它连她的过去也改变了。患有乳腺癌的女性（无意识地）认为高脂饮食可能是她们患病的易感原因，并且（无意识地）认为自己过去有高脂的饮食习惯。对于任何了解这种耻辱病的历史的人而言，这一模式都熟悉得令人悲伤：和她们之前成千上万的女性一样，这些女性在她们自己的记忆里寻找原因，并将这个原因放置在记忆里。”回忆偏倚是也是追踪研究往往偏向于横向研究（cross-sectional studies）的一个原因。在横向研究里，数据是同时采集的。在5岁的时候，参与者会被问及他对学校的态度。然后，再过13年，我们可以重访参与者，看他是否高中辍学。在横向研究中，所有的数据都在同一时间点采集，研究者必须询问18岁的高中辍学生他5岁时对学校有何看法，而这一信息固然便是不怎么可靠的。存活者误差假设一名高中校长报告说，学生中的一组特定人群在4年中（编注：美国高中有4年）考试成绩稳步上升。这批人高二的得分比他们在高一时的成绩好。高三那年的分数更好，高四达到了最好。我们假定不存在作弊的情况，也没有任何创造性地运用描述性的统计数据。无论用什么评价标准，这批学生每一年都比前一年做得更好：平均数、中位数、学生在年级水平的百分比等等。你会（A）提名这所学校的领导为“年度最佳校长”还是（B）要求提供更多的数据？“如果你有一屋子高矮不齐的人，强迫最矮的那个离开房间会使整个房间的平均身高上升，但这样做并不会使任何人的身高变高。”我的话就会选（B）。我嗅到了存活者误差的猫腻，这种情况下样本中去掉了一些或很多观测数据，以至于改变了整个剩下的观测结果，因而任何基于剩余观测数据所做的分析也受了影响。假设我们的校长真不是个好人：他学校里的学生啥也没学到；每年都有半数人辍学。不过，这在数学的考试分数上面看起来很是漂亮——但没有任何一名学生实际上考得更好。有理可测，学得最差的学生（也是考试分数最低的学生）最有可能辍学，那么考试分数的平均分会随着更多学生辍学而稳步上升。（如果你有一屋子高矮不齐的人，强迫最矮的那个离开房间会使整个房间的平均身高上升，但这样做并不会使任何人的身高变高。）健康用户误差每天按时吃维生素片的人更有可能身体健康——他们是每天都按时吃维生素的人！而至于维生素是否真的有益健康这又另当别论了。想想这样一个思考实验。假设公共卫生官员颁布这样一条声明，所有的刚生了小孩儿的夫妻都能该把自己的孩子裹在紫色的睡衣里睡觉，因为这有助于刺激大脑的发育。20年后，追踪研究证实，幼年时期穿紫色睡衣确实与今后人生中取得成功有一个特别大的正相关。比方说，我们发现，98％考上哈佛大学的新生孩童时期都穿着紫色的睡衣（现在许多人仍然这样做），相比之下，马萨诸塞州监狱系统里的囚犯只有3%年幼时穿紫色睡衣。“紫色睡衣并不重要。”当然，紫色睡衣并不重要，但拥有那种会让孩子穿紫色睡衣的父母却十分重要。就算试图控制父母教育这样的因素，研究者仍然会面临那些执着于让孩子穿紫色睡衣和不穿的父母之间不可观测的差异。正如《纽约时报》健康专栏作家加里?陶布斯（Gary Taubes）解释说，“简单地说，问题就是踏踏实实做那些对他们有好处的事情——比如按医嘱服药或吃他们认为有益健康的食物——的人，跟那些不这样做的人有着根本上的不同。”这种效应有可能扰乱任何试图评估那些被视为有益健康的活动（比如每周运动或吃羽衣甘蓝）真实效果的研究。研究人员以为他们是在比较两种饮食习惯对健康的影响：吃羽衣甘蓝和不吃甘蓝。但事实上，假如治疗组和对照组不是随机分配的，那么他们在比较两种不同的人吃两种不同的饮食，治疗组和对照组的不同有两个方面，而不是仅仅一个。如果说统计学家是侦探，那么数据就是线索。我的妻子在新罕布什尔郊区的高中教了一年书。她的一个学生因为闯入一家五金店盗窃工具而被逮捕归案，而警察之所以能破案是因为：（1）天刚刚下雪，从五金店到学生的家里的雪上有足迹；（2）在学生家里找到了被盗的工具。好线索帮了大忙。就跟好数据一样。但首先，你得有好的数据，否则一切都是空。

医学论文中常见统计学错误

医学统计中的常见误区有哪些

医学统计学是运用概率论与数理统计的原理及方法，结合医学实际，研究数字资料的搜集、整理分析与推断的一门学科。医学研究的对象主要是人体以及与人的健康有关的各种因素。下面是我为大家带来的关于医学统计中的常见误区的知识，欢迎阅读。

一，真正差异和统计学差异

常常有人和我说： P值越小，试验结果的差异就越大!而且还有依据 [P < 是有显著性差异; P < 是有极显著性差异]。

其实，这些人忽略了 n 这个样本数的作用，n 的大小会影响 P 值。但更应该澄清一下的是： P 值代表的是统计学差异，并不是真正的差异!真正的差异只能靠平均值或者频度的比较才能得到。

二，卡方检验的局限性

我们知道各组之间的计数资料的比较，要用卡方检验，但有些情况是不行的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

2，当组与组之间有不同的背景，而这些背景因子还可能会影响到组与组之间结果差异，这是就必须要用 Mantel-Haenszel 检验!

这第2条可能大家不要理解，那我就举两个例子：

1) 关于男性和女性对于不同颜色的喜好的统计学分析

但这里应该注意到年龄可能会对这个分析造成影响，这就要用Mantel-Haenszel 检验了。

***红色蓝色黄色

男性 5 7 8

女性 15 10 6

可以按大人和小孩(比如我们以15岁为分界)分层，在SPSS中要把这个因素放到[行] [列]下边的[层化]一栏里，并在统计指标选项里，选 Cochran和Mantel-Haenszel的统计量选项，这样出来的结果就可靠了!

2)两种治疗(A和B)效果的评价分析：

*****A法 B法

生存 41 54

死亡 47 31

用卡方检验 X2=; P <

但是，病人的临床分期将影响着分析结果：

********生存**************死亡

——————————***——————————

————A****B————————A*****B———

1期-----18-----21--------------------0--------0-------

2期-----23-----33-------------------13------- 8-------

3期------0------0--------------------34-------23-------

再用Mantel-Haenszel检验： X2=; P >

说明实际上A法和B法两组的统计学差异，是这个不同的分期造成的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

三，t 检验的局限性

1，我们经常用 t 检验来判别两组病人血清中某种标记物水平上的差异，但这里要注意，有一些血清标记物的水平是不能用 t 检验的!

比如：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Mann-Whitney U test (Wilcoxon U test)。

2，关于用不用配对t 检验，我个人认为当同一组样本在不同时点，不同处理方式的比较上，应该用配对t 检验。

四，ANOVA 检验的局限性

1，在2组以上计量资料样本比较时，ANOVA 检验非常常用。但这个检验只是说明了一个趋势的比较结果，并不能说明真正的统计学差异，真正的`差异还要通过每两个点的直接比较，也就是说应该在ANOVA 检验后，还必须做两两比较或多重比较，这样才能从全貌上反映出统计的全部结果。

2，既然方差分析得到差别有显著性意义的结论后，还需进行两两比较，有人认为还不如一开始就进行多次t检验更方便，其实，这种认识是不妥当的。t检验用于ANOVA的两两比较将增大第一类错误，产生假阳性，因此要采用特定的方法，在SPSS的one-way ANOVA或General linear models中操作时，Post Hoc(多重比较)对话框内有多种方法可供选择，象两两比较一般用SNK法，而多个试验组和一个对照组的比较则多用dunnett检验。

3，我们经常用 ANOVA 检验来判别几组病人血清中某种标记物水平上的差异，但这里要注意，与 t 检验一样，有一些血清标记物的水平是不能用 ANOVA 检验的!

如上所说的：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Kruskal-Wallis rank test 。

五，单元线性相关分析

有时我们常常只注意到了 P 值大小，可最重要的是 r 值!

样本数 n 对 P 值结果的影响很大，容易让我们产生错觉，其实，相关的存在与否的评价是与 r 值最直接相关的，如下：

当 P 值小于时： r 值

几乎没有相关关系

弱的相关关系

有相关关系

强相关关系

极强相关关系

P 值只是证明这个相关在统计学上是否成立!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

不是说样本小于5

而是说：在R×C表中

理论频数不应该小于1，并且1≤T≤5的格子数不应该超过总格子数的1/5，若出现上述情况可以通过以下方法：

a.增加样本含量，使理论频数增大;

b.根据专业知识，删除理论频数太小的行和列;或者将理论频数太小的行或列与性质相近的邻行和邻近列合并。

c.改用双向无序的R×C表的fishher确切概率法。

还有一点

四格表卡方检验的适应指标：(T为理论频数)

1。n≥40，且T≥5时用卡方检验基本公式。但是当p≈α应该用fisher确切概率法

2。n≥40，但是1≤T≤5时，用四格表校正公式

3。n<40，或者T<1时，用fisher四格表确切概率法

4。四格表卡方检验的连续性校正仅仅用于自由度为1的四格表尤其是n较小时。

补充几点：

1. 关于P值：P值的大小并不是各组差异的大小，而是统计学差异显著性的大小。P值越小，说明得出各组没有差异的概率越小，越有理由说明各组存在差异(可以说，P值的大小反映了做出统计结论的“理由”的大小，而不是被比较的各组的实际差异的大小，得出有意义的结论后，其差异的大小可直接通过各组的均数或率进行比较)。

2. 关于t检验和方差分析：katalyster兄上面提到的t检验及方差分析在某些时候不适用，实际上就是每种方法都有其应用条件，不服从正态分布当然不能用。对这样的资料首先可考虑变量变换(如抗体滴度等资料，为指数或幂次的关系，可用对数转换)，如变换后，服从正态分布，可用上述方法;若还不符合，则考虑非参数检验。

3. 关于相关分析：两个变量间是否存在相关关系，要看P值，而不是r值，r值用来说明相关关系的大小。当P<，才能讲两变量间存在相关关系，再看r值，r值越大，相关关系越强，反之越小;否则，P>,不能讲两变量间存在相关关系，r值毫无意义。

感谢kushuya, xiaoxiongzjh两位专家的补充和指正!之所以开这个专题，是真心想让初学者从这些<误区>中走出来!

六，Logistic regression 分析

在判断某因子对疾病的危险度时常用的方法。

1，假设要判断某因子对疾病的危险度(OR)，要了解这个OR是一个相对危险度，即是有某因子存在和没有某因子存在之间比较的OR值。

2，OR 和 RR 不一样，OR是在Logistic regression model中使用，RR是在Cox proportional hazard model中使用。

3，假设要判断某因子对疾病的危险度，要在多变量Logistic regression model中校正一些混扰因素，如常见的年龄，性别，吸烟等等，并最后得出这个 Adjusted OR。但并不是说有了这些校正，我们就可以在实验设计上就不考虑这些混扰因素，相反，必须在实验设计上就把这些混扰因素在实验组和对照组配平，光靠在多变量Logistic regression model中校正是不可靠的。

其它方法---生存分析 (Kaplan-Meier法+ Logrank法)：

我们有时在临床研究只注意到了用这种方法分析与生存相关的研究，其实，在疾病复发上也常用这种方法!前者是以生---死为判别，后者则以复发---不复发为判别。

第一类错误是：零假设H0实际上是正确的，却被否定了。

第二类错误则是：H0实际上是错的，却没有被否定。

假设检验系指拒绝或保留零假设的判断，又称显著性检定。在选择否定域并计算检验统计量之后，完成最后一道手续，即根据试验或样本结果决定假设的取与舍。

如果结果落在否定域内，将在已知犯第一类错误概率的条件下，否定零假设。反之，如果结果落在否定域外，则不否定零假设，与此同时，就有了犯第二类错误的危险。

扩展资料

统计检验亦称“假设检验”。根据抽样结果，在一定可靠性程度上对一个或多个总体分布的原假设作出拒绝还是不拒绝（予以接受）结论的程序。决定常取决于样本统计量的数值与所假设的总体参数是否有显著差异。这时称差异显著性检验。检验的推理逻辑为具有概率性质的反证法。

例如，在参数假设检验中，当对总体分布的参数作出原假设 H0 后，先承认总体与原假设相同，然后根据样本计算一个统计量，并求出该统计量的分布，再给定一个小概率（一般为，等，视情况而定），确定拒绝原假设 H0 的区域（拒绝域）。

参考资料来源：百度百科——统计检验

计学，可以说无处不在，我们每个人的日常生活都会受到统计学的影响。但是很多人，即使受过统计学的正规训练，也会在不知不觉之间犯一些常见的分析错误。下面这篇文章，我就和大家分享一些现实生活中比较常见的统计研究错误。1. 参照组（Control group）那天我恰好在网上看到一篇文章，叫做《眼保健操对于保护眼睛有作用么？》。作者的观点是眼保健操没有什么作用，列举的证据是眼保健操在中国的学校里推行了50多年，小学生和中学生的近视率大大上升了，而非下降。因此作者得出结论：眼保健操对视力有害。乍一看，好像确实是这么回事：50多年前我们开始在学校里要求学生们做眼保健操。但是现在孩子们的近视率，则要比当时的那些孩子的近视率高出很多。但是如果就因为这个而得出眼保健操没用的结论，则是谬之大矣。主要原因在于：没有参照组。和建国初那时候的孩子们相比，现在的孩子由于功课压力，在室内花的时间（读书，做作业，上补习班等）大幅度增长，用眼的“诱惑”也大大增加，比如电视，电脑，手机等等。因此无论是否做眼保健操，现在孩子的视力肯定都不及当时的孩子。这也不是中国独有的现象，日本，韩国，新加坡等国的情况也类似。而这些国家都没有眼保健操。如果要真正研究眼保健操对于保护视力是否有效，那么就应该通过参照组来对比。研究人员应该找到两组情况类似的样本（比如同一个学校里的孩子）进行研究。这两组样本的区别除了他们是否做眼保健操以外，在其他方面越相似越好。然后通过一定时间的跟踪调查，研究人员才可能得出更加客观和可靠的研究结果。1747年，苏格兰医生James Lind在一艘名叫Salisbury的船上成功的找到了治疗坏血病的方法：就是通过吃橙子和柠檬补充维他命C。而他找到该疗法的关键就是运用了参照组实验方法。坏血病是一种非常可怕的疾病。坏血病的发病特征包括皮下出血（因此腿会变黑），极度疲劳，牙床腐烂，肌肉变软。长期出海的船员和海盗是坏血病的多发人群。James Lind使用的参照组实验是这样进行的。在Salisbury这艘船上，Lind医生找到了12个坏血病严重程度差不多的病人，将他们两人一组分成6组。对于这6组病人，Lind医生给予了他们6种不同的治疗方法，包括橙子，柠檬，苹果酒，醋和盐水等。后来Lind医生发现，食用橙子和柠檬的那组病人的恢复速度显然比其他组别要快很多，因此得出结论橙子和柠檬可以治疗坏血病。现在我们知道，橙子中的维他命C才是坏血病的克星。Lind医生通过参照组实验获得的这项重要发现，帮助挽救了成千上万的水手的生命。如果没有参照组这个重要的分析方法，Lind医生能否找到正确的解药要打一个大问号。当时，Lind医生一度怀疑坏血病的病因和啤酒有关。Lind医生观察到，每次船上的啤酒被喝光时，往往也伴之以坏血病的大面积流行。但事实上，啤酒喝光，和坏血病盛行，只是一个巧合而已。因为坏血病往往多发于长期航海旅途中，而在海上旅行久了，啤酒自然也会被喝完。如果不通过参照组方法去分析真正的原因，那么就可能得出啤酒能够治疗坏血病这样错误的结论。在我们阅读分析一些统计研究报告时，一个很重要的地方就是要看该研究有没有参照组进行对比。如果研究只是比较了几个变量之间的关系而缺乏参照组进行对照，那么该研究的结论就值得怀疑。2. 随机取样（Random Sampling）下面来讲讲“随机取样（Random Sampling）”这个问题。在现实中，我们经常面对的问题是，需要研究的样本量太大，无法收集到完整的数据。比如我们想要了解全国十几亿人的想法，或者想要知道所有沿海城市的中产阶级的消费偏好，等等。要想精确的回答这些问题，我们就需要随机抽取一些代表性样本，通过样本的表现来推测整体的特征。如何确保收集到的样本真正“随机”，是一个技术含量很高的问题。在这方面有很多失败的例子可供我们学习。1936年，美国的总统选举大战在罗斯福(FDR）和兰登（Alf Landon）之间展开。在选举投票前，当时一家非常大的调查机构Literary Digest发出了1千万张明信片来收集美国人的投票倾向。在这1千万张明信片中，Literary Digest收到了2百万份回复。在这些回复中，绝大部分人都倾向于选兰登。因此Literary Digest得出结论：兰登将赢得总统选举。当时还有另外一家新成立不久的调查公司，名叫Gallup。Gallup没有Literary Digest那么大的预算。他们只是有针对性的选了几千个受访者做了民意调查，并得出罗斯福将会赢得总统大选的结论。

缺失值的处理：缺失值是人群研究中不可避免的问题，其处理方式的差异可能在不同程度上引入偏倚，因此，详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进行评价。例如，瑞舒伐他汀试验在统计分析部分详细说明了缺失值的填补策略，包括：将二分类结局中的缺失值视为未发生事件；将生物标志物和心电图测量中的缺失值进行多重填补（multiple imputation）；为了证明缺失值处理的合理性和填补结果的稳定性，研究还比较了多重填补与完整数据（complete-case）分析的结果。2、数据的预处理：实施统计分析之前往往需要将原始数据进行预处理，如：对连续变量进行函数转换使其更接近正态分布，基于原始数据构建衍生变量，将连续变量拆分为分类变量或将分类变量的不同类别进行合并等。医学论文应报告处理原始数据的方法及依据，瑞舒伐他汀试验即在统计分析部分描述了对血液生物标志物的对数转换。3、变量分布特征描述：确定统计分析使用的变量，并针对每一个变量的分布特征进行描述，是决定研究选用何种统计分析方法的基础。医学期刊虽然普遍对此提出要求，但作者往往套用常用方法，如：连续变量符合正态分布时，采用均数（标准差）描述，否则采用中位数（四分位间距）描述；分类变量采用频数（百分比）描述等。事实上，应根据研究设计类型、统计分析目的和数据特征选择恰当的描述方法。例如，CKB选择采用年龄、性别和地区校正的均值和率来描述人群分布特征，而非简单的报告连续变量的均数和分类变量的构成比。4、主要分析（primary analysis）：指针对研究结局的统计分析，是研究论文的核心证据。因此，医学论文应详细描述主要分析的实施过程和适用性。在试验性研究中，应明确统计分析数据集、试验效应指标、相对或绝对风险及其置信区间的计算方法、以及假设检验的方法。

医学论文中统计学常见错误

医学统计中的常见误区有哪些

医学统计学是运用概率论与数理统计的原理及方法，结合医学实际，研究数字资料的搜集、整理分析与推断的一门学科。医学研究的对象主要是人体以及与人的健康有关的各种因素。下面是我为大家带来的关于医学统计中的常见误区的知识，欢迎阅读。

一，真正差异和统计学差异

常常有人和我说： P值越小，试验结果的差异就越大!而且还有依据 [P < 是有显著性差异; P < 是有极显著性差异]。

其实，这些人忽略了 n 这个样本数的作用，n 的大小会影响 P 值。但更应该澄清一下的是： P 值代表的是统计学差异，并不是真正的差异!真正的差异只能靠平均值或者频度的比较才能得到。

二，卡方检验的局限性

我们知道各组之间的计数资料的比较，要用卡方检验，但有些情况是不行的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

2，当组与组之间有不同的背景，而这些背景因子还可能会影响到组与组之间结果差异，这是就必须要用 Mantel-Haenszel 检验!

这第2条可能大家不要理解，那我就举两个例子：

1) 关于男性和女性对于不同颜色的喜好的统计学分析

但这里应该注意到年龄可能会对这个分析造成影响，这就要用Mantel-Haenszel 检验了。

***红色蓝色黄色

男性 5 7 8

女性 15 10 6

可以按大人和小孩(比如我们以15岁为分界)分层，在SPSS中要把这个因素放到[行] [列]下边的[层化]一栏里，并在统计指标选项里，选 Cochran和Mantel-Haenszel的统计量选项，这样出来的结果就可靠了!

2)两种治疗(A和B)效果的评价分析：

*****A法 B法

生存 41 54

死亡 47 31

用卡方检验 X2=; P <

但是，病人的临床分期将影响着分析结果：

********生存**************死亡

——————————***——————————

————A****B————————A*****B———

1期-----18-----21--------------------0--------0-------

2期-----23-----33-------------------13------- 8-------

3期------0------0--------------------34-------23-------

再用Mantel-Haenszel检验： X2=; P >

说明实际上A法和B法两组的统计学差异，是这个不同的分期造成的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

三，t 检验的局限性

1，我们经常用 t 检验来判别两组病人血清中某种标记物水平上的差异，但这里要注意，有一些血清标记物的水平是不能用 t 检验的!

比如：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Mann-Whitney U test (Wilcoxon U test)。

2，关于用不用配对t 检验，我个人认为当同一组样本在不同时点，不同处理方式的比较上，应该用配对t 检验。

四，ANOVA 检验的局限性

1，在2组以上计量资料样本比较时，ANOVA 检验非常常用。但这个检验只是说明了一个趋势的比较结果，并不能说明真正的统计学差异，真正的`差异还要通过每两个点的直接比较，也就是说应该在ANOVA 检验后，还必须做两两比较或多重比较，这样才能从全貌上反映出统计的全部结果。

2，既然方差分析得到差别有显著性意义的结论后，还需进行两两比较，有人认为还不如一开始就进行多次t检验更方便，其实，这种认识是不妥当的。t检验用于ANOVA的两两比较将增大第一类错误，产生假阳性，因此要采用特定的方法，在SPSS的one-way ANOVA或General linear models中操作时，Post Hoc(多重比较)对话框内有多种方法可供选择，象两两比较一般用SNK法，而多个试验组和一个对照组的比较则多用dunnett检验。

3，我们经常用 ANOVA 检验来判别几组病人血清中某种标记物水平上的差异，但这里要注意，与 t 检验一样，有一些血清标记物的水平是不能用 ANOVA 检验的!

如上所说的：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Kruskal-Wallis rank test 。

五，单元线性相关分析

有时我们常常只注意到了 P 值大小，可最重要的是 r 值!

样本数 n 对 P 值结果的影响很大，容易让我们产生错觉，其实，相关的存在与否的评价是与 r 值最直接相关的，如下：

当 P 值小于时： r 值

几乎没有相关关系

弱的相关关系

有相关关系

强相关关系

极强相关关系

P 值只是证明这个相关在统计学上是否成立!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

不是说样本小于5

而是说：在R×C表中

理论频数不应该小于1，并且1≤T≤5的格子数不应该超过总格子数的1/5，若出现上述情况可以通过以下方法：

a.增加样本含量，使理论频数增大;

b.根据专业知识，删除理论频数太小的行和列;或者将理论频数太小的行或列与性质相近的邻行和邻近列合并。

c.改用双向无序的R×C表的fishher确切概率法。

还有一点

四格表卡方检验的适应指标：(T为理论频数)

1。n≥40，且T≥5时用卡方检验基本公式。但是当p≈α应该用fisher确切概率法

2。n≥40，但是1≤T≤5时，用四格表校正公式

3。n<40，或者T<1时，用fisher四格表确切概率法

4。四格表卡方检验的连续性校正仅仅用于自由度为1的四格表尤其是n较小时。

补充几点：

1. 关于P值：P值的大小并不是各组差异的大小，而是统计学差异显著性的大小。P值越小，说明得出各组没有差异的概率越小，越有理由说明各组存在差异(可以说，P值的大小反映了做出统计结论的“理由”的大小，而不是被比较的各组的实际差异的大小，得出有意义的结论后，其差异的大小可直接通过各组的均数或率进行比较)。

2. 关于t检验和方差分析：katalyster兄上面提到的t检验及方差分析在某些时候不适用，实际上就是每种方法都有其应用条件，不服从正态分布当然不能用。对这样的资料首先可考虑变量变换(如抗体滴度等资料，为指数或幂次的关系，可用对数转换)，如变换后，服从正态分布，可用上述方法;若还不符合，则考虑非参数检验。

3. 关于相关分析：两个变量间是否存在相关关系，要看P值，而不是r值，r值用来说明相关关系的大小。当P<，才能讲两变量间存在相关关系，再看r值，r值越大，相关关系越强，反之越小;否则，P>,不能讲两变量间存在相关关系，r值毫无意义。

感谢kushuya, xiaoxiongzjh两位专家的补充和指正!之所以开这个专题，是真心想让初学者从这些<误区>中走出来!

六，Logistic regression 分析

在判断某因子对疾病的危险度时常用的方法。

1，假设要判断某因子对疾病的危险度(OR)，要了解这个OR是一个相对危险度，即是有某因子存在和没有某因子存在之间比较的OR值。

2，OR 和 RR 不一样，OR是在Logistic regression model中使用，RR是在Cox proportional hazard model中使用。

3，假设要判断某因子对疾病的危险度，要在多变量Logistic regression model中校正一些混扰因素，如常见的年龄，性别，吸烟等等，并最后得出这个 Adjusted OR。但并不是说有了这些校正，我们就可以在实验设计上就不考虑这些混扰因素，相反，必须在实验设计上就把这些混扰因素在实验组和对照组配平，光靠在多变量Logistic regression model中校正是不可靠的。

其它方法---生存分析 (Kaplan-Meier法+ Logrank法)：

我们有时在临床研究只注意到了用这种方法分析与生存相关的研究，其实，在疾病复发上也常用这种方法!前者是以生---死为判别，后者则以复发---不复发为判别。

缺失值的处理：缺失值是人群研究中不可避免的问题，其处理方式的差异可能在不同程度上引入偏倚，因此，详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进行评价。例如，瑞舒伐他汀试验在统计分析部分详细说明了缺失值的填补策略，包括：将二分类结局中的缺失值视为未发生事件；将生物标志物和心电图测量中的缺失值进行多重填补（multiple imputation）；为了证明缺失值处理的合理性和填补结果的稳定性，研究还比较了多重填补与完整数据（complete-case）分析的结果。2、数据的预处理：实施统计分析之前往往需要将原始数据进行预处理，如：对连续变量进行函数转换使其更接近正态分布，基于原始数据构建衍生变量，将连续变量拆分为分类变量或将分类变量的不同类别进行合并等。医学论文应报告处理原始数据的方法及依据，瑞舒伐他汀试验即在统计分析部分描述了对血液生物标志物的对数转换。3、变量分布特征描述：确定统计分析使用的变量，并针对每一个变量的分布特征进行描述，是决定研究选用何种统计分析方法的基础。医学期刊虽然普遍对此提出要求，但作者往往套用常用方法，如：连续变量符合正态分布时，采用均数（标准差）描述，否则采用中位数（四分位间距）描述；分类变量采用频数（百分比）描述等。事实上，应根据研究设计类型、统计分析目的和数据特征选择恰当的描述方法。例如，CKB选择采用年龄、性别和地区校正的均值和率来描述人群分布特征，而非简单的报告连续变量的均数和分类变量的构成比。4、主要分析（primary analysis）：指针对研究结局的统计分析，是研究论文的核心证据。因此，医学论文应详细描述主要分析的实施过程和适用性。在试验性研究中，应明确统计分析数据集、试验效应指标、相对或绝对风险及其置信区间的计算方法、以及假设检验的方法。

1 设计方面的问题

11 分组没有严格遵循随机化原则研究对象的分组与抽样离不开随机化原则，在足够样本的前提下，随机抽样，随机分组，明确交代随机方法，各组样本量、基本特征等。随机不等于随便，有的作者滥用随机，只要抽样或分组，一概冠以随机，不描述随机方法，把随意、随便当做随机，使研究结果不可信。

12 无对照组或不合理医务科技工作者开展研究的目的就是验证假设是否正确，没有对照，无法做出判断。有的论文无对照组，没有对比观察，所得结论没有说服力。有的论文虽设有对照组，但不是严格的随机分组，组间缺乏可比性，如非同期对照，组间性别、年龄、患病状况不一致等。在实验组和对照组的可比性方面，两组例数要基本一致，否则没有可比性。

13 样本含量过少抽取恰当的样本量，结果才有可靠性。有些文章例数太少，这样抽样误差大，导致结果不可靠。研究对象变量标准差小的，样本可以小一些。观察计数指标的样本一般不少于20～30例，计量指标的样本不少于5～10例。有的作者仅仅观察了数例患者，就得出百分之多少的有效率，显然是不恰当的。

对于对比分析，样本太少得出的结果不可靠，往往随着样本量的增大而发生变化。

2 统计学处理不恰当在进行统计学处理时，首先要明白研究资料是计数资料还是计量资料，尽管是一个常识性的问题，但仍有不少作者搞混了。先分类再计数的资料叫计数资料，如A组30例，B组32例，可根据研究目的计算出阳性率、治愈率等。测定某项具体数值的资料叫计量资料，如身高、体重、脉搏、血压等许多物理诊断和化验结果。在医学科研论文中，计数资料最常用的统计学方法是检验，计量资料最常用的是t检验。在研究设计时，就应根据研究资料的特点，决定假设检验的方法。在处理资料时，因均数和标准差是用来描述正态分布资料集中和离散趋势的指标，可否采用均数±标准差描述研究资料的分布特征，首先要看资料是否是正态分布，如果资料不是正态分布或者方差不齐时，应对资料进行转换处理，使其符合正态分布，方差齐性后采用t检验或方差分析，达不到上述要求，用秩和检验。来稿中，不少作者不考虑适用条件，盲目使用t检验。造成统计学方法使用不当，结果不可靠。更有甚者，有的作者不分计数资料还是计量资料，乱用检验或t检验，其结果可想而知。这是无统计学常识或极不负责任的表现。

有的研究资料数据庞大，只能在表格描述中用阿拉伯数字或特殊符号表示与比较对象的P值，如 P>005 ， P<005， P<001，无法一一给出具体的P值。但有的作者既不交代使用的统计学方法，也不给出具体的P值，直接列出 P<005或 P>005，认为差异有统计学意义或无统计学意义，使读者对无法判断结果的可靠性。正确的做法是写明使用的统计学方法，使用了什么统计学软件，如进行了校正检验。亦应说明。这才有说服力。

3 描述不严谨日常生活中对差异的判断与统计学上差异是否有统计学意义是两个完全不同的概念。我们主观上感觉差异不大，而经统计学处理差异可能具有统计学意义;主观上感觉差别很大，但经统计学处理差异可能有统计学意义。有相当数量的作者，在描述统计学结果时，常用差异显着或差异非常显着，易与日常生活中差异的概念混淆，使用差异有统计学意义或差异无统计学意义更为确切。

我们把检验水准设定为 a=005时就是以 P>005为界值，一般以 P>005， P<005， P<0O1 3个档次描述差异有无统计学意义即可，有的作者出现 P<0001，以强调差异的显着性。有的作者用 P>O01或 P<01来表示，是错误的， P>0O1既可能是 P>005，也可能是 P<005，二者有本质的不同。

4 统计符号使用不规范统计符号使用不规范是论文中经常出现的问题，把卡方检验中的写成x或x2，丢掉平方或把希腊字母x写成英文字母x;把均数±标准差( ±s)，丢掉z 上方的一横，既影响论文质量，又影响阅读效果。

5 统计表格不规范统计表格是论文的重要组成部分，表格是否符合统计学要求，对论文有重要影响。常见的问题有：

① 无表题;

② 表题过于简单或过于繁琐。不确切;

③ 横纵标目倒置，不符合语法规律;

④ 标目层次过多;

⑤ 线条太多。甚至左上角有斜线;

⑥ 表内同一栏目数字不对齐，小数点后位数不一致。

表题如同文章的题目，简明扼要，字数控制在15个字以内。表格左侧的标目叫横标目，相当于汉语的主语，表明相应横行内数字的涵义;纵标目位于表格的上方，相当于汉语的谓语部分，说明表格内相应纵行数字的'涵义。

主谓语倒置是统计表格最常见的错误，一般情况下主语做横标目，谓语做纵标目。统计表用三线表，即顶线、底线和隔开纵标目与表内数字的横线，必要时可在纵标目下加辅助线，其余线条一概省略。

统计表格和文字叙述相辅相成，互相补充，能用简洁的文字说明的，一般不用表格，文字描述不要和表格内容完全重复。表格要简洁明快，重点突出，让人一目了然，不要变成数字的堆彻。出现统计表前，要用简要文字描述或强调主要发现，不要把文字叙述放在表格后。

6 使用统计指标不当常见的问题是率与构成比、发病率与患病率、死亡率与病死率等的混淆。

61 把构成比当率构成比是说明事物或现象内部各构成部分的比重，构成比表示某事物内部各组成部分的比重或分布，单位为%，各组成部分之和应为100%。计算公式为：构成比=某组成部分的观察单位数/同一事物各组成的观察单位总数例如2011年某市围产儿死亡总数为18例，其中死胎7例、死产3例、新生儿死亡8例。其构成比分另0为3889%、1667%、4444%。

率为表示某种现象发生的频率或强度。常以%、/万或/lo万表示。计算公式为率=某时期内某现象实际观察单位数/同时期内可能发生该现象的观察单位总数，如共检测568名5～7岁儿童，患龋齿儿童314人，检出率5528%。

构成比和率都是相对数指标。有一篇题为某年某地区4种乙类传染病疫情分析。经数据处理后，作者认为，4种传染病的发病率依次为痢疾5453%(1546/2 835)、肝炎1619%(459/2 835)、乙脑921%(261/2 835)、流脑689% (569/28352007)。该资料是构成比，不是发病率。作者犯了以比代率的错误。

62 发病率与患病率发病率是指观察期内(年、季、月等)新发生某病的例数与同期平均人口数之比，强调在观察期内的新发病例数，常以‰、/7/或/lO万表示。其计算公式为：某病发病率等于某年(期)内所发生的新病例数除以同年(期)平均人口数乘1000%o。例如某地某年年平均人口数为2500人，白喉发病28人，该地白喉年发病率为1120%0。而患病率则指观察时点的某病的现患病例数与该时点人口数之比强调的是该观察时点上某病的现患(新、旧病例)情况，常以百分率表示。有人调查16 875人，其中男性8 674人，沙眼患者7 632人，发病率为8799%;女性8 201人，沙眼患者6 210人。发病率为7572%。这样的结论当然是错误的，其所描述的结果应该是患病率。

63 死亡率与病死率这也是两个容易混淆的指标。某病死亡率是观察人群中某病的死亡频率。常以‰、/万或/10万表示;某病病死率是某病患者中因该病而死亡的频率。

一般以百分率表示。前者反映人群因该病而死亡的频率，后者反映疾病的预后。部分作者常将某病住院病死率误为某病死亡率。如重症监护室患者死亡情况分析一文中报道，颅脑损伤32例，死亡20例，死亡率为625%;严重心衰26例，死亡9例，死亡率为346%;严重肾衰竭18例，死亡11例，死亡率为611%。很明显，作者在这里是将住院病死率误作死亡率来讨论。

我们在编辑医学论文中经常会发现存在这样那样的统计学问题，致使文章质量下降，甚至无法刊用，十分可惜。提高统计学应用水平，减少统计学差错，是作者、审稿专家和编辑共同的责任。树立严谨的科学态度，选择正确的统计学方法，对提高科研水平，确保论文质量有着十分重要的意义。

医学论文常见统计学错误

医学统计中的常见误区有哪些

医学统计学是运用概率论与数理统计的原理及方法，结合医学实际，研究数字资料的搜集、整理分析与推断的一门学科。医学研究的对象主要是人体以及与人的健康有关的各种因素。下面是我为大家带来的关于医学统计中的常见误区的知识，欢迎阅读。

一，真正差异和统计学差异

常常有人和我说： P值越小，试验结果的差异就越大!而且还有依据 [P < 是有显著性差异; P < 是有极显著性差异]。

其实，这些人忽略了 n 这个样本数的作用，n 的大小会影响 P 值。但更应该澄清一下的是： P 值代表的是统计学差异，并不是真正的差异!真正的差异只能靠平均值或者频度的比较才能得到。

二，卡方检验的局限性

我们知道各组之间的计数资料的比较，要用卡方检验，但有些情况是不行的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

2，当组与组之间有不同的背景，而这些背景因子还可能会影响到组与组之间结果差异，这是就必须要用 Mantel-Haenszel 检验!

这第2条可能大家不要理解，那我就举两个例子：

1) 关于男性和女性对于不同颜色的喜好的统计学分析

但这里应该注意到年龄可能会对这个分析造成影响，这就要用Mantel-Haenszel 检验了。

***红色蓝色黄色

男性 5 7 8

女性 15 10 6

可以按大人和小孩(比如我们以15岁为分界)分层，在SPSS中要把这个因素放到[行] [列]下边的[层化]一栏里，并在统计指标选项里，选 Cochran和Mantel-Haenszel的统计量选项，这样出来的结果就可靠了!

2)两种治疗(A和B)效果的评价分析：

*****A法 B法

生存 41 54

死亡 47 31

用卡方检验 X2=; P <

但是，病人的临床分期将影响着分析结果：

********生存**************死亡

——————————***——————————

————A****B————————A*****B———

1期-----18-----21--------------------0--------0-------

2期-----23-----33-------------------13------- 8-------

3期------0------0--------------------34-------23-------

再用Mantel-Haenszel检验： X2=; P >

说明实际上A法和B法两组的统计学差异，是这个不同的分期造成的!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

三，t 检验的局限性

1，我们经常用 t 检验来判别两组病人血清中某种标记物水平上的差异，但这里要注意，有一些血清标记物的水平是不能用 t 检验的!

比如：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Mann-Whitney U test (Wilcoxon U test)。

2，关于用不用配对t 检验，我个人认为当同一组样本在不同时点，不同处理方式的比较上，应该用配对t 检验。

四，ANOVA 检验的局限性

1，在2组以上计量资料样本比较时，ANOVA 检验非常常用。但这个检验只是说明了一个趋势的比较结果，并不能说明真正的统计学差异，真正的`差异还要通过每两个点的直接比较，也就是说应该在ANOVA 检验后，还必须做两两比较或多重比较，这样才能从全貌上反映出统计的全部结果。

2，既然方差分析得到差别有显著性意义的结论后，还需进行两两比较，有人认为还不如一开始就进行多次t检验更方便，其实，这种认识是不妥当的。t检验用于ANOVA的两两比较将增大第一类错误，产生假阳性，因此要采用特定的方法，在SPSS的one-way ANOVA或General linear models中操作时，Post Hoc(多重比较)对话框内有多种方法可供选择，象两两比较一般用SNK法，而多个试验组和一个对照组的比较则多用dunnett检验。

3，我们经常用 ANOVA 检验来判别几组病人血清中某种标记物水平上的差异，但这里要注意，与 t 检验一样，有一些血清标记物的水平是不能用 ANOVA 检验的!

如上所说的：血清标记物 PSA和AFP，在正常人的水平是很低的，而在病人则明显增加，呈现指数幂次改变，这样一来，血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!

这时应该用非参数性检验---即 Kruskal-Wallis rank test 。

五，单元线性相关分析

有时我们常常只注意到了 P 值大小，可最重要的是 r 值!

样本数 n 对 P 值结果的影响很大，容易让我们产生错觉，其实，相关的存在与否的评价是与 r 值最直接相关的，如下：

当 P 值小于时： r 值

几乎没有相关关系

弱的相关关系

有相关关系

强相关关系

极强相关关系

P 值只是证明这个相关在统计学上是否成立!!!

1，当样本有小于5的值2X2表时，必须要用 Fisher 检验才正确!

讨论：当样本有小于5的值2X2表时，必须要用 Fisher 确切概率法。

当样本有小于5的值R×C表时，将某两组合并，用pearson卡方检验。

不是说样本小于5

而是说：在R×C表中

理论频数不应该小于1，并且1≤T≤5的格子数不应该超过总格子数的1/5，若出现上述情况可以通过以下方法：

a.增加样本含量，使理论频数增大;

b.根据专业知识，删除理论频数太小的行和列;或者将理论频数太小的行或列与性质相近的邻行和邻近列合并。

c.改用双向无序的R×C表的fishher确切概率法。

还有一点

四格表卡方检验的适应指标：(T为理论频数)

1。n≥40，且T≥5时用卡方检验基本公式。但是当p≈α应该用fisher确切概率法

2。n≥40，但是1≤T≤5时，用四格表校正公式

3。n<40，或者T<1时，用fisher四格表确切概率法

4。四格表卡方检验的连续性校正仅仅用于自由度为1的四格表尤其是n较小时。

补充几点：

1. 关于P值：P值的大小并不是各组差异的大小，而是统计学差异显著性的大小。P值越小，说明得出各组没有差异的概率越小，越有理由说明各组存在差异(可以说，P值的大小反映了做出统计结论的“理由”的大小，而不是被比较的各组的实际差异的大小，得出有意义的结论后，其差异的大小可直接通过各组的均数或率进行比较)。

2. 关于t检验和方差分析：katalyster兄上面提到的t检验及方差分析在某些时候不适用，实际上就是每种方法都有其应用条件，不服从正态分布当然不能用。对这样的资料首先可考虑变量变换(如抗体滴度等资料，为指数或幂次的关系，可用对数转换)，如变换后，服从正态分布，可用上述方法;若还不符合，则考虑非参数检验。

3. 关于相关分析：两个变量间是否存在相关关系，要看P值，而不是r值，r值用来说明相关关系的大小。当P<，才能讲两变量间存在相关关系，再看r值，r值越大，相关关系越强，反之越小;否则，P>,不能讲两变量间存在相关关系，r值毫无意义。

感谢kushuya, xiaoxiongzjh两位专家的补充和指正!之所以开这个专题，是真心想让初学者从这些<误区>中走出来!

六，Logistic regression 分析

在判断某因子对疾病的危险度时常用的方法。

1，假设要判断某因子对疾病的危险度(OR)，要了解这个OR是一个相对危险度，即是有某因子存在和没有某因子存在之间比较的OR值。

2，OR 和 RR 不一样，OR是在Logistic regression model中使用，RR是在Cox proportional hazard model中使用。

3，假设要判断某因子对疾病的危险度，要在多变量Logistic regression model中校正一些混扰因素，如常见的年龄，性别，吸烟等等，并最后得出这个 Adjusted OR。但并不是说有了这些校正，我们就可以在实验设计上就不考虑这些混扰因素，相反，必须在实验设计上就把这些混扰因素在实验组和对照组配平，光靠在多变量Logistic regression model中校正是不可靠的。

其它方法---生存分析 (Kaplan-Meier法+ Logrank法)：

我们有时在临床研究只注意到了用这种方法分析与生存相关的研究，其实，在疾病复发上也常用这种方法!前者是以生---死为判别，后者则以复发---不复发为判别。

“社会统计学与数理统计学的理论统一”的重大意义统计学家王见定教授指出：社会统计学描述的是变量，数理统计学描述的是随机变量，而变量和随机变量是两个既有区别又统计学家王见定教授著有联系，且在一定条件下可以相互转化的数学概念。王见定教授的这一论述在数学上就是一个巨大的发现,我们知道“变量”的概念是17世纪由著名数学家笛卡尔首先提出，而“随机变量”的概念是20世纪30年代以后由苏联学者首先提出，两个概念的提出相差3个世纪。截至到王见定教授，世界上还没有第二个人提出变量和随机变量两者的联系、区别以及相互的转化。我们知道变量的提出造就了一系列的函数论、方程论、微积分等重大数学学科的产生和发展；而随机变量的提出则奠定了概率论和数理统计等学科的理论基础和促进了它们的蓬勃发展。可见变量、随机变量概念的提出其价值何等重大，从而把王见定教授在世界上首次提出变量、随机变量的联系、区别以及相应的转化的意义称为巨大、也就不视为过。下面我们回到“社会统计学和数理统计学的统一”理论上来。王见定教授指出社会统计学描述的是变量，数理统计学描述的是随机变量，这样王见定教授准确地界定了社会统计学与数理统计学各自研究的范围，以及在一定条件下可以相互转化的关系，这是对统计学的最大贡献。它结束了近400年来几十种甚至上百种以上五花八门种类的统计学的混战局面，使它们回到正确的轨道上来。由于变量不断地出现且永远地继续下去，所以社会统计学不仅不会消亡，而且会不断发展状大。当然数理统计学也会由于随机变量的不断出现同样发展状大。但是，对随机变量的研究一般来说比对变量的研究复杂的多，而且直到今天数理统计的研究尚处在较低的水平，且使用起来比较复杂；再从长远的研究来看，对随机变量的研究最终会逐步转化为对变量的研究，这与我们通常研究复杂问题研究转化为若干简单问题的研究的道理是一样的。既然社会统计学描述的是变量，而变量描述的范围是极其宽广的，绝非某些数理统计学者所云：社会统计学只作简单的加、减、乘、除。从理论上讲，社会统计学应该复盖除了数理统计学之外的绝大多数数学学科的运作。所以统计学家王见定教授提出的“社会统计学与数理统计学统一”理论，从根本上纠正了统计学界长期存在的低估社会统计学的错误学说，并从理论上和应用上论证了社会统计学的广阔前景。[2] [6][5]

医学论文

医学论文中常见统计错误