医学论文统计方法选择

缺失值的处理：缺失值是人群研究中不可避免的问题，其处理方式的差异可能在不同程度上引入偏倚，因此，详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进行评价。例如，瑞舒伐他汀试验在统计分析部分详细说明了缺失值的填补策略，包括：将二分类结局中的缺失值视为未发生事件；将生物标志物和心电图测量中的缺失值进行多重填补（multiple imputation）；为了证明缺失值处理的合理性和填补结果的稳定性，研究还比较了多重填补与完整数据（complete-case）分析的结果。2、数据的预处理：实施统计分析之前往往需要将原始数据进行预处理，如：对连续变量进行函数转换使其更接近正态分布，基于原始数据构建衍生变量，将连续变量拆分为分类变量或将分类变量的不同类别进行合并等。医学论文应报告处理原始数据的方法及依据，瑞舒伐他汀试验即在统计分析部分描述了对血液生物标志物的对数转换。3、变量分布特征描述：确定统计分析使用的变量，并针对每一个变量的分布特征进行描述，是决定研究选用何种统计分析方法的基础。医学期刊虽然普遍对此提出要求，但作者往往套用常用方法，如：连续变量符合正态分布时，采用均数（标准差）描述，否则采用中位数（四分位间距）描述；分类变量采用频数（百分比）描述等。事实上，应根据研究设计类型、统计分析目的和数据特征选择恰当的描述方法。例如，CKB选择采用年龄、性别和地区校正的均值和率来描述人群分布特征，而非简单的报告连续变量的均数和分类变量的构成比。4、主要分析（primary analysis）：指针对研究结局的统计分析，是研究论文的核心证据。因此，医学论文应详细描述主要分析的实施过程和适用性。在试验性研究中，应明确统计分析数据集、试验效应指标、相对或绝对风险及其置信区间的计算方法、以及假设检验的方法。

医学统计方法该如何选择

基本的医学统计方法有很多，如样本均数与已知样本均数比较、两样本均数比较、多个样本均数的比较、两个样本率的比较、多个样本率的比较、两组或多组构成比的比较、非参数检验、多因素资料的方差分析等。如果对于统计方法没有一个整体的把握和认识，可能就会出现误用滥用统计方法的情况。下面是我为大家带来的.关于医学统计方法该如何选择的知识，欢迎阅读。

统计学的基本概念

1、小概率事件

如果事先假定发生概率最多为的事件为小概率事件，那么根据小概率事件原理，即“小概率事件在一次随机试验中几乎不可能发生”。假设检验就是根据小概率事件原理对该假设进行推断。

2、非参数统计

统计学上，对总体的分布不做假设或仅作非常一般性假设条件下的统计推断方法称为“非参数统计”。非参数统计方法很多，应用较多的包括

配对设计资料的Wilcoxon符号秩和检验、单样本的Wilcoxon符号秩和检验、完全随机设计两独立样本的Wilcoxon符号秩和检验、完全随机设计多个独立样本的Kruskal-Wallis秩和检验和随机化区组设计资料的Friedman秩和检验。

3、实验研究三要素

实验研究三要素包括：处理因素、实验对象、实验效应。处理因素有单因素、多因素;实验对象的设计方式有完全随机、配对或随机区组;实验效应通过观察指标来表达，而观察指标又可分为计量、计数或等级资料。这三者的不同组合决定了选用不同的统计方法。

单变量统计方法选择的一般原则

1.影响因素是单因素还是多因素

2.判断拟分析的资料属于哪种类型：计量、计数还是等级资料

3.资料是单一样本、两组样本还是多组样本

4.判断资料所属的设计方式，是完全随机、配对还是随机区组

5.判断资料是否符合拟采用的统计分析方法的应用条件，必要时可考虑变量变换

多变量统计方法的选择

在医学研究中，特别是在临床研究中，每个观察对象记录的观察指标往往不止1个，即有多个反应变量。分析变量间的相互关系是探索疾病病因的重要途径，多参数统计方法常用于这类研究问题的分析。

在医学科研中，常用的多参数统计方法有3种：多元线性回归、Logistic回归分析和生存分析。

多元线性回归要求应变量是连续型变量，但是在医学研究中经常遇到的应变量为非连续的分类变量，如某种疾病的患病与否，器官移植之后是生存还是死亡。

研究分类应变量与诸多自变量间的相互关系，进行疾病的病因分析常选用Logistic回归分析。

在医学随访研究中，不仅要看是否出现了某种结局(如器官移植后是否死亡)，还要考虑出现这些结局所经历的时间长短。生存分析就是将观察结局和出现这一结局所经历的时间结合起来分析的一种统计分析方法。

秋风送爽，也给我们送来了刘岭教授的统计说说第五期。这一期的统计学方法之选择大家一定要认真学起来，说不定马上你就会用到了。编者语针对常用的基本统计学方法，一般而言说的就是t检验、单因素方差分析和卡方检验，这也是大家在写论文、阅读论文时经常遇到的统计学方法（几乎每篇文章都会涉及这一种或几种方法），那到底该采用何种统计学方法呢？今天我们就此来聊聊。一、拿到数据开始分析之前，一定要进行数据类型的划分（图1），因为不同数据类型资料，描述的方式不一样，统计学方法也不一样。图1 统计资料的类型举个例子（表1）：表1 某地2002年735例65岁以上老年人健康检查记录二、各种类型资料的统计分析（描述与统计推断）1.计量资料特点：每个观察单位的观察值之间有量的区别，有单位；描述形式：最常见采用“X±S”（一般文献中经常见到），用算数均数描述其平均水平，用标准差描述其离散程度。如果遇到数据“特别变态”（特别是标准差大于算数均数），就采用Md(P25,P75)（Md为中位数，P25和P75为四分位数）（表2）。正态分布检验请大家复习：医学科研课堂丨统计说说（三）：你所应该了解的正态、方差齐性检验表2 计量资料常用统计指标的特点及其应用场合统计推断方法：一般分为单因素和多因素两种。单因素分析方法分析要点：一是划清数据类型（计量资料）；二是明确试验设计类型（完全随机设计？几组样本？）；三是注意所用方法的应用条件；四是满足正态方差齐性时采用t检验（注意t检验有三种形式哦！）或单因素方差分析，不满足时采用秩和检验（图2）。图2 计量资料统计方法的正确选择提醒两点：① 如果样本数据不服从正态分布的话，那就只能用非参数检验（秩和检验），但其检验效能低于参数检验（t检验或方差分析）。所谓检验效能低就是本身有差异，却没有能力发现其差异。② 如果是两组以上样本的数据时，不能采用t检验（会导致假阳性错误概率增加），应该采用方差分析。若方差分析的P<，需再进一步两两比较，常用的方法为LSD法或SNK法（注意依旧不能采用t检验）。在上两讲内容中我们已经学过t检验（医学科研课堂丨统计说说（二）：你的t检验做对了吗？）和方差分析（医学科研课堂丨统计说说（四）：统计学方法之灵魂—方差分析）了，至于秩和检验，我们以后会逐步介绍滴。多因素分析一般采用回归分析，主要是线性回归分析，以后会给大家介绍此方法。2.计数资料特点：无序分类，同类别中各观察单位之间没有量的差别，但各类别间有质的不同，各类别互不相容。其中二分类一定是计数资料（例如性别只有男/女之分，是否继发某种疾病只有继发/未继发之分），而多分类满足分类在性质上没有程度等级上的差别，即为计数资料（例如婚姻状况包括未婚、已婚、离异、丧偶，就属于多分类，但各分类没有程度等级差别，因此为计数资料，尿糖定性检测结果包括-、+、++、+++、++++，属于具有程度等级差别的多分类资料，就不属于计数资料，属于等级资料了）。描述形式：最常见采用“例数（%）”（一般文献中经常见到），主要要分清构成比（结构相对数）和率（强度相对数）的差别（表3）。而且在应用时，分母（就是样本量啦）一般不宜过小，分母太小不足以反映数据的客观事实，也不稳定。表3 计数资料常用统计指标的特点及其应用场合比如说：1.某地肺癌患者中男性A例，女性B例，则当地肺癌患者的性别比为A/B就是“比”。2.某次研究共检出了致病菌3种，总株数为A+B+C，其中一种致病菌检出株数为A，那么A/（A+B+C）就是构成比，即该种致病菌占总致病菌的比重或分布。3.某研究对患者（总例数为B）进行治疗，结果治愈的患者例数为A，则A/B即为率（可以理解为治愈率）。统计推断方法：一般分为单因素和多因素两种。单因素分析方法分析要点：一是划清数据类型（计数资料）；二是明确试验设计类型（完全随机设计？几组样本？）；三是注意所用方法的应用条件；四是多样本率比较，若卡方检验的P<，需再进一步两两比较，并进行Bonferroni校正，以控制假阳性（图3）。图3 计数资料统计方法的正确选择提醒两点：① 构成比是以100作为基数，各构成部分所占的比重之和必须为100%，故某组成部分所占比重的增减必影响其它组成部分的比重；② 构成比和率在实际应用时容易混淆，主要区别在分母上，所以应正确选择分母。多因素分析一般采用回归分析，主要是Logistic回归分析，以后会给大家介绍此方法。3.等级资料特点：属于多分类资料，满足多分类在性质上有程度等级上的差别，各分类属性按一定顺序排列（有序），即为等级资料。描述形式：最常见采用“例数（%）”（一般文献中经常见到），这和计数资料的描述大体相同，主要区别在于多个分类排列时一定要按照顺序进行（从小到大或从弱到强）。统计推断方法：等级资料的统计分析方法在单因素分析中采用非参数检验（秩和检验），当然对于双向有序R×C资料，也就说分组变量和结局变量都是有序（等级）的情况，构成比的比较采用卡方检验，程度的比较采用秩和检验，趋势关联性的比较用秩相关（也称等级相关）。多因素分析中采用有序Logistic回归。注意：分类变量（计数资料和等级资料）在软件分析操作时，要适当数量化处理（赋值），赋值情况会直接影响统计分析结果的解释。最后用下面这张图来总结基本统计学方法的选择（图4）。图4 常用基本统计学方法的正确选择今天的内容就到这里，同学们多多复习，有什么问题和不懂的可以在下面留言，我们会请刘岭教授一一解答。好了，让我们期待下一期吧！撰稿：刘岭约稿编辑：刘芹排版：毕丽审核：王东专家简介刘岭：陆军军医大学卫生统计学教研室副教授，主要从事卫生统计学教学、科研工作。担任中华卫生信息学会第八届统计理论与方法专业委员会委员，重庆市预防医学卫生统计专业委员会副主任委员，并担任《第三军医大学学报》等多家杂志的编委、统计审稿专家。历史推荐医学科研课堂丨统计说说（四）：统计学方法之灵魂—方差分析医学科研课堂丨统计说说（三）：你所应该了解的正态、方差齐性检验医学科研课堂丨统计说说（二）：你的t检验做对了吗？医学科研课堂丨统计说说（一）：样本量估算是个什么东东？

正确的统计学分析一定要建立在明确的研究目的和研究设计的基础之上，那些事先没有研究目的和研究设计，事后找来一堆数据进行统计分析都是不可取的。在医学论文的撰、编、审、读过程中经常遇到的问题是研究的题目与课题设计、论文内容不符，包括文章的方法解决不了论文的目的、文章的结果说明不了论文的题目、文章的讨论偏离了论文的主题；还有是目的不明确、设计不合理。如题目过小，论文不够字数，而一些无关紧要的变量指标或结果被分析被讨论；又如题目过大，论文的全部内容不足以说明研究的目的，使论文的论点难以立足。所以，合理明确的论文题目或目的以及研究设计方案是撰、编、审、读者应当关注的首要问题。此外，样本含量是否满足，抽样是否随机，偏倚是否控制等，也是不可忽视的问题。2、建好分析用的数据库建好数据库是正确统计分析的前提和基础，甚至决定了论文分析结果的成败。对于编、审、读者来讲，一般由于篇幅的限制，往往得不到数据库数据，而只有作者在数据库数据基础上经统计描述计算后给出的诸如各指标均数 x、标准差 s 或中位数 M、百分位数 Px 的“二手”数据，或将研究对象小或特征属性分组，清点各组观察单位出现的个数或频数的频数表数据等。无论是否能够得到数据库数据，作者在统计分析过程中一定依据数据库数据进行计算，得出结果。如果对“二手”数据或频数表数据的结果等存在疑惑，编辑、审稿专家或读者有权要求作者提供数据库数据以检查其完整性、准确性和真实性，确保研究数据的质量。假若在投稿须知中对数据库数据作出必要的要求，无疑对于保证刊物的发表质量有着积极的意义

医学论文统计学方法选择

常用的医学科研统计方法有：计量资料的统计方法可分为参数检验法和非参数检验法。参数检验法主要为t检验和方差分析（ANOVN，即F检验）等，两组间均数比较时常用t检验和u检验，两组以上均数比较时常用方差分析；非参数检验法主要包括秩和检验等。t检验可分为单组设计资料的t检验、配对设计资料的；方差分析可用于两个以上样本均数的比较，应用该方法时，要求各个样本是相互独立的随机样本，各样本来自正态总体且各处理组总体方差齐性

科学研究很早就已经从简单的定性分析深入到细致的定量分析，科研工作者要面对大量的数据分析问题，科研数据的统计分析结果直接影响着论文的结果分析。在医学科研写作中，实验设计的方法直接决定了数据采取何种统计学方法，因为每种统计方法都要求数据满足一定的前提和假定，所以论文在实验设计的时候，就要考虑到以后将采取哪种数据统计方法更可靠。医学统计方法的错误千差万别，其中最主要的就是统计方法和实验设计不符，造成数据统计结果不可靠。下面，医刊汇编译列举一些常见的可以避免的问题和错误：打开百度APP，查看更多高清图片一、数据统计分析方法使用错误或不当。医学论文中，最常见的此类错误就是实验设计是多组研究，需要对数据使用方差分析的时候，而作者都采用了两样本的均数检验。二、统计方法阐述不清楚。在同一篇医学论文中，不同数据要采取不同统计处理方法，这就需要作者清楚地描述出每个统计值采用的是何种统计学方法，但在许多使用一种以上数据统计分析方法的医学论文中，作者往往只是简单地把论文采用的数据统计方法进行了整体罗列，并没有对每个数据结果分析分别交代具体的统计方法，这就很难让读者确认某一具体结果作者到底采用的是何种数据分析方法。三、统计表和统计图缺失或者重复。统计表或者统计图可以直观地让读者了解统计结果。一个好的统计表或统计图应该具有独立性，即作者即使不看文章内容，也可从统计表或统计图中推断出正确的实验结果。而一些医学论文只是简单地堆砌了大量的统计数字，缺乏直观的统计图或表；或者虽然也列出了统计表或统计图，但表或图内缺项很多，让读者难以从中提取太多有用的信息。另外，也有作者为了增加文章篇幅，同时列出统计表和统计图，造成不必要的浪费和重复。统计表的优点是详细，便于分析研究各类问题。统计图(尤其是条形统计图)的优点是能够直观反映变量的数量差异。医学论文中对数据统计结果的解释，最常见的两个错误就是过度信赖P值(结果可信程度的一个递减指标)和回避阴性结果。前一个错误的原因是因为一些作者对P值含义理解有误，把数据的统计学意义和研究的临床意义混淆。所以医学研究人员一定要注意不能单纯依靠统计值武断地得出一些结论，一定要把统计结果和临床实践结合在一起，这样才会避免出现类似的错误。至于回避阴性结果，只提供阳性结果，是因为不少作者在研究设计时，难以摆脱的一种单向的思维定式就是主观地先认定自己所预想的某种结果结论。在归纳某种结果原因时，从一个方向的实验就下完美的结论，尤其是如果这个结论可能对实际情形非常有意义时。这样的思维定势过于强调统计差异的显著性，有时会刻意回避报道差异的不显著结果，不思考和探究差异不显著的原因和意义，反而会因此忽视一些重大的科学发现。

医学统计方法该如何选择

基本的医学统计方法有很多，如样本均数与已知样本均数比较、两样本均数比较、多个样本均数的比较、两个样本率的比较、多个样本率的比较、两组或多组构成比的比较、非参数检验、多因素资料的方差分析等。如果对于统计方法没有一个整体的把握和认识，可能就会出现误用滥用统计方法的情况。下面是我为大家带来的.关于医学统计方法该如何选择的知识，欢迎阅读。

统计学的基本概念

1、小概率事件

如果事先假定发生概率最多为的事件为小概率事件，那么根据小概率事件原理，即“小概率事件在一次随机试验中几乎不可能发生”。假设检验就是根据小概率事件原理对该假设进行推断。

2、非参数统计

统计学上，对总体的分布不做假设或仅作非常一般性假设条件下的统计推断方法称为“非参数统计”。非参数统计方法很多，应用较多的包括

配对设计资料的Wilcoxon符号秩和检验、单样本的Wilcoxon符号秩和检验、完全随机设计两独立样本的Wilcoxon符号秩和检验、完全随机设计多个独立样本的Kruskal-Wallis秩和检验和随机化区组设计资料的Friedman秩和检验。

3、实验研究三要素

实验研究三要素包括：处理因素、实验对象、实验效应。处理因素有单因素、多因素;实验对象的设计方式有完全随机、配对或随机区组;实验效应通过观察指标来表达，而观察指标又可分为计量、计数或等级资料。这三者的不同组合决定了选用不同的统计方法。

单变量统计方法选择的一般原则

1.影响因素是单因素还是多因素

2.判断拟分析的资料属于哪种类型：计量、计数还是等级资料

3.资料是单一样本、两组样本还是多组样本

4.判断资料所属的设计方式，是完全随机、配对还是随机区组

5.判断资料是否符合拟采用的统计分析方法的应用条件，必要时可考虑变量变换

多变量统计方法的选择

在医学研究中，特别是在临床研究中，每个观察对象记录的观察指标往往不止1个，即有多个反应变量。分析变量间的相互关系是探索疾病病因的重要途径，多参数统计方法常用于这类研究问题的分析。

在医学科研中，常用的多参数统计方法有3种：多元线性回归、Logistic回归分析和生存分析。

多元线性回归要求应变量是连续型变量，但是在医学研究中经常遇到的应变量为非连续的分类变量，如某种疾病的患病与否，器官移植之后是生存还是死亡。

研究分类应变量与诸多自变量间的相互关系，进行疾病的病因分析常选用Logistic回归分析。

在医学随访研究中，不仅要看是否出现了某种结局(如器官移植后是否死亡)，还要考虑出现这些结局所经历的时间长短。生存分析就是将观察结局和出现这一结局所经历的时间结合起来分析的一种统计分析方法。

医学论文统计方法的选择

常用的医学科研统计方法有：计量资料的统计方法可分为参数检验法和非参数检验法。参数检验法主要为t检验和方差分析（ANOVN，即F检验）等，两组间均数比较时常用t检验和u检验，两组以上均数比较时常用方差分析；非参数检验法主要包括秩和检验等。t检验可分为单组设计资料的t检验、配对设计资料的；方差分析可用于两个以上样本均数的比较，应用该方法时，要求各个样本是相互独立的随机样本，各样本来自正态总体且各处理组总体方差齐性

科学研究很早就已经从简单的定性分析深入到细致的定量分析，科研工作者要面对大量的数据分析问题，科研数据的统计分析结果直接影响着论文的结果分析。在医学科研写作中，实验设计的方法直接决定了数据采取何种统计学方法，因为每种统计方法都要求数据满足一定的前提和假定，所以论文在实验设计的时候，就要考虑到以后将采取哪种数据统计方法更可靠。医学统计方法的错误千差万别，其中最主要的就是统计方法和实验设计不符，造成数据统计结果不可靠。下面，医刊汇编译列举一些常见的可以避免的问题和错误：打开百度APP，查看更多高清图片一、数据统计分析方法使用错误或不当。医学论文中，最常见的此类错误就是实验设计是多组研究，需要对数据使用方差分析的时候，而作者都采用了两样本的均数检验。二、统计方法阐述不清楚。在同一篇医学论文中，不同数据要采取不同统计处理方法，这就需要作者清楚地描述出每个统计值采用的是何种统计学方法，但在许多使用一种以上数据统计分析方法的医学论文中，作者往往只是简单地把论文采用的数据统计方法进行了整体罗列，并没有对每个数据结果分析分别交代具体的统计方法，这就很难让读者确认某一具体结果作者到底采用的是何种数据分析方法。三、统计表和统计图缺失或者重复。统计表或者统计图可以直观地让读者了解统计结果。一个好的统计表或统计图应该具有独立性，即作者即使不看文章内容，也可从统计表或统计图中推断出正确的实验结果。而一些医学论文只是简单地堆砌了大量的统计数字，缺乏直观的统计图或表；或者虽然也列出了统计表或统计图，但表或图内缺项很多，让读者难以从中提取太多有用的信息。另外，也有作者为了增加文章篇幅，同时列出统计表和统计图，造成不必要的浪费和重复。统计表的优点是详细，便于分析研究各类问题。统计图(尤其是条形统计图)的优点是能够直观反映变量的数量差异。医学论文中对数据统计结果的解释，最常见的两个错误就是过度信赖P值(结果可信程度的一个递减指标)和回避阴性结果。前一个错误的原因是因为一些作者对P值含义理解有误，把数据的统计学意义和研究的临床意义混淆。所以医学研究人员一定要注意不能单纯依靠统计值武断地得出一些结论，一定要把统计结果和临床实践结合在一起，这样才会避免出现类似的错误。至于回避阴性结果，只提供阳性结果，是因为不少作者在研究设计时，难以摆脱的一种单向的思维定式就是主观地先认定自己所预想的某种结果结论。在归纳某种结果原因时，从一个方向的实验就下完美的结论，尤其是如果这个结论可能对实际情形非常有意义时。这样的思维定势过于强调统计差异的显著性，有时会刻意回避报道差异的不显著结果，不思考和探究差异不显著的原因和意义，反而会因此忽视一些重大的科学发现。

医学统计方法该如何选择

基本的医学统计方法有很多，如样本均数与已知样本均数比较、两样本均数比较、多个样本均数的比较、两个样本率的比较、多个样本率的比较、两组或多组构成比的比较、非参数检验、多因素资料的方差分析等。如果对于统计方法没有一个整体的把握和认识，可能就会出现误用滥用统计方法的情况。下面是我为大家带来的.关于医学统计方法该如何选择的知识，欢迎阅读。

统计学的基本概念

1、小概率事件

如果事先假定发生概率最多为的事件为小概率事件，那么根据小概率事件原理，即“小概率事件在一次随机试验中几乎不可能发生”。假设检验就是根据小概率事件原理对该假设进行推断。

2、非参数统计

统计学上，对总体的分布不做假设或仅作非常一般性假设条件下的统计推断方法称为“非参数统计”。非参数统计方法很多，应用较多的包括

配对设计资料的Wilcoxon符号秩和检验、单样本的Wilcoxon符号秩和检验、完全随机设计两独立样本的Wilcoxon符号秩和检验、完全随机设计多个独立样本的Kruskal-Wallis秩和检验和随机化区组设计资料的Friedman秩和检验。

3、实验研究三要素

实验研究三要素包括：处理因素、实验对象、实验效应。处理因素有单因素、多因素;实验对象的设计方式有完全随机、配对或随机区组;实验效应通过观察指标来表达，而观察指标又可分为计量、计数或等级资料。这三者的不同组合决定了选用不同的统计方法。

单变量统计方法选择的一般原则

1.影响因素是单因素还是多因素

2.判断拟分析的资料属于哪种类型：计量、计数还是等级资料

3.资料是单一样本、两组样本还是多组样本

4.判断资料所属的设计方式，是完全随机、配对还是随机区组

5.判断资料是否符合拟采用的统计分析方法的应用条件，必要时可考虑变量变换

多变量统计方法的选择

在医学研究中，特别是在临床研究中，每个观察对象记录的观察指标往往不止1个，即有多个反应变量。分析变量间的相互关系是探索疾病病因的重要途径，多参数统计方法常用于这类研究问题的分析。

在医学科研中，常用的多参数统计方法有3种：多元线性回归、Logistic回归分析和生存分析。

多元线性回归要求应变量是连续型变量，但是在医学研究中经常遇到的应变量为非连续的分类变量，如某种疾病的患病与否，器官移植之后是生存还是死亡。

研究分类应变量与诸多自变量间的相互关系，进行疾病的病因分析常选用Logistic回归分析。

在医学随访研究中，不仅要看是否出现了某种结局(如器官移植后是否死亡)，还要考虑出现这些结局所经历的时间长短。生存分析就是将观察结局和出现这一结局所经历的时间结合起来分析的一种统计分析方法。

医学论文统计学方法的选择

秋风送爽，也给我们送来了刘岭教授的统计说说第五期。这一期的统计学方法之选择大家一定要认真学起来，说不定马上你就会用到了。编者语针对常用的基本统计学方法，一般而言说的就是t检验、单因素方差分析和卡方检验，这也是大家在写论文、阅读论文时经常遇到的统计学方法（几乎每篇文章都会涉及这一种或几种方法），那到底该采用何种统计学方法呢？今天我们就此来聊聊。一、拿到数据开始分析之前，一定要进行数据类型的划分（图1），因为不同数据类型资料，描述的方式不一样，统计学方法也不一样。图1 统计资料的类型举个例子（表1）：表1 某地2002年735例65岁以上老年人健康检查记录二、各种类型资料的统计分析（描述与统计推断）1.计量资料特点：每个观察单位的观察值之间有量的区别，有单位；描述形式：最常见采用“X±S”（一般文献中经常见到），用算数均数描述其平均水平，用标准差描述其离散程度。如果遇到数据“特别变态”（特别是标准差大于算数均数），就采用Md(P25,P75)（Md为中位数，P25和P75为四分位数）（表2）。正态分布检验请大家复习：医学科研课堂丨统计说说（三）：你所应该了解的正态、方差齐性检验表2 计量资料常用统计指标的特点及其应用场合统计推断方法：一般分为单因素和多因素两种。单因素分析方法分析要点：一是划清数据类型（计量资料）；二是明确试验设计类型（完全随机设计？几组样本？）；三是注意所用方法的应用条件；四是满足正态方差齐性时采用t检验（注意t检验有三种形式哦！）或单因素方差分析，不满足时采用秩和检验（图2）。图2 计量资料统计方法的正确选择提醒两点：① 如果样本数据不服从正态分布的话，那就只能用非参数检验（秩和检验），但其检验效能低于参数检验（t检验或方差分析）。所谓检验效能低就是本身有差异，却没有能力发现其差异。② 如果是两组以上样本的数据时，不能采用t检验（会导致假阳性错误概率增加），应该采用方差分析。若方差分析的P<，需再进一步两两比较，常用的方法为LSD法或SNK法（注意依旧不能采用t检验）。在上两讲内容中我们已经学过t检验（医学科研课堂丨统计说说（二）：你的t检验做对了吗？）和方差分析（医学科研课堂丨统计说说（四）：统计学方法之灵魂—方差分析）了，至于秩和检验，我们以后会逐步介绍滴。多因素分析一般采用回归分析，主要是线性回归分析，以后会给大家介绍此方法。2.计数资料特点：无序分类，同类别中各观察单位之间没有量的差别，但各类别间有质的不同，各类别互不相容。其中二分类一定是计数资料（例如性别只有男/女之分，是否继发某种疾病只有继发/未继发之分），而多分类满足分类在性质上没有程度等级上的差别，即为计数资料（例如婚姻状况包括未婚、已婚、离异、丧偶，就属于多分类，但各分类没有程度等级差别，因此为计数资料，尿糖定性检测结果包括-、+、++、+++、++++，属于具有程度等级差别的多分类资料，就不属于计数资料，属于等级资料了）。描述形式：最常见采用“例数（%）”（一般文献中经常见到），主要要分清构成比（结构相对数）和率（强度相对数）的差别（表3）。而且在应用时，分母（就是样本量啦）一般不宜过小，分母太小不足以反映数据的客观事实，也不稳定。表3 计数资料常用统计指标的特点及其应用场合比如说：1.某地肺癌患者中男性A例，女性B例，则当地肺癌患者的性别比为A/B就是“比”。2.某次研究共检出了致病菌3种，总株数为A+B+C，其中一种致病菌检出株数为A，那么A/（A+B+C）就是构成比，即该种致病菌占总致病菌的比重或分布。3.某研究对患者（总例数为B）进行治疗，结果治愈的患者例数为A，则A/B即为率（可以理解为治愈率）。统计推断方法：一般分为单因素和多因素两种。单因素分析方法分析要点：一是划清数据类型（计数资料）；二是明确试验设计类型（完全随机设计？几组样本？）；三是注意所用方法的应用条件；四是多样本率比较，若卡方检验的P<，需再进一步两两比较，并进行Bonferroni校正，以控制假阳性（图3）。图3 计数资料统计方法的正确选择提醒两点：① 构成比是以100作为基数，各构成部分所占的比重之和必须为100%，故某组成部分所占比重的增减必影响其它组成部分的比重；② 构成比和率在实际应用时容易混淆，主要区别在分母上，所以应正确选择分母。多因素分析一般采用回归分析，主要是Logistic回归分析，以后会给大家介绍此方法。3.等级资料特点：属于多分类资料，满足多分类在性质上有程度等级上的差别，各分类属性按一定顺序排列（有序），即为等级资料。描述形式：最常见采用“例数（%）”（一般文献中经常见到），这和计数资料的描述大体相同，主要区别在于多个分类排列时一定要按照顺序进行（从小到大或从弱到强）。统计推断方法：等级资料的统计分析方法在单因素分析中采用非参数检验（秩和检验），当然对于双向有序R×C资料，也就说分组变量和结局变量都是有序（等级）的情况，构成比的比较采用卡方检验，程度的比较采用秩和检验，趋势关联性的比较用秩相关（也称等级相关）。多因素分析中采用有序Logistic回归。注意：分类变量（计数资料和等级资料）在软件分析操作时，要适当数量化处理（赋值），赋值情况会直接影响统计分析结果的解释。最后用下面这张图来总结基本统计学方法的选择（图4）。图4 常用基本统计学方法的正确选择今天的内容就到这里，同学们多多复习，有什么问题和不懂的可以在下面留言，我们会请刘岭教授一一解答。好了，让我们期待下一期吧！撰稿：刘岭约稿编辑：刘芹排版：毕丽审核：王东专家简介刘岭：陆军军医大学卫生统计学教研室副教授，主要从事卫生统计学教学、科研工作。担任中华卫生信息学会第八届统计理论与方法专业委员会委员，重庆市预防医学卫生统计专业委员会副主任委员，并担任《第三军医大学学报》等多家杂志的编委、统计审稿专家。历史推荐医学科研课堂丨统计说说（四）：统计学方法之灵魂—方差分析医学科研课堂丨统计说说（三）：你所应该了解的正态、方差齐性检验医学科研课堂丨统计说说（二）：你的t检验做对了吗？医学科研课堂丨统计说说（一）：样本量估算是个什么东东？

刚在那个什么创新医学网上看见过医学论文写作辅导的文章这个知道是不是你要的答案统计资料的显著性检验(significant test)方法的选择是医学论文中常常遇见的问题，退稿原因中常有显著性检验方法选择不当。如t检验、u检验、χ2检验等，虽然各有其应用范围和要求，但也其共同之处。作者可根据统计资料的类型，选择一种或几种检验方法。但当作者在获得一组、两组或两组以上的数据资料时，选择何种显著性检验，是至关重要的问题。不同的资料类型其统计指标、统计检验的方法是不同的，见表1。医学生物研究中，许多指标都是服从正态分布(u分布)的，而随着样本含量加大或自由度增大，t分布、χ2分布、F分布都趋向于正态分布见图1、图2。在《中华创伤杂志》第12卷1～6期和增刊中文章所涉及的统计方法(表2)，表明了正态分布的广泛性、常见性。故当作者获得数据资料后，首先应进行正态性检眩�范ㄊ欠为标准正态分布(或近似正态分布)或不属于正态分布。笔者首先推荐概率单位法。当统计资料属于正态分布或近似正态分布时，差异显著性检验方法的选裕�诜合其应用条件下，一般可按表3进行选择。显著性检验应用时的主要注意事项：(1)率值或均值在进行显著性检验前，应注意样本的代表性和可比性。(2)检验结果接近显著性界限时：要多方面考虑，是否确实不存在差异；或是观察例数不够，而需加大样本例剩换是检验公式运用不当，可用其他检验印证。(3)多个样本比例数的χ2检验，差异显著性，只能说明多组比例数不同或不完全相同，而不能确定哪个比例数不同，要进一步进行显著性检验才能了解两个样本比例数是否构成相同。表1 一般情况下不同资料的统计指标与检验方法的关系资料类型统计指标统计检验方法计量资料均数、标准差 t检验、F检验等计数资料率、构成比 χ2检验等半定量资料率、构成比秩和检验、Ridit分析表2 《中华创伤杂志》第12卷1～6期、增刊显著性检验方法使用频数检验方法应用次数检验方法应用次数 t检验 27 直线相关与回归分析 5 χ2检验 16 拟合线性回归 1 F检验 24 相关分析 6 Q检验 2 非参数统计 4 u检验 1 未注明方法 6表3 常用显著性检验方法的选择统计资料比较类型显著性检验小样本均数与总体均数相比较 t检验小样本均数相比较 t检验、F检验两个或多个大样本均数与总体均数相比较 u检验、t检验大样本均数相比较 u检验、t检验配对计量资料配对t检验两个率的比较 u检验、χ2检验多个样本率的的比较 χ2检验配对计数资料两种属性的相关分析及其差别的比较 χ2检验

缺失值的处理：缺失值是人群研究中不可避免的问题，其处理方式的差异可能在不同程度上引入偏倚，因此，详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进行评价。例如，瑞舒伐他汀试验在统计分析部分详细说明了缺失值的填补策略，包括：将二分类结局中的缺失值视为未发生事件；将生物标志物和心电图测量中的缺失值进行多重填补（multiple imputation）；为了证明缺失值处理的合理性和填补结果的稳定性，研究还比较了多重填补与完整数据（complete-case）分析的结果。2、数据的预处理：实施统计分析之前往往需要将原始数据进行预处理，如：对连续变量进行函数转换使其更接近正态分布，基于原始数据构建衍生变量，将连续变量拆分为分类变量或将分类变量的不同类别进行合并等。医学论文应报告处理原始数据的方法及依据，瑞舒伐他汀试验即在统计分析部分描述了对血液生物标志物的对数转换。3、变量分布特征描述：确定统计分析使用的变量，并针对每一个变量的分布特征进行描述，是决定研究选用何种统计分析方法的基础。医学期刊虽然普遍对此提出要求，但作者往往套用常用方法，如：连续变量符合正态分布时，采用均数（标准差）描述，否则采用中位数（四分位间距）描述；分类变量采用频数（百分比）描述等。事实上，应根据研究设计类型、统计分析目的和数据特征选择恰当的描述方法。例如，CKB选择采用年龄、性别和地区校正的均值和率来描述人群分布特征，而非简单的报告连续变量的均数和分类变量的构成比。4、主要分析（primary analysis）：指针对研究结局的统计分析，是研究论文的核心证据。因此，医学论文应详细描述主要分析的实施过程和适用性。在试验性研究中，应明确统计分析数据集、试验效应指标、相对或绝对风险及其置信区间的计算方法、以及假设检验的方法。

医学统计方法该如何选择

基本的医学统计方法有很多，如样本均数与已知样本均数比较、两样本均数比较、多个样本均数的比较、两个样本率的比较、多个样本率的比较、两组或多组构成比的比较、非参数检验、多因素资料的方差分析等。如果对于统计方法没有一个整体的把握和认识，可能就会出现误用滥用统计方法的情况。下面是我为大家带来的.关于医学统计方法该如何选择的知识，欢迎阅读。

统计学的基本概念

1、小概率事件

如果事先假定发生概率最多为的事件为小概率事件，那么根据小概率事件原理，即“小概率事件在一次随机试验中几乎不可能发生”。假设检验就是根据小概率事件原理对该假设进行推断。

2、非参数统计

统计学上，对总体的分布不做假设或仅作非常一般性假设条件下的统计推断方法称为“非参数统计”。非参数统计方法很多，应用较多的包括

配对设计资料的Wilcoxon符号秩和检验、单样本的Wilcoxon符号秩和检验、完全随机设计两独立样本的Wilcoxon符号秩和检验、完全随机设计多个独立样本的Kruskal-Wallis秩和检验和随机化区组设计资料的Friedman秩和检验。

3、实验研究三要素

实验研究三要素包括：处理因素、实验对象、实验效应。处理因素有单因素、多因素;实验对象的设计方式有完全随机、配对或随机区组;实验效应通过观察指标来表达，而观察指标又可分为计量、计数或等级资料。这三者的不同组合决定了选用不同的统计方法。

单变量统计方法选择的一般原则

1.影响因素是单因素还是多因素

2.判断拟分析的资料属于哪种类型：计量、计数还是等级资料

3.资料是单一样本、两组样本还是多组样本

4.判断资料所属的设计方式，是完全随机、配对还是随机区组

5.判断资料是否符合拟采用的统计分析方法的应用条件，必要时可考虑变量变换

多变量统计方法的选择

在医学研究中，特别是在临床研究中，每个观察对象记录的观察指标往往不止1个，即有多个反应变量。分析变量间的相互关系是探索疾病病因的重要途径，多参数统计方法常用于这类研究问题的分析。

在医学科研中，常用的多参数统计方法有3种：多元线性回归、Logistic回归分析和生存分析。

多元线性回归要求应变量是连续型变量，但是在医学研究中经常遇到的应变量为非连续的分类变量，如某种疾病的患病与否，器官移植之后是生存还是死亡。

研究分类应变量与诸多自变量间的相互关系，进行疾病的病因分析常选用Logistic回归分析。

在医学随访研究中，不仅要看是否出现了某种结局(如器官移植后是否死亡)，还要考虑出现这些结局所经历的时间长短。生存分析就是将观察结局和出现这一结局所经历的时间结合起来分析的一种统计分析方法。

医学论文如何选择统计方法

1. 多组率的比较用卡方检验（χ2检验，chi-square test)直接用几个率的数值比较，与直接用原始数据录入比较，结果会有什么不同？卡方值会受样本量的影响，样本越多，卡方值越大。2.多组计量资料比较采用方差分析(F检验) ，不能用t检验。当方差分析结果为P<时，只能说明k组总体均数之间不完全相同。若想进一步了解哪两组的差别有统计学意义，需进行多个均数间的多重比较，即SNK-q检验 (多个均数两两之间的全面比较 )、LSD-t检验 (适用于一对或几对在专业上有特殊意义的均数间差别的比较)和Dunnett检验 (适用于k-1个实验组与一个对比组均数差别的多重比较 )。3.非正态分布多组数据之间比较选用非参数检验、单样本中位数检验（符号检验和 Wilcoxon 检验）、双样本中位数检验（Mann-Whitney 检验）、方差分析（Kruskal-Wallis、Mood 中位数和 Friedman 检验）4.按血糖水平从低到高分成多组，进行多组之间死亡率的比较，由于死亡率同样受年龄、性别、病史、血脂等因素的影响，所以需选取合适统计方法实现“调整年龄、性别等危险因素后，按血糖分组进行死亡率的比较（由血糖从低到高分成的4组）”。①年龄是定量变量（是数值），调整年龄的方法可在Logistic回归中运用，连续性变量年龄加入covariate中，当成协变量，就可以调整年龄，age-adjusted odds ratio就能得到了。②性别性别是二分类变量，不是定量变量，不可在LOGISTIC回归里比较。调整性别可在卡方检验中采取分层的方法比较。如果为多分类LOGISTIC回归，在选择用multinomianl LOGISTIC回归中，可选入年龄等进入covariate，观察年龄的配比情况。可把性别选入factors(自变量)。这样可以实现调整年龄、性别等危险因素。5.回顾性研究(1)临床妊娠率和女性年龄的关系+(2)男性影响临床妊娠的精子参数比较：数据类型及变量的说明：y：计量拟采用的分析方法：卡方检验拟采用的分析软件：spss原始数据附件及格式：word表能否用其他方法统计分析：可用卡方分割，调整检验水准（根据比较的次数N，校正后的检验水准为）。6.重复t检验：多个样本均数间的两两比较(又称多重比较)不宜用t检验，因为重复数次，t检验将增加第一类错误的概率，使检验效率降低。此时宜用方差分析，并在此基础上用两两比较方法(如．SNK、LSD、Duncan法等)。对于同一对均数间的差异，用t检验无显著性，而两两比较可能有显著性，可见错误选用统计方法将推出错误结论。

科学研究很早就已经从简单的定性分析深入到细致的定量分析，科研工作者要面对大量的数据分析问题，科研数据的统计分析结果直接影响着论文的结果分析。在医学科研写作中，实验设计的方法直接决定了数据采取何种统计学方法，因为每种统计方法都要求数据满足一定的前提和假定，所以论文在实验设计的时候，就要考虑到以后将采取哪种数据统计方法更可靠。医学统计方法的错误千差万别，其中最主要的就是统计方法和实验设计不符，造成数据统计结果不可靠。下面，医刊汇编译列举一些常见的可以避免的问题和错误：打开百度APP，查看更多高清图片一、数据统计分析方法使用错误或不当。医学论文中，最常见的此类错误就是实验设计是多组研究，需要对数据使用方差分析的时候，而作者都采用了两样本的均数检验。二、统计方法阐述不清楚。在同一篇医学论文中，不同数据要采取不同统计处理方法，这就需要作者清楚地描述出每个统计值采用的是何种统计学方法，但在许多使用一种以上数据统计分析方法的医学论文中，作者往往只是简单地把论文采用的数据统计方法进行了整体罗列，并没有对每个数据结果分析分别交代具体的统计方法，这就很难让读者确认某一具体结果作者到底采用的是何种数据分析方法。三、统计表和统计图缺失或者重复。统计表或者统计图可以直观地让读者了解统计结果。一个好的统计表或统计图应该具有独立性，即作者即使不看文章内容，也可从统计表或统计图中推断出正确的实验结果。而一些医学论文只是简单地堆砌了大量的统计数字，缺乏直观的统计图或表；或者虽然也列出了统计表或统计图，但表或图内缺项很多，让读者难以从中提取太多有用的信息。另外，也有作者为了增加文章篇幅，同时列出统计表和统计图，造成不必要的浪费和重复。统计表的优点是详细，便于分析研究各类问题。统计图(尤其是条形统计图)的优点是能够直观反映变量的数量差异。医学论文中对数据统计结果的解释，最常见的两个错误就是过度信赖P值(结果可信程度的一个递减指标)和回避阴性结果。前一个错误的原因是因为一些作者对P值含义理解有误，把数据的统计学意义和研究的临床意义混淆。所以医学研究人员一定要注意不能单纯依靠统计值武断地得出一些结论，一定要把统计结果和临床实践结合在一起，这样才会避免出现类似的错误。至于回避阴性结果，只提供阳性结果，是因为不少作者在研究设计时，难以摆脱的一种单向的思维定式就是主观地先认定自己所预想的某种结果结论。在归纳某种结果原因时，从一个方向的实验就下完美的结论，尤其是如果这个结论可能对实际情形非常有意义时。这样的思维定势过于强调统计差异的显著性，有时会刻意回避报道差异的不显著结果，不思考和探究差异不显著的原因和意义，反而会因此忽视一些重大的科学发现。

医学统计方法概述第一节医学统计学在临床医学中的作用和意义一、医学统计学 1、统计学统计学（statistics）是研究数据搜集、整理与分析的科学，是认识社会和自然现象数量特征的重要工具。 2、医学统计学统计学在医学研究领域的应用称为医学统计学。医学统计学与生物统计学、卫生统计学是统计学原理和方法在互有联系的不同学科领域的应用，三者间有少许区别，但无截然界限。二、医学统计学在临床医学中的应用及意义 1、临床科研设计 2、对搜集资料的内在规律进行分析 3、为医务工作者阅读科技文献和撰写科研论文提供工具第二节统计工作的基本步骤统计工作的基本步骤通常分为四步：(研究)设计、搜集资料、整理资料和分析资料。一．研究设计(design) 设计一般包括专业设计和统计设计。专业设计即确定调查题目、内容等。统计设计包括资料收集、整理与分析。统计设计包括资料收集、整理与分析全过程的统计设想和科学安排。设计需考虑以下几方面： 1、研究的目的和假设是什么? 2、研究对象的选择范围是什么？如何确定？ 3、研究方法是什么？技术路线如何？ 4、具体的研究内容、观察项目与指标是什么？ 5、研究对象的数量大小，如何抽样？怎样分组？ 6、对观察指标如何进一步计算？具体采用哪些统计分析方法？ 7、有哪些可能存在的误差？如何避免与减少其影响？ 8、时间、人员、经费方面的安排。实验三要素：处理因素、受试对象、实验效应设计四原则：对照、随机化、重复、盲法二、搜集资料(data collection) 按照设计要求，原则是及时、准确、完整地收集原始数据。 1、病历 2、日常医疗工作记录 3、临床检查与化验记录 4、疾病监测报表 5、专题研究三、整理资料（data sorting） 1、资料的录入和清理资料录入前后初步的清理是核实，其次是发现异

正确的统计学分析一定要建立在明确的研究目的和研究设计的基础之上，那些事先没有研究目的和研究设计，事后找来一堆数据进行统计分析都是不可取的。在医学论文的撰、编、审、读过程中经常遇到的问题是研究的题目与课题设计、论文内容不符，包括文章的方法解决不了论文的目的、文章的结果说明不了论文的题目、文章的讨论偏离了论文的主题；还有是目的不明确、设计不合理。如题目过小，论文不够字数，而一些无关紧要的变量指标或结果被分析被讨论；又如题目过大，论文的全部内容不足以说明研究的目的，使论文的论点难以立足。所以，合理明确的论文题目或目的以及研究设计方案是撰、编、审、读者应当关注的首要问题。此外，样本含量是否满足，抽样是否随机，偏倚是否控制等，也是不可忽视的问题。2、建好分析用的数据库建好数据库是正确统计分析的前提和基础，甚至决定了论文分析结果的成败。对于编、审、读者来讲，一般由于篇幅的限制，往往得不到数据库数据，而只有作者在数据库数据基础上经统计描述计算后给出的诸如各指标均数 x、标准差 s 或中位数 M、百分位数 Px 的“二手”数据，或将研究对象小或特征属性分组，清点各组观察单位出现的个数或频数的频数表数据等。无论是否能够得到数据库数据，作者在统计分析过程中一定依据数据库数据进行计算，得出结果。如果对“二手”数据或频数表数据的结果等存在疑惑，编辑、审稿专家或读者有权要求作者提供数据库数据以检查其完整性、准确性和真实性，确保研究数据的质量。假若在投稿须知中对数据库数据作出必要的要求，无疑对于保证刊物的发表质量有着积极的意义

医学论文

医学论文统计方法选择