缺失值的处理:缺失值是人群研究中不可避免的问题,其处理方式的差异可能在不同程度上引入偏倚,因此,详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进行评价。例如,瑞舒伐他汀试验在统计分析部分详细说明了缺失值的填补策略,包括:将二分类结局中的缺失值视为未发生事件;将生物标志物和心电图测量中的缺失值进行多重填补(multiple imputation);为了证明缺失值处理的合理性和填补结果的稳定性,研究还比较了多重填补与完整数据(complete-case)分析的结果。2、数据的预处理:实施统计分析之前往往需要将原始数据进行预处理,如:对连续变量进行函数转换使其更接近正态分布,基于原始数据构建衍生变量,将连续变量拆分为分类变量或将分类变量的不同类别进行合并等。医学论文应报告处理原始数据的方法及依据,瑞舒伐他汀试验即在统计分析部分描述了对血液生物标志物的对数转换。3、变量分布特征描述:确定统计分析使用的变量,并针对每一个变量的分布特征进行描述,是决定研究选用何种统计分析方法的基础。医学期刊虽然普遍对此提出要求,但作者往往套用常用方法,如:连续变量符合正态分布时,采用均数(标准差)描述,否则采用中位数(四分位间距)描述;分类变量采用频数(百分比)描述等。事实上,应根据研究设计类型、统计分析目的和数据特征选择恰当的描述方法。例如,CKB选择采用年龄、性别和地区校正的均值和率来描述人群分布特征,而非简单的报告连续变量的均数和分类变量的构成比。4、主要分析(primary analysis):指针对研究结局的统计分析,是研究论文的核心证据。因此,医学论文应详细描述主要分析的实施过程和适用性。在试验性研究中,应明确统计分析数据集、试验效应指标、相对或绝对风险及其置信区间的计算方法、以及假设检验的方法。
科学研究很早就已经从简单的定性分析深入到细致的定量分析,科研工作者要面对大量的数据分析问题,科研数据的统计分析结果直接影响着论文的结果分析。在医学科研写作中,实验设计的方法直接决定了数据采取何种统计学方法,因为每种统计方法都要求数据满足一定的前提和假定,所以论文在实验设计的时候,就要考虑到以后将采取哪种数据统计方法更可靠。医学统计方法的错误千差万别,其中最主要的就是统计方法和实验设计不符,造成数据统计结果不可靠。下面,医刊汇编译列举一些常见的可以避免的问题和错误:打开百度APP,查看更多高清图片一、数据统计分析方法使用错误或不当。医学论文中,最常见的此类错误就是实验设计是多组研究,需要对数据使用方差分析的时候,而作者都采用了两样本的均数检验。二、统计方法阐述不清楚。在同一篇医学论文中,不同数据要采取不同统计处理方法,这就需要作者清楚地描述出每个统计值采用的是何种统计学方法,但在许多使用一种以上数据统计分析方法的医学论文中,作者往往只是简单地把论文采用的数据统计方法进行了整体罗列,并没有对每个数据结果分析分别交代具体的统计方法,这就很难让读者确认某一具体结果作者到底采用的是何种数据分析方法。三、统计表和统计图缺失或者重复。统计表或者统计图可以直观地让读者了解统计结果。一个好的统计表或统计图应该具有独立性,即作者即使不看文章内容,也可从统计表或统计图中推断出正确的实验结果。而一些医学论文只是简单地堆砌了大量的统计数字,缺乏直观的统计图或表;或者虽然也列出了统计表或统计图,但表或图内缺项很多,让读者难以从中提取太多有用的信息。另外,也有作者为了增加文章篇幅,同时列出统计表和统计图,造成不必要的浪费和重复。统计表的优点是详细,便于分析研究各类问题。统计图(尤其是条形统计图)的优点是能够直观反映变量的数量差异。医学论文中对数据统计结果的解释,最常见的两个错误就是过度信赖P值(结果可信程度的一个递减指标)和回避阴性结果。前一个错误的原因是因为一些作者对P值含义理解有误,把数据的统计学意义和研究的临床意义混淆。所以医学研究人员一定要注意不能单纯依靠统计值武断地得出一些结论,一定要把统计结果和临床实践结合在一起,这样才会避免出现类似的错误。至于回避阴性结果,只提供阳性结果,是因为不少作者在研究设计时,难以摆脱的一种单向的思维定式就是主观地先认定自己所预想的某种结果结论。在归纳某种结果原因时,从一个方向的实验就下完美的结论,尤其是如果这个结论可能对实际情形非常有意义时。这样的思维定势过于强调统计差异的显著性,有时会刻意回避报道差异的不显著结果,不思考和探究差异不显著的原因和意义,反而会因此忽视一些重大的科学发现。
秋风送爽,也给我们送来了刘岭教授的统计说说第五期。这一期的统计学方法之选择大家一定要认真学起来,说不定马上你就会用到了。编者语针对常用的基本统计学方法,一般而言说的就是t检验、单因素方差分析和卡方检验,这也是大家在写论文、阅读论文时经常遇到的统计学方法(几乎每篇文章都会涉及这一种或几种方法),那到底该采用何种统计学方法呢?今天我们就此来聊聊。一、拿到数据开始分析之前,一定要进行数据类型的划分(图1),因为不同数据类型资料,描述的方式不一样,统计学方法也不一样。图1 统计资料的类型举个例子(表1):表1 某地2002年735例65岁以上老年人健康检查记录二、各种类型资料的统计分析(描述与统计推断)1.计量资料特点:每个观察单位的观察值之间有量的区别,有单位;描述形式:最常见采用“X±S”(一般文献中经常见到),用算数均数描述其平均水平,用标准差描述其离散程度。如果遇到数据“特别变态”(特别是标准差大于算数均数),就采用Md(P25,P75)(Md为中位数,P25和P75为四分位数)(表2)。正态分布检验请大家复习:医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验表2 计量资料常用统计指标的特点及其应用场合统计推断方法:一般分为单因素和多因素两种。单因素分析方法分析要点:一是划清数据类型(计量资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是满足正态方差齐性时采用t检验(注意t检验有三种形式哦!)或单因素方差分析,不满足时采用秩和检验(图2)。图2 计量资料统计方法的正确选择提醒两点:① 如果样本数据不服从正态分布的话,那就只能用非参数检验(秩和检验),但其检验效能低于参数检验(t检验或方差分析)。所谓检验效能低就是本身有差异,却没有能力发现其差异。② 如果是两组以上样本的数据时,不能采用t检验(会导致假阳性错误概率增加),应该采用方差分析。若方差分析的P<,需再进一步两两比较,常用的方法为LSD法或SNK法(注意依旧不能采用t检验)。在上两讲内容中我们已经学过t检验(医学科研课堂丨统计说说(二):你的t检验做对了吗?)和方差分析(医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析)了,至于秩和检验,我们以后会逐步介绍滴。多因素分析一般采用回归分析,主要是线性回归分析,以后会给大家介绍此方法。2.计数资料特点:无序分类,同类别中各观察单位之间没有量的差别,但各类别间有质的不同,各类别互不相容。其中二分类一定是计数资料(例如性别只有男/女之分,是否继发某种疾病只有继发/未继发之分),而多分类满足分类在性质上没有程度等级上的差别,即为计数资料(例如婚姻状况包括未婚、已婚、离异、丧偶,就属于多分类,但各分类没有程度等级差别,因此为计数资料,尿糖定性检测结果包括-、+、++、+++、++++,属于具有程度等级差别的多分类资料,就不属于计数资料,属于等级资料了)。描述形式:最常见采用“例数(%)”(一般文献中经常见到),主要要分清构成比(结构相对数)和率(强度相对数)的差别(表3)。而且在应用时,分母(就是样本量啦)一般不宜过小,分母太小不足以反映数据的客观事实,也不稳定。表3 计数资料常用统计指标的特点及其应用场合比如说:1.某地肺癌患者中男性A例,女性B例,则当地肺癌患者的性别比为A/B就是“比”。2.某次研究共检出了致病菌3种,总株数为A+B+C,其中一种致病菌检出株数为A,那么A/(A+B+C)就是构成比,即该种致病菌占总致病菌的比重或分布。3.某研究对患者(总例数为B)进行治疗,结果治愈的患者例数为A,则A/B即为率(可以理解为治愈率)。统计推断方法:一般分为单因素和多因素两种。单因素分析方法分析要点:一是划清数据类型(计数资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是多样本率比较,若卡方检验的P<,需再进一步两两比较,并进行Bonferroni校正,以控制假阳性(图3)。图3 计数资料统计方法的正确选择提醒两点:① 构成比是以100作为基数,各构成部分所占的比重之和必须为100%,故某组成部分所占比重的增减必影响其它组成部分的比重;② 构成比和率在实际应用时容易混淆,主要区别在分母上,所以应正确选择分母。多因素分析一般采用回归分析,主要是Logistic回归分析,以后会给大家介绍此方法。3.等级资料特点:属于多分类资料,满足多分类在性质上有程度等级上的差别,各分类属性按一定顺序排列(有序),即为等级资料。描述形式:最常见采用“例数(%)”(一般文献中经常见到),这和计数资料的描述大体相同,主要区别在于多个分类排列时一定要按照顺序进行(从小到大或从弱到强)。统计推断方法:等级资料的统计分析方法在单因素分析中采用非参数检验(秩和检验),当然对于双向有序R×C资料,也就说分组变量和结局变量都是有序(等级)的情况,构成比的比较采用卡方检验,程度的比较采用秩和检验,趋势关联性的比较用秩相关(也称等级相关)。多因素分析中采用有序Logistic回归。注意:分类变量(计数资料和等级资料)在软件分析操作时,要适当数量化处理(赋值),赋值情况会直接影响统计分析结果的解释。最后用下面这张图来总结基本统计学方法的选择(图4)。图4 常用基本统计学方法的正确选择今天的内容就到这里,同学们多多复习,有什么问题和不懂的可以在下面留言,我们会请刘岭教授一一解答。好了,让我们期待下一期吧!撰稿:刘岭 约稿编辑:刘芹排版:毕丽 审核:王东专家简介刘岭:陆军军医大学卫生统计学教研室副教授,主要从事卫生统计学教学、科研工作。担任中华卫生信息学会第八届统计理论与方法专业委员会委员,重庆市预防医学卫生统计专业委员会副主任委员,并担任《第三军医大学学报》等多家杂志的编委、统计审稿专家。历史推荐医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析 医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验 医学科研课堂丨统计说说(二):你的t检验做对了吗? 医学科研课堂丨统计说说(一):样本量估算是个什么东东?
正确的统计学分析一定要建立在明确的研究目的和研究设计的基础之上,那些事先没有研究目的和研究设计,事后找来一堆数据进行统计分析都是不可取的。 在医学论文的撰、编、审、读过程中经常遇到的问题是研究的题目与课题设计、论文内容不符,包括文章的方法解决不了论文的目的、文章的结果说明不了论文的题目、文章的讨论偏离了论文的主题;还有是目的不明确、设计不合理。如题目过小,论文不够字数,而一些无关紧要的变量指标或结果被分析被讨论;又如题目过大,论文的全部内容不足以说明研究的目的,使论文的论点难以立足。 所以,合理明确的论文题目或目的以及研究设计方案是撰、编、审、读者应当关注的首要问题。此外,样本含量是否满足,抽样是否随机,偏倚是否控制等,也是不可忽视的问题。2、建好分析用的数据库建好数据库是正确统计分析的前提和基础,甚至决定了论文分析结果的成败。对于编、审、读者来讲,一般由于篇幅的限制,往往得不到数据库数据,而只有作者在数据库数据基础上经统计描述计算后给出的诸如各指标均数 x、标准差 s 或中位数 M、百分位数 Px 的“二手”数据,或将研究对象小或特征属性分组,清点各组观察单位出现的个数或频数的频数表数据等。 无论是否能够得到数据库数据,作者在统计分析过程中一定依据数据库数据进行计算,得出结果。如果对“二手”数据或频数表数据的结果等存在疑惑,编辑、审稿专家或读者有权要求作者提供数据库数据以检查其完整性、准确性和真实性,确保研究数据的质量。假若在投稿须知中对数据库数据作出必要的要求,无疑对于保证刊物的发表质量有着积极的意义
医学统计中的常见误区有哪些
医学统计学是运用概率论与数理统计的原理及方法,结合医学实际,研究数字资料的搜集、整理分析与推断的一门学科。医学研究的对象主要是人体以及与人的健康有关的各种因素。下面是我为大家带来的关于医学统计中的常见误区的知识,欢迎阅读。
一,真正差异和统计学差异
常常有人和我说: P值越小,试验结果的差异就越大!而且还有依据 [P < 是有显著性差异; P < 是有极显著性差异]。
其实,这些人忽略了 n 这个样本数的作用,n 的大小会影响 P 值。但更应该澄清一下的是: P 值代表的是统计学差异,并不是真正的差异!真正的差异只能靠平均值或者频度的比较才能得到。
二,卡方检验的局限性
我们知道各组之间的计数资料的比较,要用卡方检验,但有些情况是不行的!!!
1,当样本有小于5的值2X2表时,必须要用 Fisher 检验才正确!
2,当组与组之间有不同的背景,而这些背景因子还可能会影响到组与组之间结果差异,这是就必须要用 Mantel-Haenszel 检验!
这第2条可能大家不要理解,那我就举两个例子:
1) 关于男性和女性对于不同颜色的喜好的统计学分析
但这里应该注意到年龄可能会对这个分析造成影响,这就要用Mantel-Haenszel 检验了。
***红色 蓝色 黄色
男性 5 7 8
女性 15 10 6
可以按大人和小孩(比如我们以15岁为分界)分层,在SPSS中要把这个因素放到[行] [列]下边的[层化]一栏里,并在统计指标选项里,选 Cochran和Mantel-Haenszel的统计量选项,这样出来的结果就可靠了!
2)两种治疗(A和B)效果的评价分析:
*****A法 B法
生存 41 54
死亡 47 31
用卡方检验 X2=; P <
但是,病人的临床分期将影响着分析结果:
********生存**************死亡
——————————***——————————
————A****B————————A*****B———
1期-----18-----21--------------------0--------0-------
2期-----23-----33-------------------13------- 8-------
3期------0------0--------------------34-------23-------
再用Mantel-Haenszel检验: X2=; P >
说明实际上A法和B法两组的统计学差异,是这个不同的分期造成的!!!
1,当样本有小于5的值2X2表时,必须要用 Fisher 检验才正确!
讨论:当样本有小于5的值2X2表时,必须要用 Fisher 确切概率法。
当样本有小于5的值R×C表时,将某两组合并,用pearson卡方检验。
三,t 检验的局限性
1,我们经常用 t 检验来判别两组病人血清中某种标记物水平上的差异,但这里要注意,有一些血清标记物的水平是不能用 t 检验的!
比如: 血清标记物 PSA和AFP,在正常人的水平是很低的,而在病人则明显增加,呈现指数幂次改变,这样一来,血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!
这时应该用 非参数性检验---即 Mann-Whitney U test (Wilcoxon U test)。
2,关于用不用配对t 检验,我个人认为当同一组样本在不同时点,不同处理方式的比较上,应该用配对t 检验。
四,ANOVA 检验的局限性
1,在2组以上计量资料样本比较时,ANOVA 检验非常常用。但这个检验只是说明了一个趋势的比较结果,并不能说明真正的统计学差异,真正的`差异还要通过每两个点的直接比较,也就是说应该在ANOVA 检验后,还必须做两两比较或多重比较,这样才能从全貌上反映出统计的全部结果。
2,既然方差分析得到差别有显著性意义的结论后,还需进行两两比较,有人认为还不如一开始就进行多次t检验更方便,其实,这种认识是不妥当的。t检验用于ANOVA的两两比较将增大第一类错误,产生假阳性,因此要采用特定的方法,在SPSS的one-way ANOVA或General linear models中操作时,Post Hoc(多重比较)对话框内有多种方法可供选择,象两两比较一般用SNK法,而多个试验组和一个对照组的比较则多用dunnett检验。
3,我们经常用 ANOVA 检验来判别几组病人血清中某种标记物水平上的差异,但这里要注意,与 t 检验一样,有一些血清标记物的水平是不能用 ANOVA 检验的!
如上所说的: 血清标记物 PSA和AFP,在正常人的水平是很低的,而在病人则明显增加,呈现指数幂次改变,这样一来,血清 PSA和AFP水平在每组病人中很容易不是呈现正态分布!
这时应该用 非参数性检验---即 Kruskal-Wallis rank test 。
五,单元线性相关分析
有时我们常常只注意到了 P 值大小,可最重要的是 r 值!
样本数 n 对 P 值 结果的影响很大,容易让我们产生错觉,其实,相关的存在与否的评价是与 r 值最直接相关的,如下:
当 P 值小于时: r 值
几乎没有相关关系
弱的相关关系
有相关关系
强相关关系
极强相关关系
P 值只是证明这个相关在统计学上是否成立!!!
1,当样本有小于5的值2X2表时,必须要用 Fisher 检验才正确!
讨论:当样本有小于5的值2X2表时,必须要用 Fisher 确切概率法。
当样本有小于5的值R×C表时,将某两组合并,用pearson卡方检验。
不是说样本小于5
而是说:在R×C表中
理论频数不应该小于1,并且1≤T≤5的格子数不应该超过总格子数的1/5,若出现上述情况可以通过以下方法:
a.增加样本含量,使理论频数增大;
b.根据专业知识,删除理论频数太小的行和列;或者将理论频数太小的行或列与性质相近的邻行和邻近列合并。
c.改用双向无序的R×C表的fishher确切概率法。
还有一点
四格表卡方检验的适应指标:(T为理论频数)
1。n≥40,且T≥5时用卡方检验基本公式。但是当p≈α应该用fisher确切概率法
2。n≥40,但是1≤T≤5时,用四格表校正公式
3。n<40,或者T<1时,用fisher四格表确切概率法
4。四格表卡方检验的连续性校正仅仅用于自由度为1的四格表尤其是n较小时。
补充几点:
1. 关于P值:P值的大小并不是各组差异的大小,而是统计学差异显著性的大小。P值越小,说明得出各组没有差异的概率越小,越有理由说明各组存在差异(可以说,P值的大小反映了做出统计结论的“理由”的大小,而不是被比较的各组的实际差异的大小,得出有意义的结论后,其差异的大小可直接通过各组的均数或率进行比较)。
2. 关于t检验和方差分析:katalyster兄上面提到的t检验及方差分析在某些时候不适用,实际上就是每种方法都有其应用条件,不服从正态分布当然不能用。对这样的资料首先可考虑变量变换(如抗体滴度等资料,为指数或幂次的关系,可用对数转换),如变换后,服从正态分布,可用上述方法;若还不符合,则考虑非参数检验。
3. 关于相关分析:两个变量间是否存在相关关系,要看P值,而不是r值,r值用来说明相关关系的大小。当P<,才能讲两变量间存在相关关系,再看r值,r值越大,相关关系越强,反之越小;否则,P>,不能讲两变量间存在相关关系,r值毫无意义。
感谢kushuya, xiaoxiongzjh两位专家的补充和指正!之所以开这个专题,是真心想让初学者从这些<误区>中走出来!
六,Logistic regression 分析
在判断某因子对疾病的危险度时常用的方法。
1,假设要判断某因子对疾病的危险度(OR),要了解这个OR是一个相对危险度,即是有某因子存在和没有某因子存在之间比较的OR值。
2,OR 和 RR 不一样,OR是在Logistic regression model中使用,RR是在Cox proportional hazard model中使用。
3,假设要判断某因子对疾病的危险度,要在多变量Logistic regression model中校正一些混扰因素,如常见的年龄,性别,吸烟等等,并最后得出这个 Adjusted OR。但并不是说有了这些校正,我们就可以在实验设计上就不考虑这些混扰因素,相反,必须在实验设计上就把这些混扰因素在实验组和对照组配平,光靠在多变量Logistic regression model中校正是不可靠的。
其它方法---生存分析 (Kaplan-Meier法+ Logrank法):
我们有时在临床研究只注意到了用这种方法分析与生存相关的研究,其实,在疾病复发上也常用这种方法!前者是以生---死为判别,后者则以复发---不复发为判别。
科学研究很早就已经从简单的定性分析深入到细致的定量分析,科研工作者要面对大量的数据分析问题,科研数据的统计分析结果直接影响着论文的结果分析。在医学科研写作中,实验设计的方法直接决定了数据采取何种统计学方法,因为每种统计方法都要求数据满足一定的前提和假定,所以论文在实验设计的时候,就要考虑到以后将采取哪种数据统计方法更可靠。医学统计方法的错误千差万别,其中最主要的就是统计方法和实验设计不符,造成数据统计结果不可靠。下面,医刊汇编译列举一些常见的可以避免的问题和错误:打开百度APP,查看更多高清图片一、数据统计分析方法使用错误或不当。医学论文中,最常见的此类错误就是实验设计是多组研究,需要对数据使用方差分析的时候,而作者都采用了两样本的均数检验。二、统计方法阐述不清楚。在同一篇医学论文中,不同数据要采取不同统计处理方法,这就需要作者清楚地描述出每个统计值采用的是何种统计学方法,但在许多使用一种以上数据统计分析方法的医学论文中,作者往往只是简单地把论文采用的数据统计方法进行了整体罗列,并没有对每个数据结果分析分别交代具体的统计方法,这就很难让读者确认某一具体结果作者到底采用的是何种数据分析方法。三、统计表和统计图缺失或者重复。统计表或者统计图可以直观地让读者了解统计结果。一个好的统计表或统计图应该具有独立性,即作者即使不看文章内容,也可从统计表或统计图中推断出正确的实验结果。而一些医学论文只是简单地堆砌了大量的统计数字,缺乏直观的统计图或表;或者虽然也列出了统计表或统计图,但表或图内缺项很多,让读者难以从中提取太多有用的信息。另外,也有作者为了增加文章篇幅,同时列出统计表和统计图,造成不必要的浪费和重复。统计表的优点是详细,便于分析研究各类问题。统计图(尤其是条形统计图)的优点是能够直观反映变量的数量差异。医学论文中对数据统计结果的解释,最常见的两个错误就是过度信赖P值(结果可信程度的一个递减指标)和回避阴性结果。前一个错误的原因是因为一些作者对P值含义理解有误,把数据的统计学意义和研究的临床意义混淆。所以医学研究人员一定要注意不能单纯依靠统计值武断地得出一些结论,一定要把统计结果和临床实践结合在一起,这样才会避免出现类似的错误。至于回避阴性结果,只提供阳性结果,是因为不少作者在研究设计时,难以摆脱的一种单向的思维定式就是主观地先认定自己所预想的某种结果结论。在归纳某种结果原因时,从一个方向的实验就下完美的结论,尤其是如果这个结论可能对实际情形非常有意义时。这样的思维定势过于强调统计差异的显著性,有时会刻意回避报道差异的不显著结果,不思考和探究差异不显著的原因和意义,反而会因此忽视一些重大的科学发现。
中国光大(集团)总公司:你公司《关于报送企业集团统计报表的请示》(光京字[2003]67号)收悉。经研究,现批复如下:一、我局现行企业集团统计报表制度规定,国家试点企业集团和中央管理的企业集团统计报表由我局企业调查总队负责布置、收集。由于你公司属于中央管理的企业集团,因此你公司填报的企业集团统计报表应直接报送给我局企业调查总队,具体执行时间从今年半年报开始。二、《北京市统计局关于完善企业集团统计报表制度的通知》(京统发[2003]85号)要求你公司向其报送集团2003年年报和半年报的有关事宜,我局企业调查总队已和北京市统计局企调队进行了沟通,北京市企业集团统计的范围不再包括你公司,其所需资料由我局企业调查总队予以提供。国家统计局办公室二○○三年九月十五日
1 设计方面的问题
11 分组没有严格遵循随机化原则研究对象的分组与抽样离不开随机化原则,在足够样本的前提下,随机抽样,随机分组,明确交代随机方法,各组样本量、基本特征等。随机不等于随便,有的作者滥用随机,只要抽样或分组,一概冠以随机,不描述随机方法,把随意、随便当做随机,使研究结果不可信。
12 无对照组或不合理医务科技工作者开展研究的目的就是验证假设是否正确,没有对照,无法做出判断。有的论文无对照组,没有对比观察,所得结论没有说服力。有的论文虽设有对照组,但不是严格的随机分组,组间缺乏可比性,如非同期对照,组间性别、年龄、患病状况不一致等。在实验组和对照组的可比性方面,两组例数要基本一致,否则没有可比性。
13 样本含量过少抽取恰当的样本量,结果才有可靠性。有些文章例数太少,这样抽样误差大,导致结果不可靠。研究对象变量标准差小的,样本可以小一些。观察计数指标的样本一般不少于20~30例,计量指标的样本不少于5~10例。有的作者仅仅观察了数例患者,就得出百分之多少的有效率,显然是不恰当的。
对于对比分析,样本太少得出的结果不可靠,往往随着样本量的增大而发生变化。
2 统计学处理不恰当在进行统计学处理时,首先要明白研究资料是计数资料还是计量资料,尽管是一个常识性的问题,但仍有不少作者搞混了。先分类再计数的资料叫计数资料,如A组30例,B组32例,可根据研究目的计算出阳性率、治愈率等。测定某项具体数值的资料叫计量资料,如身高、体重、脉搏、血压等许多物理诊断和化验结果。在医学科研论文中,计数资料最常用的统计学方法是检验,计量资料最常用的是t检验。在研究设计时,就应根据研究资料的特点,决定假设检验的方法。在处理资料时,因均数和标准差是用来描述正态分布资料集中和离散趋势的指标,可否采用均数±标准差描述研究资料的分布特征,首先要看资料是否是正态分布,如果资料不是正态分布或者方差不齐时,应对资料进行转换处理,使其符合正态分布,方差齐性后采用t检验或方差分析,达不到上述要求,用秩和检验。来稿中,不少作者不考虑适用条件,盲目使用t检验。造成统计学方法使用不当,结果不可靠。更有甚者,有的作者不分计数资料还是计量资料,乱用检验或t检验,其结果可想而知。这是无统计学常识或极不负责任的表现。
有的研究资料数据庞大,只能在表格描述中用阿拉伯数字或特殊符号表示与比较对象的P值,如 P>005 , P<005, P<001,无法一一给出具体的P值。但有的作者既不交代使用的统计学方法,也不给出具体的P值,直接列出 P<005或 P>005,认为差异有统计学意义或无统计学意义,使读者对无法判断结果的可靠性。正确的做法是写明使用的统计学方法,使用了什么统计学软件,如进行了校正检验。亦应说明。这才有说服力。
3 描述不严谨日常生活中对差异的判断与统计学上差异是否有统计学意义是两个完全不同的概念。我们主观上感觉差异不大,而经统计学处理差异可能具有统计学意义;主观上感觉差别很大,但经统计学处理差异可能有统计学意义。有相当数量的作者,在描述统计学结果时,常用差异显着或差异非常显着,易与日常生活中差异的概念混淆,使用差异有统计学意义或差异无统计学意义更为确切。
我们把检验水准设定为 a=005时就是以 P>005为界值,一般以 P>005, P<005, P<0O1 3个档次描述差异有无统计学意义即可,有的作者出现 P<0001,以强调差异的显着性。有的作者用 P>O01或 P<01来表示,是错误的, P>0O1既可能是 P>005,也可能是 P<005,二者有本质的不同。
4 统计符号使用不规范统计符号使用不规范是论文中经常出现的问题,把卡方检验中的 写成x或x2,丢掉平方或把希腊字母x写成英文字母x;把均数±标准差( ±s),丢掉z 上方的一横,既影响论文质量,又影响阅读效果。
5 统计表格不规范统计表格是论文的重要组成部分,表格是否符合统计学要求,对论文有重要影响。常见的问题有:
① 无表题;
② 表题过于简单或过于繁琐。不确切;
③ 横纵标目倒置,不符合语法规律;
④ 标目层次过多;
⑤ 线条太多。甚至左上角有斜线;
⑥ 表内同一栏目数字不对齐,小数点后位数不一致。
表题如同文章的题目,简明扼要,字数控制在15个字以内。表格左侧的标目叫横标目,相当于汉语的主语,表明相应横行内数字的涵义;纵标目位于表格的上方,相当于汉语的谓语部分,说明表格内相应纵行数字的'涵义。
主谓语倒置是统计表格最常见的错误,一般情况下主语做横标目,谓语做纵标目。统计表用三线表,即顶线、底线和隔开纵标目与表内数字的横线,必要时可在纵标目下加辅助线,其余线条一概省略。
统计表格和文字叙述相辅相成,互相补充,能用简洁的文字说明的,一般不用表格,文字描述不要和表格内容完全重复。表格要简洁明快,重点突出,让人一目了然,不要变成数字的堆彻。出现统计表前,要用简要文字描述或强调主要发现,不要把文字叙述放在表格后。
6 使用统计指标不当常见的问题是率与构成比、发病率与患病率、死亡率与病死率等的混淆。
61 把构成比当率构成比是说明事物或现象内部各构成部分的比重,构成比表示某事物内部各组成部分的比重或分布,单位为%,各组成部分之和应为100%。计算公式为:构成比=某组成部分的观察单位数/同一事物各组成的观察单位总数例如2011年某市围产儿死亡总数为18例,其中死胎7例、死产3例、新生儿死亡8例。其构成比分另0为3889%、1667%、4444%。
率为表示某种现象发生的频率或强度。常以%、/万或/lo万表示。计算公式为率=某时期内某现象实际观察单位数/同时期内可能发生该现象的观察单位总数,如共检测568名5~7岁儿童,患龋齿儿童314人,检出率5528%。
构成比和率都是相对数指标。有一篇题为某年某地区4种乙类传染病疫情分析。经数据处理后,作者认为,4种传染病的发病率依次为痢疾5453%(1546/2 835)、肝炎1619%(459/2 835)、乙脑921%(261/2 835)、流脑689% (569/28352007)。该资料是构成比,不是发病率。作者犯了以比代率的错误。
62 发病率与患病率发病率是指观察期内(年、季、月等)新发生某病的例数与同期平均人口数之比,强调在观察期内的新发病例数,常以‰、/7/或/lO万表示。其计算公式为:某病发病率等于某年(期)内所发生的新病例数除以同年(期)平均人口数乘1000%o。例如某地某年年平均人口数为2500人,白喉发病28人,该地白喉年发病率为1120%0。而患病率则指观察时点的某病的现患病例数与该时点人口数之比强调的是该观察时点上某病的现患(新、旧病例)情况,常以百分率表示。有人调查16 875人,其中男性8 674人,沙眼患者7 632人,发病率为8799%;女性8 201人,沙眼患者6 210人。发病率为7572%。这样的结论当然是错误的,其所描述的结果应该是患病率。
63 死亡率与病死率这也是两个容易混淆的指标。某病死亡率是观察人群中某病的死亡频率。常以‰、/万或/10万表示;某病病死率是某病患者中因该病而死亡的频率。
一般以百分率表示。前者反映人群因该病而死亡的频率,后者反映疾病的预后。部分作者常将某病住院病死率误为某病死亡率。如重症监护室患者死亡情况分析一文中报道,颅脑损伤32例,死亡20例,死亡率为625%;严重心衰26例,死亡9例,死亡率为346%;严重肾衰竭18例,死亡11例,死亡率为611%。很明显,作者在这里是将住院病死率误作死亡率来讨论。
我们在编辑医学论文中经常会发现存在这样那样的统计学问题,致使文章质量下降,甚至无法刊用,十分可惜。提高统计学应用水平,减少统计学差错,是作者、审稿专家和编辑共同的责任。树立严谨的科学态度,选择正确的统计学方法,对提高科研水平,确保论文质量有着十分重要的意义。
1.绪论(医学统计学的定义与研究对象、在科研中的作用、主要内容)2.统计资料类型与常用统计指标3.统计图表4.概论分布与抽样误差5.常用统计方法(相对数与x2检验、平均数与变异指标、正态分布、t分布、正常值范围、可信区间、t检验与u检验、方差分析、非参数统计、相关回归、曲线拟合、多元回归等)6.实验设计(临床试验设计、调查设计)基本方法7.多元分析方法应用举例(逐步回归、判别分析、聚类分析、主成分分析等)计算机统计软件的调用与结果分析授课方式、方法:授课(66学时)、课堂讨论(13学时)、阶段复习(4学时)、计算机实习(4学时)、考试(3学时)、作业(课余时间)考试方法:闭卷考试教材名称:1.医学统计学,郭祖超主编,人民军医出版社,1999年使用指南,教研室自编,1996年主要参考书目:1.医用数理统计方法(第三版),郭祖超主编,人民卫生出版社,1988年2.中国医学百科全书 · 医学统计学,杨树勤主编,上海科学技术出版社,1985年3.医用统计方法,金丕焕主编,上海医科大学出版社,1993年4.医学统计学与电脑实验,方积乾主编,上海科学技术出版社,1997年预修课程:医学院校基础课程附:《医学统计学》教学要点教学目的和意义:讲授医学统计学基本原理,医学数据的常用统计描述和统计推断方法。要求学员掌握基本的统计计算公式和应用条件,了解医学实验设计的基本原则和计算机统计软件的调用,能独立处理常见的医学试验数据。经过学习,使学员能够在医学科研的设计、数据收集和结果分析的各个阶段正确运用统计学的原理和方法,提高研究效率和科学性。教学内容和重点:医学统计学的基本概念和统计图表、假设检验方法、实验设计与方差分析、计算机统计软件的调用。教学时数分配和学分:绪论、统计指标和统计图表(4学时)、x2检验和t(u)检验(14学时)、方差分析(10学时)、相关回归与曲线拟合(14学时)、统计软件介绍(4学时)、多元回归与逐步回归(13学时)、实验设计(临床试验设计、调查设计)(7学时)、课堂讨论(13学时)、阶段复习(4学时)、计算机实习(4学时)、考试(3学时)、作业(课余时间,约40学时)。讲座比例1∶1。
公式() w检验公式() 偏度系数公式()公式() 峰度系数公式()公式 () g1的抽样误差公式 () g2的抽样误差公式 () g1的u检验u1=g1/Sg1公式 () g2的u检验 u2=g2/Sg2两方差齐性检验公式()F=S12/S22,S1>S2方差分析公式() 总离均差平方和公式() 组间离均差平方和公式() 组内离均差平方和公式() 总变异自由度 ν总=N-1公式()组间变异自由度 ν组间=k-1公式() 组内变异自由度 ν组内=N-k公式() F检验F=组间均方/组内均方多个均数间两两比较公式() 最小显著相差Dα=t,νSA-B公式() 两均数的标准误公式() 平均例数i=1,2,…,k公式() 标准误多个方差齐性检验公式()公式()直线相关公式() 直线相关系数公式() 离均差积和公式() 相关系数t检验直线回归公式() 直线回归方程γ=a+bx公式() 回归系数
科学研究很早就已经从简单的定性分析深入到细致的定量分析,科研工作者要面对大量的数据分析问题,科研数据的统计分析结果直接影响着论文的结果分析。在医学科研写作中,实验设计的方法直接决定了数据采取何种统计学方法,因为每种统计方法都要求数据满足一定的前提和假定,所以论文在实验设计的时候,就要考虑到以后将采取哪种数据统计方法更可靠。医学统计方法的错误千差万别,其中最主要的就是统计方法和实验设计不符,造成数据统计结果不可靠。下面,医刊汇编译列举一些常见的可以避免的问题和错误:打开百度APP,查看更多高清图片一、数据统计分析方法使用错误或不当。医学论文中,最常见的此类错误就是实验设计是多组研究,需要对数据使用方差分析的时候,而作者都采用了两样本的均数检验。二、统计方法阐述不清楚。在同一篇医学论文中,不同数据要采取不同统计处理方法,这就需要作者清楚地描述出每个统计值采用的是何种统计学方法,但在许多使用一种以上数据统计分析方法的医学论文中,作者往往只是简单地把论文采用的数据统计方法进行了整体罗列,并没有对每个数据结果分析分别交代具体的统计方法,这就很难让读者确认某一具体结果作者到底采用的是何种数据分析方法。三、统计表和统计图缺失或者重复。统计表或者统计图可以直观地让读者了解统计结果。一个好的统计表或统计图应该具有独立性,即作者即使不看文章内容,也可从统计表或统计图中推断出正确的实验结果。而一些医学论文只是简单地堆砌了大量的统计数字,缺乏直观的统计图或表;或者虽然也列出了统计表或统计图,但表或图内缺项很多,让读者难以从中提取太多有用的信息。另外,也有作者为了增加文章篇幅,同时列出统计表和统计图,造成不必要的浪费和重复。统计表的优点是详细,便于分析研究各类问题。统计图(尤其是条形统计图)的优点是能够直观反映变量的数量差异。医学论文中对数据统计结果的解释,最常见的两个错误就是过度信赖P值(结果可信程度的一个递减指标)和回避阴性结果。前一个错误的原因是因为一些作者对P值含义理解有误,把数据的统计学意义和研究的临床意义混淆。所以医学研究人员一定要注意不能单纯依靠统计值武断地得出一些结论,一定要把统计结果和临床实践结合在一起,这样才会避免出现类似的错误。至于回避阴性结果,只提供阳性结果,是因为不少作者在研究设计时,难以摆脱的一种单向的思维定式就是主观地先认定自己所预想的某种结果结论。在归纳某种结果原因时,从一个方向的实验就下完美的结论,尤其是如果这个结论可能对实际情形非常有意义时。这样的思维定势过于强调统计差异的显著性,有时会刻意回避报道差异的不显著结果,不思考和探究差异不显著的原因和意义,反而会因此忽视一些重大的科学发现。
用统计学软件SAS A8来计算,什么都能算出来
正确的统计学分析一定要建立在明确的研究目的和研究设计的基础之上,那些事先没有研究目的和研究设计,事后找来一堆数据进行统计分析都是不可取的。 在医学论文的撰、编、审、读过程中经常遇到的问题是研究的题目与课题设计、论文内容不符,包括文章的方法解决不了论文的目的、文章的结果说明不了论文的题目、文章的讨论偏离了论文的主题;还有是目的不明确、设计不合理。如题目过小,论文不够字数,而一些无关紧要的变量指标或结果被分析被讨论;又如题目过大,论文的全部内容不足以说明研究的目的,使论文的论点难以立足。 所以,合理明确的论文题目或目的以及研究设计方案是撰、编、审、读者应当关注的首要问题。此外,样本含量是否满足,抽样是否随机,偏倚是否控制等,也是不可忽视的问题。2、建好分析用的数据库建好数据库是正确统计分析的前提和基础,甚至决定了论文分析结果的成败。对于编、审、读者来讲,一般由于篇幅的限制,往往得不到数据库数据,而只有作者在数据库数据基础上经统计描述计算后给出的诸如各指标均数 x、标准差 s 或中位数 M、百分位数 Px 的“二手”数据,或将研究对象小或特征属性分组,清点各组观察单位出现的个数或频数的频数表数据等。 无论是否能够得到数据库数据,作者在统计分析过程中一定依据数据库数据进行计算,得出结果。如果对“二手”数据或频数表数据的结果等存在疑惑,编辑、审稿专家或读者有权要求作者提供数据库数据以检查其完整性、准确性和真实性,确保研究数据的质量。假若在投稿须知中对数据库数据作出必要的要求,无疑对于保证刊物的发表质量有着积极的意义
1. 多组率的比较用卡方检验(χ2检验,chi-square test)直接用几个率的数值比较,与直接用原始数据录入比较,结果会有什么不同?卡方值会受样本量的影响,样本越多,卡方值越大。2.多组计量资料比较采用方差分析(F检验) ,不能用t检验。当方差分析结果为P<时,只能说明k组总体均数之间不完全相同。若想进一步了解哪两组的差别有统计学意义,需进行多个均数间的多重比较,即SNK-q检验 (多个均数两两之间的全面比较 )、LSD-t检验 (适用于一对或几对在专业上有特殊意义的均数间差别的比较)和Dunnett检验 (适用于k-1个实验组与一个对比组均数差别的多重比较 )。3.非正态分布多组数据之间比较选用非参数检验、单样本中位数检验(符号检验和 Wilcoxon 检验)、双样本中位数检验(Mann-Whitney 检验)、方差分析(Kruskal-Wallis、Mood 中位数和 Friedman 检验)4.按血糖水平从低到高分成多组,进行多组之间死亡率的比较,由于死亡率同样受年龄、性别、病史、血脂等因素的影响,所以需选取合适统计方法实现“调整年龄、性别等危险因素后,按血糖分组进行死亡率的比较(由血糖从低到高分成的4组)”。①年龄是定量变量(是数值),调整年龄的方法可在Logistic回归中运用,连续性变量年龄加入covariate中,当成协变量,就可以调整年龄,age-adjusted odds ratio就能得到了。②性别性别是二分类变量,不是定量变量,不可在LOGISTIC回归里比较。调整性别可在卡方检验中采取分层的方法比较。如果为多分类LOGISTIC回归,在选择用multinomianl LOGISTIC回归中,可选入年龄等进入covariate,观察年龄的配比情况。可把性别选入factors(自变量)。这样可以实现调整年龄、性别等危险因素。5.回顾性研究(1)临床妊娠率和女性年龄的关系+(2)男性影响临床妊 娠的精子参数比较:数据类型及变量的说明:y:计量拟采用的分析方法:卡方检验拟采用的分析软件:spss原始数据附件及格式:word表能否用其他方法统计分析:可用卡方分割,调整检验水准(根据比较的次数N,校正后的检验水准为)。6.重复t检验:多个样本均数间的两两比较(又称多重比较)不宜用t检验,因为重复数次,t检验将增加第一类错误的概率,使检验效率降低。此时宜用方差分析,并在此基础上用两两比较方法(如.SNK、LSD、Duncan法等)。对于同一对均数间的差异,用t检验无显著性,而两两比较可能有显著性,可见错误选用统计方法将推出错误结论。
缺失值的处理:缺失值是人群研究中不可避免的问题,其处理方式的差异可能在不同程度上引入偏倚,因此,详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进行评价。例如,瑞舒伐他汀试验在统计分析部分详细说明了缺失值的填补策略,包括:将二分类结局中的缺失值视为未发生事件;将生物标志物和心电图测量中的缺失值进行多重填补(multiple imputation);为了证明缺失值处理的合理性和填补结果的稳定性,研究还比较了多重填补与完整数据(complete-case)分析的结果。2、数据的预处理:实施统计分析之前往往需要将原始数据进行预处理,如:对连续变量进行函数转换使其更接近正态分布,基于原始数据构建衍生变量,将连续变量拆分为分类变量或将分类变量的不同类别进行合并等。医学论文应报告处理原始数据的方法及依据,瑞舒伐他汀试验即在统计分析部分描述了对血液生物标志物的对数转换。3、变量分布特征描述:确定统计分析使用的变量,并针对每一个变量的分布特征进行描述,是决定研究选用何种统计分析方法的基础。医学期刊虽然普遍对此提出要求,但作者往往套用常用方法,如:连续变量符合正态分布时,采用均数(标准差)描述,否则采用中位数(四分位间距)描述;分类变量采用频数(百分比)描述等。事实上,应根据研究设计类型、统计分析目的和数据特征选择恰当的描述方法。例如,CKB选择采用年龄、性别和地区校正的均值和率来描述人群分布特征,而非简单的报告连续变量的均数和分类变量的构成比。4、主要分析(primary analysis):指针对研究结局的统计分析,是研究论文的核心证据。因此,医学论文应详细描述主要分析的实施过程和适用性。在试验性研究中,应明确统计分析数据集、试验效应指标、相对或绝对风险及其置信区间的计算方法、以及假设检验的方法。
秋风送爽,也给我们送来了刘岭教授的统计说说第五期。这一期的统计学方法之选择大家一定要认真学起来,说不定马上你就会用到了。编者语针对常用的基本统计学方法,一般而言说的就是t检验、单因素方差分析和卡方检验,这也是大家在写论文、阅读论文时经常遇到的统计学方法(几乎每篇文章都会涉及这一种或几种方法),那到底该采用何种统计学方法呢?今天我们就此来聊聊。一、拿到数据开始分析之前,一定要进行数据类型的划分(图1),因为不同数据类型资料,描述的方式不一样,统计学方法也不一样。图1 统计资料的类型举个例子(表1):表1 某地2002年735例65岁以上老年人健康检查记录二、各种类型资料的统计分析(描述与统计推断)1.计量资料特点:每个观察单位的观察值之间有量的区别,有单位;描述形式:最常见采用“X±S”(一般文献中经常见到),用算数均数描述其平均水平,用标准差描述其离散程度。如果遇到数据“特别变态”(特别是标准差大于算数均数),就采用Md(P25,P75)(Md为中位数,P25和P75为四分位数)(表2)。正态分布检验请大家复习:医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验表2 计量资料常用统计指标的特点及其应用场合统计推断方法:一般分为单因素和多因素两种。单因素分析方法分析要点:一是划清数据类型(计量资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是满足正态方差齐性时采用t检验(注意t检验有三种形式哦!)或单因素方差分析,不满足时采用秩和检验(图2)。图2 计量资料统计方法的正确选择提醒两点:① 如果样本数据不服从正态分布的话,那就只能用非参数检验(秩和检验),但其检验效能低于参数检验(t检验或方差分析)。所谓检验效能低就是本身有差异,却没有能力发现其差异。② 如果是两组以上样本的数据时,不能采用t检验(会导致假阳性错误概率增加),应该采用方差分析。若方差分析的P<,需再进一步两两比较,常用的方法为LSD法或SNK法(注意依旧不能采用t检验)。在上两讲内容中我们已经学过t检验(医学科研课堂丨统计说说(二):你的t检验做对了吗?)和方差分析(医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析)了,至于秩和检验,我们以后会逐步介绍滴。多因素分析一般采用回归分析,主要是线性回归分析,以后会给大家介绍此方法。2.计数资料特点:无序分类,同类别中各观察单位之间没有量的差别,但各类别间有质的不同,各类别互不相容。其中二分类一定是计数资料(例如性别只有男/女之分,是否继发某种疾病只有继发/未继发之分),而多分类满足分类在性质上没有程度等级上的差别,即为计数资料(例如婚姻状况包括未婚、已婚、离异、丧偶,就属于多分类,但各分类没有程度等级差别,因此为计数资料,尿糖定性检测结果包括-、+、++、+++、++++,属于具有程度等级差别的多分类资料,就不属于计数资料,属于等级资料了)。描述形式:最常见采用“例数(%)”(一般文献中经常见到),主要要分清构成比(结构相对数)和率(强度相对数)的差别(表3)。而且在应用时,分母(就是样本量啦)一般不宜过小,分母太小不足以反映数据的客观事实,也不稳定。表3 计数资料常用统计指标的特点及其应用场合比如说:1.某地肺癌患者中男性A例,女性B例,则当地肺癌患者的性别比为A/B就是“比”。2.某次研究共检出了致病菌3种,总株数为A+B+C,其中一种致病菌检出株数为A,那么A/(A+B+C)就是构成比,即该种致病菌占总致病菌的比重或分布。3.某研究对患者(总例数为B)进行治疗,结果治愈的患者例数为A,则A/B即为率(可以理解为治愈率)。统计推断方法:一般分为单因素和多因素两种。单因素分析方法分析要点:一是划清数据类型(计数资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是多样本率比较,若卡方检验的P<,需再进一步两两比较,并进行Bonferroni校正,以控制假阳性(图3)。图3 计数资料统计方法的正确选择提醒两点:① 构成比是以100作为基数,各构成部分所占的比重之和必须为100%,故某组成部分所占比重的增减必影响其它组成部分的比重;② 构成比和率在实际应用时容易混淆,主要区别在分母上,所以应正确选择分母。多因素分析一般采用回归分析,主要是Logistic回归分析,以后会给大家介绍此方法。3.等级资料特点:属于多分类资料,满足多分类在性质上有程度等级上的差别,各分类属性按一定顺序排列(有序),即为等级资料。描述形式:最常见采用“例数(%)”(一般文献中经常见到),这和计数资料的描述大体相同,主要区别在于多个分类排列时一定要按照顺序进行(从小到大或从弱到强)。统计推断方法:等级资料的统计分析方法在单因素分析中采用非参数检验(秩和检验),当然对于双向有序R×C资料,也就说分组变量和结局变量都是有序(等级)的情况,构成比的比较采用卡方检验,程度的比较采用秩和检验,趋势关联性的比较用秩相关(也称等级相关)。多因素分析中采用有序Logistic回归。注意:分类变量(计数资料和等级资料)在软件分析操作时,要适当数量化处理(赋值),赋值情况会直接影响统计分析结果的解释。最后用下面这张图来总结基本统计学方法的选择(图4)。图4 常用基本统计学方法的正确选择今天的内容就到这里,同学们多多复习,有什么问题和不懂的可以在下面留言,我们会请刘岭教授一一解答。好了,让我们期待下一期吧!撰稿:刘岭 约稿编辑:刘芹排版:毕丽 审核:王东专家简介刘岭:陆军军医大学卫生统计学教研室副教授,主要从事卫生统计学教学、科研工作。担任中华卫生信息学会第八届统计理论与方法专业委员会委员,重庆市预防医学卫生统计专业委员会副主任委员,并担任《第三军医大学学报》等多家杂志的编委、统计审稿专家。历史推荐医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析 医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验 医学科研课堂丨统计说说(二):你的t检验做对了吗? 医学科研课堂丨统计说说(一):样本量估算是个什么东东?
正确的统计学分析一定要建立在明确的研究目的和研究设计的基础之上,那些事先没有研究目的和研究设计,事后找来一堆数据进行统计分析都是不可取的。 在医学论文的撰、编、审、读过程中经常遇到的问题是研究的题目与课题设计、论文内容不符,包括文章的方法解决不了论文的目的、文章的结果说明不了论文的题目、文章的讨论偏离了论文的主题;还有是目的不明确、设计不合理。如题目过小,论文不够字数,而一些无关紧要的变量指标或结果被分析被讨论;又如题目过大,论文的全部内容不足以说明研究的目的,使论文的论点难以立足。 所以,合理明确的论文题目或目的以及研究设计方案是撰、编、审、读者应当关注的首要问题。此外,样本含量是否满足,抽样是否随机,偏倚是否控制等,也是不可忽视的问题。2、建好分析用的数据库建好数据库是正确统计分析的前提和基础,甚至决定了论文分析结果的成败。对于编、审、读者来讲,一般由于篇幅的限制,往往得不到数据库数据,而只有作者在数据库数据基础上经统计描述计算后给出的诸如各指标均数 x、标准差 s 或中位数 M、百分位数 Px 的“二手”数据,或将研究对象小或特征属性分组,清点各组观察单位出现的个数或频数的频数表数据等。 无论是否能够得到数据库数据,作者在统计分析过程中一定依据数据库数据进行计算,得出结果。如果对“二手”数据或频数表数据的结果等存在疑惑,编辑、审稿专家或读者有权要求作者提供数据库数据以检查其完整性、准确性和真实性,确保研究数据的质量。假若在投稿须知中对数据库数据作出必要的要求,无疑对于保证刊物的发表质量有着积极的意义
医学统计方法概述 第一节 医学统计学 在临床医学中的作用和意义 一、医学统计学 1、统计学 统计学(statistics)是研究数据搜集、整理与分析的科学,是认识社会和自然现象数量特征的重要工具。 2、医学统计学 统计学在医学研究领域的应用称为医学统计学。 医学统计学与生物统计学、卫生统计学是统计学原理和方法在互有联系的不同学科领域的应用,三者间有少许区别,但无截然界限。 二、医学统计学在临床医学中的应用及意义 1、临床科研设计 2、对搜集资料的内在规律进行分析 3、为医务工作者阅读科技文献和撰写科研论文提供工具 第二节 统计工作的基本步骤 统计工作的基本步骤通常分为四步:(研究)设计、搜集资料、整理资料和分析资料。 一.研究设计(design) 设计一般包括专业设计和统计设计。专业设计即确定调查题目、内容等。统计设计包括资料收集、整理与分析。 统计设计包括资料收集、整理与分析全过程的统计设想和科学安排。 设计需考虑以下几方面: 1、研究的目的和假设是什么? 2、研究对象的选择范围是什么?如何确定? 3、研究方法是什么?技术路线如何? 4、具体的研究内容、观察项目与指标是什么? 5、研究对象的数量大小,如何抽样?怎样分组? 6、对观察指标如何进一步计算?具体采用哪些统计分析方法? 7、有哪些可能存在的误差?如何避免与减少其影响? 8、时间、人员、经费方面的安排。 实验三要素:处理因素、受试对象、实验效应 设计四原则:对照、随机化、重复、盲法 二、搜集资料(data collection) 按照设计要求,原则是及时、准确、完整地收集原始数据。 1、病历 2、日常医疗工作记录 3、临床检查与化验记录 4、疾病监测报表 5、专题研究 三、整理资料(data sorting) 1、资料的录入和清理 资料录入前后初步的清理是核实,其次是发现异
科学研究很早就已经从简单的定性分析深入到细致的定量分析,科研工作者要面对大量的数据分析问题,科研数据的统计分析结果直接影响着论文的结果分析。在医学科研写作中,实验设计的方法直接决定了数据采取何种统计学方法,因为每种统计方法都要求数据满足一定的前提和假定,所以论文在实验设计的时候,就要考虑到以后将采取哪种数据统计方法更可靠。医学统计方法的错误千差万别,其中最主要的就是统计方法和实验设计不符,造成数据统计结果不可靠。下面,医刊汇编译列举一些常见的可以避免的问题和错误:打开百度APP,查看更多高清图片一、数据统计分析方法使用错误或不当。医学论文中,最常见的此类错误就是实验设计是多组研究,需要对数据使用方差分析的时候,而作者都采用了两样本的均数检验。二、统计方法阐述不清楚。在同一篇医学论文中,不同数据要采取不同统计处理方法,这就需要作者清楚地描述出每个统计值采用的是何种统计学方法,但在许多使用一种以上数据统计分析方法的医学论文中,作者往往只是简单地把论文采用的数据统计方法进行了整体罗列,并没有对每个数据结果分析分别交代具体的统计方法,这就很难让读者确认某一具体结果作者到底采用的是何种数据分析方法。三、统计表和统计图缺失或者重复。统计表或者统计图可以直观地让读者了解统计结果。一个好的统计表或统计图应该具有独立性,即作者即使不看文章内容,也可从统计表或统计图中推断出正确的实验结果。而一些医学论文只是简单地堆砌了大量的统计数字,缺乏直观的统计图或表;或者虽然也列出了统计表或统计图,但表或图内缺项很多,让读者难以从中提取太多有用的信息。另外,也有作者为了增加文章篇幅,同时列出统计表和统计图,造成不必要的浪费和重复。统计表的优点是详细,便于分析研究各类问题。统计图(尤其是条形统计图)的优点是能够直观反映变量的数量差异。医学论文中对数据统计结果的解释,最常见的两个错误就是过度信赖P值(结果可信程度的一个递减指标)和回避阴性结果。前一个错误的原因是因为一些作者对P值含义理解有误,把数据的统计学意义和研究的临床意义混淆。所以医学研究人员一定要注意不能单纯依靠统计值武断地得出一些结论,一定要把统计结果和临床实践结合在一起,这样才会避免出现类似的错误。至于回避阴性结果,只提供阳性结果,是因为不少作者在研究设计时,难以摆脱的一种单向的思维定式就是主观地先认定自己所预想的某种结果结论。在归纳某种结果原因时,从一个方向的实验就下完美的结论,尤其是如果这个结论可能对实际情形非常有意义时。这样的思维定势过于强调统计差异的显著性,有时会刻意回避报道差异的不显著结果,不思考和探究差异不显著的原因和意义,反而会因此忽视一些重大的科学发现。
秋风送爽,也给我们送来了刘岭教授的统计说说第五期。这一期的统计学方法之选择大家一定要认真学起来,说不定马上你就会用到了。编者语针对常用的基本统计学方法,一般而言说的就是t检验、单因素方差分析和卡方检验,这也是大家在写论文、阅读论文时经常遇到的统计学方法(几乎每篇文章都会涉及这一种或几种方法),那到底该采用何种统计学方法呢?今天我们就此来聊聊。一、拿到数据开始分析之前,一定要进行数据类型的划分(图1),因为不同数据类型资料,描述的方式不一样,统计学方法也不一样。图1 统计资料的类型举个例子(表1):表1 某地2002年735例65岁以上老年人健康检查记录二、各种类型资料的统计分析(描述与统计推断)1.计量资料特点:每个观察单位的观察值之间有量的区别,有单位;描述形式:最常见采用“X±S”(一般文献中经常见到),用算数均数描述其平均水平,用标准差描述其离散程度。如果遇到数据“特别变态”(特别是标准差大于算数均数),就采用Md(P25,P75)(Md为中位数,P25和P75为四分位数)(表2)。正态分布检验请大家复习:医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验表2 计量资料常用统计指标的特点及其应用场合统计推断方法:一般分为单因素和多因素两种。单因素分析方法分析要点:一是划清数据类型(计量资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是满足正态方差齐性时采用t检验(注意t检验有三种形式哦!)或单因素方差分析,不满足时采用秩和检验(图2)。图2 计量资料统计方法的正确选择提醒两点:① 如果样本数据不服从正态分布的话,那就只能用非参数检验(秩和检验),但其检验效能低于参数检验(t检验或方差分析)。所谓检验效能低就是本身有差异,却没有能力发现其差异。② 如果是两组以上样本的数据时,不能采用t检验(会导致假阳性错误概率增加),应该采用方差分析。若方差分析的P<,需再进一步两两比较,常用的方法为LSD法或SNK法(注意依旧不能采用t检验)。在上两讲内容中我们已经学过t检验(医学科研课堂丨统计说说(二):你的t检验做对了吗?)和方差分析(医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析)了,至于秩和检验,我们以后会逐步介绍滴。多因素分析一般采用回归分析,主要是线性回归分析,以后会给大家介绍此方法。2.计数资料特点:无序分类,同类别中各观察单位之间没有量的差别,但各类别间有质的不同,各类别互不相容。其中二分类一定是计数资料(例如性别只有男/女之分,是否继发某种疾病只有继发/未继发之分),而多分类满足分类在性质上没有程度等级上的差别,即为计数资料(例如婚姻状况包括未婚、已婚、离异、丧偶,就属于多分类,但各分类没有程度等级差别,因此为计数资料,尿糖定性检测结果包括-、+、++、+++、++++,属于具有程度等级差别的多分类资料,就不属于计数资料,属于等级资料了)。描述形式:最常见采用“例数(%)”(一般文献中经常见到),主要要分清构成比(结构相对数)和率(强度相对数)的差别(表3)。而且在应用时,分母(就是样本量啦)一般不宜过小,分母太小不足以反映数据的客观事实,也不稳定。表3 计数资料常用统计指标的特点及其应用场合比如说:1.某地肺癌患者中男性A例,女性B例,则当地肺癌患者的性别比为A/B就是“比”。2.某次研究共检出了致病菌3种,总株数为A+B+C,其中一种致病菌检出株数为A,那么A/(A+B+C)就是构成比,即该种致病菌占总致病菌的比重或分布。3.某研究对患者(总例数为B)进行治疗,结果治愈的患者例数为A,则A/B即为率(可以理解为治愈率)。统计推断方法:一般分为单因素和多因素两种。单因素分析方法分析要点:一是划清数据类型(计数资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是多样本率比较,若卡方检验的P<,需再进一步两两比较,并进行Bonferroni校正,以控制假阳性(图3)。图3 计数资料统计方法的正确选择提醒两点:① 构成比是以100作为基数,各构成部分所占的比重之和必须为100%,故某组成部分所占比重的增减必影响其它组成部分的比重;② 构成比和率在实际应用时容易混淆,主要区别在分母上,所以应正确选择分母。多因素分析一般采用回归分析,主要是Logistic回归分析,以后会给大家介绍此方法。3.等级资料特点:属于多分类资料,满足多分类在性质上有程度等级上的差别,各分类属性按一定顺序排列(有序),即为等级资料。描述形式:最常见采用“例数(%)”(一般文献中经常见到),这和计数资料的描述大体相同,主要区别在于多个分类排列时一定要按照顺序进行(从小到大或从弱到强)。统计推断方法:等级资料的统计分析方法在单因素分析中采用非参数检验(秩和检验),当然对于双向有序R×C资料,也就说分组变量和结局变量都是有序(等级)的情况,构成比的比较采用卡方检验,程度的比较采用秩和检验,趋势关联性的比较用秩相关(也称等级相关)。多因素分析中采用有序Logistic回归。注意:分类变量(计数资料和等级资料)在软件分析操作时,要适当数量化处理(赋值),赋值情况会直接影响统计分析结果的解释。最后用下面这张图来总结基本统计学方法的选择(图4)。图4 常用基本统计学方法的正确选择今天的内容就到这里,同学们多多复习,有什么问题和不懂的可以在下面留言,我们会请刘岭教授一一解答。好了,让我们期待下一期吧!撰稿:刘岭 约稿编辑:刘芹排版:毕丽 审核:王东专家简介刘岭:陆军军医大学卫生统计学教研室副教授,主要从事卫生统计学教学、科研工作。担任中华卫生信息学会第八届统计理论与方法专业委员会委员,重庆市预防医学卫生统计专业委员会副主任委员,并担任《第三军医大学学报》等多家杂志的编委、统计审稿专家。历史推荐医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析 医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验 医学科研课堂丨统计说说(二):你的t检验做对了吗? 医学科研课堂丨统计说说(一):样本量估算是个什么东东?