中位数和四分位数是用来描述分布未知或不满足正态分布的数据的集中趋势和离散趋势的,对于这种数据除了进行统计描述外,也可以进行统计推断。
只是采用什么方法需要根据数据分布特征来决定。通过绘制频数分布图、pp图或进行正态性检验可以分析数据的分布特征。如果数据分布满足正态性,就可以通过t检验(两组比较)或方差分析(多组比较)进行比较,如果数据不满足正态性,就可以采用秩和检验的方法进行比较。
当然,也可以将原始数据通过变量变换后,再采用t检验和方差分析的方法进行比较。以上的分析可以借助stata、spss、sas等统计软件实现。具体方法在医学统计论坛版上有许多的讨论,也可以去看看统计学教材。
应用
不论Q1,Q2,Q3的变异量数数值为何,均视为一个分界点,以此将总数分成四个相等部份,可以通过Q1,Q3比较,分析其数据变量的趋势。
四分位数在统计学中的箱线图绘制方面应用也很广泛。所谓箱线图就是 由一组数据5 个特征绘制的一个箱子和两条线段的图形,这种直观的箱线图不仅能反映出一组数据的分布特征,而且还可以进行多组数据的分析比较。这五个特征值,即数据的最大值、最小值、中位数和两个四分位数。即:
秋风送爽,也给我们送来了刘岭教授的统计说说第五期。这一期的统计学方法之选择大家一定要认真学起来,说不定马上你就会用到了。
编者语
针对常用的基本统计学方法,一般而言说的就是t检验、单因素方差分析和卡方检验,这也是大家在写论文、阅读论文时经常遇到的统计学方法(几乎每篇文章都会涉及这一种或几种方法),那到底该采用何种统计学方法呢?今天我们就此来聊聊。
一、拿到数据开始分析之前,一定要进行数据类型的划分(图1),因为不同数据类型资料,描述的方式不一样,统计学方法也不一样。
图1 统计资料的类型
举个例子(表1):
表1 某地2002年735例65岁以上老年人健康检查记录
二、各种类型资料的统计分析(描述与统计推断)
1.计量资料
特点:每个观察单位的观察值之间有量的区别,有单位;
描述形式:最常见采用“X±S”(一般文献中经常见到),用算数均数描述其平均水平,用标准差描述其离散程度。如果遇到数据“特别变态”(特别是标准差大于算数均数),就采用Md(P25,P75)(Md为中位数,P25和P75为四分位数)(表2)。正态分布检验请大家复习:医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验
表2 计量资料常用统计指标的特点及其应用场合
统计推断方法:一般分为单因素和多因素两种。
单因素分析方法分析要点:一是划清数据类型(计量资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是满足正态方差齐性时采用t检验(注意t检验有三种形式哦!)或单因素方差分析,不满足时采用秩和检验(图2)。
图2 计量资料统计方法的正确选择
提醒两点:
① 如果样本数据不服从正态分布的话,那就只能用非参数检验(秩和检验),但其检验效能低于参数检验(t检验或方差分析)。所谓检验效能低就是本身有差异,却没有能力发现其差异。
② 如果是两组以上样本的数据时,不能采用t检验(会导致假阳性错误概率增加),应该采用方差分析。若方差分析的P<0.05,需再进一步两两比较,常用的方法为LSD法或SNK法(注意依旧不能采用t检验)。
在上两讲内容中我们已经学过t检验(医学科研课堂丨统计说说(二):你的t检验做对了吗?)和方差分析(医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析)了,至于秩和检验,我们以后会逐步介绍滴。
多因素分析一般采用回归分析,主要是线性回归分析,以后会给大家介绍此方法。
2.计数资料
特点:无序分类,同类别中各观察单位之间没有量的差别,但各类别间有质的不同,各类别互不相容。其中二分类一定是计数资料(例如性别只有男/女之分,是否继发某种疾病只有继发/未继发之分),而多分类满足分类在性质上没有程度等级上的差别,即为计数资料(例如婚姻状况包括未婚、已婚、离异、丧偶,就属于多分类,但各分类没有程度等级差别,因此为计数资料,尿糖定性检测结果包括-、+、++、+++、++++,属于具有程度等级差别的多分类资料,就不属于计数资料,属于等级资料了)。
描述形式:最常见采用“例数(%)”(一般文献中经常见到),主要要分清构成比(结构相对数)和率(强度相对数)的差别(表3)。而且在应用时,分母(就是样本量啦)一般不宜过小,分母太小不足以反映数据的客观事实,也不稳定。
表3 计数资料常用统计指标的特点及其应用场合
比如说:
1.某地肺癌患者中男性A例,女性B例,则当地肺癌患者的性别比为A/B就是“比”。
2.某次研究共检出了致病菌3种,总株数为A+B+C,其中一种致病菌检出株数为A,那么A/(A+B+C)就是构成比,即该种致病菌占总致病菌的比重或分布。
3.某研究对患者(总例数为B)进行治疗,结果治愈的患者例数为A,则A/B即为率(可以理解为治愈率)。
统计推断方法:一般分为单因素和多因素两种。
单因素分析方法分析要点:一是划清数据类型(计数资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是多样本率比较,若卡方检验的P<0.05,需再进一步两两比较,并进行Bonferroni校正,以控制假阳性(图3)。
图3 计数资料统计方法的正确选择
提醒两点:
① 构成比是以100作为基数,各构成部分所占的比重之和必须为100%,故某组成部分所占比重的增减必影响其它组成部分的比重;
② 构成比和率在实际应用时容易混淆,主要区别在分母上,所以应正确选择分母。
多因素分析一般采用回归分析,主要是Logistic回归分析,以后会给大家介绍此方法。
3.等级资料
特点:属于多分类资料,满足多分类在性质上有程度等级上的差别,各分类属性按一定顺序排列(有序),即为等级资料。
描述形式:最常见采用“例数(%)”(一般文献中经常见到),这和计数资料的描述大体相同,主要区别在于多个分类排列时一定要按照顺序进行(从小到大或从弱到强)。
统计推断方法:等级资料的统计分析方法在单因素分析中采用非参数检验(秩和检验),当然对于双向有序R×C资料,也就说分组变量和结局变量都是有序(等级)的情况,构成比的比较采用卡方检验,程度的比较采用秩和检验,趋势关联性的比较用秩相关(也称等级相关)。多因素分析中采用有序Logistic回归。
注意:分类变量(计数资料和等级资料)在软件分析操作时,要适当数量化处理(赋值),赋值情况会直接影响统计分析结果的解释。
最后用下面这张图来总结基本统计学方法的选择(图4)。
图4 常用基本统计学方法的正确选择
今天的内容就到这里,同学们多多复习,有什么问题和不懂的可以在下面留言,我们会请刘岭教授一一解答。好了,让我们期待下一期吧!
撰稿:刘岭 约稿编辑:刘芹
排版:毕丽 审核:王东
专家简介
刘岭:陆军军医大学卫生统计学教研室副教授,主要从事卫生统计学教学、科研工作。担任中华卫生信息学会第八届统计理论与方法专业委员会委员,重庆市预防医学卫生统计专业委员会副主任委员,并担任《第三军医大学学报》等多家杂志的编委、统计审稿专家。
历史推荐
医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析
医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验
医学科研课堂丨统计说说(二):你的t检验做对了吗?
医学科研课堂丨统计说说(一):样本量估算是个什么东东?
计量资料指连续的数据,通常有具体的数值,如身高、体重、血压、血红蛋白、胆红素和白蛋白等。
在计量过程中,认为所使用量具和仪器是标准的,用它们来校准、检定受检量具和仪器设备,以衡量和保证使用受检量具仪器进行测量时所获得测量结果的可靠性。
计量资料的数据分布特征有三种情况:集中趋势(涉及量:均数、几何均数、中位数)、离散程度(涉及量:极差、百分位数和四分位数间距、方差、标准差、变异系数)、分布形状(正态分布、偏态分布);计量资料的统计推断包括参数估计和假设检验。
扩展资料
统计描述:
1、集中趋势
(1)算术平均是平均数水平,应用甚广,最适用于对称分布,特别是正态分布;
(2)几何均数是平均增(减)倍数,它应用于等比资料,对数正态分布;
(3)中位数是位次居中的观察值水平,应用于偏态分布,分布不明,或分布末端无确定值情况。
2、离散程度
描述一组计量资料离散趋势的常用指标有极差、百分位数、四分位数间距、方差、标准差和变异系数等,其中方差和标准差最常用。
集中趋势和离散程度的指标分别反映资料的不同特征,作为资料的总结性统计量,在统计描述时两类指标要求一起使用,如正态或近似正态分布的资料常用均数±标准差,偏态分布的资料常用中位数和四分位数间距。
参考资料来源:百度百科-计量资料
参考资料来源:百度百科-计量
医学统计论文
医学统计是研究如何搜集、整理和分析医学研究对象的数据和作出推断的一门学科,下面是我为大家收集整理的是医学统计论文,仅供参考。
摘要: 不同的统计分析方法均有其适用的范围和应用的条件,研究者在书写医学论文时应根据论文设计及资料的类型进行合理的试验设计,选择恰当的统计分析方法,切记勿盲目套用。同时,还应注意得出的结果和结论应满足设计的要求。医学统计方法的正确运用,是充分利用试验研究获得的数据,也是最终得出科学、可信的结论的必要条件。
关 键词 :医学统计;方法;运用;原理;选择
一、统计学方法简介
统计学方法包括统计软件包、统计分析方法以及检验水准三方面的内容。其中医学论文中常提到检验水准即α,它是用来表示组间实际无差别而统计结果判断有差别,犯这类错误的概率。实际工作中常取α=0.05,当研究数据计算的P值小于0.05时,组间差异比较被认为有统计学意义。统计学方法包括统计描述和假设检验两个方面的内容。统计描述是指根据资料及原始数据分布的类型,选择正确的指标来描叙资料及数据的特征。而假设检验即组间差异性检验,是医学论文中最常用的统计学方法。资料类型则包括能用具体数据表示的定量资料与不能用具体数值表示但能反映被观察对象某一特征的定性资料。定性资料的统计描述包括率、相对比和构成比。而参数法及非参数法是常用的定量资料统计分析方法。参数法一般包括t检验、方差分析,非参数法常用的有秩和检验。
二、试验设计中的统计学原理
合理的试验设计与统计处理的可信度存在直接联系,研究者在编写医学论文时应对医学研究设计方法进行说明。在进行试验设计时应遵循随机、对照、均衡和重复四大原则。在进行试验设计的时候通常会涉及到研究对象的选择,研究对象的分组及选择合理的检测指标三个方面的内容。
医学论文就是通过对样本的研究来进行推断总体,找出其共性,得出结论。因此研究者在选择研究对象时应注意选择样本应具有一定数量,能反映出该事物的规律性特征,但又应注意例数不能太多,以免造成不必要的浪费。其选择的原则就是在保证试验结果可靠性的前提下选择最少的样本例数。研究者在选择样本对象后应对其基本特征进行详细的描述,比如患者的年龄、性别、病理分期、疾病诊断的标准等。此外在试验中所用到的试剂、仪器的型号、规格等都应作出说明,以供读者借鉴和做出判断。选定好研究对象后就要对其进行分组。在进行分组时研究者一般遵循统计学中的“随机分配”、“设立对照”以及“均衡”、“重复”的原则。随机化原则是提高组间均衡性的一个重要手段,也是资料分析时进行统计推断的前提。有对照才有比较,在进行组间比较时,应确定好处理因素与实验效应的关系。均衡性则是要使得对结果产生影响的非处理因素尽可能保持一致,这样才能保证对照的结果让人信服。观察实验效应的.指标主要有主观指标与客观指标。正所谓主观指标就是通过问答的方式调查受试者自己判断的主观感受;而客观指标则是通过仪器来检验和测量所得出的结果。在进行试验设计时应选择客观性较强、高灵敏性和精确性的指标。
三、统计学方法的选择
统计学方法的正确选择是直接影响到论文结论可信度的重要依据,因此研究者在编写论文时应注意选择合适的统计学方法。不同的统计学方法应用的范围不同。研究者在编写医学论文时常根据论文研究的目的、资料类型、试验设计的方案、样品大小、水平数、特定条件、数据分布特征以及综合分析等来选择对应的统计方法,同时还要根据专业知识与资料的实际情况,结合统计学原则,灵活地选择。当定性资料正态分布时,研究者一般用均数和标准差来表示统计描述指标;当定性资料不符合正态分布时,则可选用中位数及级差来表示;当定量资料正态分布且组间方差齐时一般选用参数法,反之则选用非参数法。t检验一般适用于小样本(n<50)的定量资料且方差齐的两组数据之间的比较。其特点是在均方差不知道的情况下,可以检验样本平均数的显著性,大样本(n≥50)采用u检验;多个样本均数两两比较则用方差分析,如差异有统计学意义,可采用q检验;Dunnett检验则适用于多个实验组与一个对照组均数的比较。定性资料中,表现为互不相容的类别或属性,分为二分类和多类反应,如治疗结果为显著和好转的人数等,该种资料可选用字检验,大样本(n≥50)时采用u检验。如:患者的治疗结果评定为痊愈、显著有效、好转、无效或死亡。该种资料可选用秩和检验或u检验。总之,不论论文中选用的是哪种统计学方法,都要计算出检验值,然后再根据统计量值来判定P值的大小,结论一般描述为“差异有(无)统计学意义”。
四、常见统计学方法的误用分析及对策
1.统计方法误用。最常见统计方法误用是对等级资料进行比较时应用秩和检验而误用卡方检验。例如:在评价采取不同治疗方法的两组急性脑血管病患者疗效中,治疗组显著有效、有效、无效三种分型分别为15例、10例、8例,对照组分别为14例、11例、9例。本资料例数较少,应选用等级比较的秩和检验,而有些作者却认为只要是率的比较就可以采用字检验。研究者在选择统计学方法时应根据相应的原则,对文章研究目的、资料类型、样品大小、水平数、数据分布特征等进行综合分析后,再来选择对应的统计方法。
2.选用检验方法错误。在有些论文中,作者常将本应用方差分析和q检验的误用t检验。t检验一般适用于小样本(n<50)定量资料且方差齐的两组数据之间的比较,而方差分析及q检验主要用于对多个样本均数进行比较,几种不同治疗或处理方法等的同时比较。例如:在讨论中、西以及中西医结合治疗急性脑血管病时,两组患者的年龄、病程、病情严重程度等差别均无统计学意义,比较三组患者的一些指标变化。组间多重比较应用q检验,但文中作者采用的是t检验,对三组均数进行两两比较。这不仅造成了资料的利用率低,也增加了假阳性的概率,降低了试验结果的可信度。
五、结论表述中的统计学应用
资料的统计处理不是医学研究工作的最终目的,而是通过统计学分析为研究结论提供依据或者线索。因此,在对统计资料进行分析后应把握统计学术语,对结论做出科学的分析跟解释。在根据统计结果得出专业结论时研究者应遵循一个重要原则,就是统计结论都是概率性的,不能绝对地肯定或否定。研究者习惯上将“P<0.05”称为显著性,不应误解为差别很大或者在医学上有显著的价值。统计推断是以一定的概率界值为依据,说明来自同一总体的可能性大小。“差异有统计学意义”说明在试验中的差异不能用抽象误差进行解释;“差异无统计学意义”表明在试验既定的条件下,差异可能是因抽象误差引起的,在增加样本数量的情况下,差异可能变成“有统计学意义”。
参考文献:
[1]医学统计工作的基本内容[J].国际检验医学杂志,2013(19):2563.
[2]关红阳,郭轶男.医学统计t检验的分析研究[J].中国校外教育,2013(30):114.
论文研究对象那个表是论文研究对象基线资料。
通常医学科研论文的第一张表格汇总的是研究对象基线资料,也称为Table1,tableone命令也存在一定的缺陷,如不能提供组间比较的统计量,又如符合正态分布的变量。
会以均数(标准差)形式表示,这些对SCI文章来说,是比较正常的。国内杂志需要我们提供组间比较的统计量,而且符合正态分布的变量,通常是以均数±标准差的形式表示。
论文研究对象基线资料表示技巧
数值变量,符合正态性,用均数(标准差)表示,采用t检验比较组间差异;不符合正态性,中位数(四分位数间距)表示,采用Man-Whitney U检验比较组间差异。分类变量采用频数(百分比)表示,采用卡方检验或精确概率法进行比较组间差异。
多组比较,数值变量,符合正态性,用均数(标准差)表示,采用方差分析比较组间差异;不符合正态性,用中位数(四分位数间距)表示,采用kruskal.test 检验比较组间差异。分类变量采用频数(百分比)表示,采用卡方检验或精确概率法进行比较组间差异。