如果研究一个X或多个X对Y的影响关系,其中Y为定量数据,可使用线性回归分析,构建回归模型。如果研究一个X或多个X对Y的影响关系,其中Y为定类数据,可使用Logistic分析,构建Logistic回归模型。如果要分析1组X与一组Y之间的关系情况,可使用典型相关分析。如果要分析多个X与多个Y之间的影响关系情况,且样本量较小(通常小于200),可使用PLS回归分析。
科学研究很早就已经从简单的定性分析深入到细致的定量分析,科研工作者要面对大量的数据分析问题,科研数据的统计分析结果直接影响着论文的结果分析。在医学科研写作中,实验设计的方法直接决定了数据采取何种统计学方法,因为每种统计方法都要求数据满足一定的前提和假定,所以论文在实验设计的时候,就要考虑到以后将采取哪种数据统计方法更可靠。医学统计方法的错误千差万别,其中最主要的就是统计方法和实验设计不符,造成数据统计结果不可靠。下面,医刊汇编译列举一些常见的可以避免的问题和错误:打开百度APP,查看更多高清图片一、数据统计分析方法使用错误或不当。医学论文中,最常见的此类错误就是实验设计是多组研究,需要对数据使用方差分析的时候,而作者都采用了两样本的均数检验。二、统计方法阐述不清楚。在同一篇医学论文中,不同数据要采取不同统计处理方法,这就需要作者清楚地描述出每个统计值采用的是何种统计学方法,但在许多使用一种以上数据统计分析方法的医学论文中,作者往往只是简单地把论文采用的数据统计方法进行了整体罗列,并没有对每个数据结果分析分别交代具体的统计方法,这就很难让读者确认某一具体结果作者到底采用的是何种数据分析方法。三、统计表和统计图缺失或者重复。统计表或者统计图可以直观地让读者了解统计结果。一个好的统计表或统计图应该具有独立性,即作者即使不看文章内容,也可从统计表或统计图中推断出正确的实验结果。而一些医学论文只是简单地堆砌了大量的统计数字,缺乏直观的统计图或表;或者虽然也列出了统计表或统计图,但表或图内缺项很多,让读者难以从中提取太多有用的信息。另外,也有作者为了增加文章篇幅,同时列出统计表和统计图,造成不必要的浪费和重复。统计表的优点是详细,便于分析研究各类问题。统计图(尤其是条形统计图)的优点是能够直观反映变量的数量差异。医学论文中对数据统计结果的解释,最常见的两个错误就是过度信赖P值(结果可信程度的一个递减指标)和回避阴性结果。前一个错误的原因是因为一些作者对P值含义理解有误,把数据的统计学意义和研究的临床意义混淆。所以医学研究人员一定要注意不能单纯依靠统计值武断地得出一些结论,一定要把统计结果和临床实践结合在一起,这样才会避免出现类似的错误。至于回避阴性结果,只提供阳性结果,是因为不少作者在研究设计时,难以摆脱的一种单向的思维定式就是主观地先认定自己所预想的某种结果结论。在归纳某种结果原因时,从一个方向的实验就下完美的结论,尤其是如果这个结论可能对实际情形非常有意义时。这样的思维定势过于强调统计差异的显著性,有时会刻意回避报道差异的不显著结果,不思考和探究差异不显著的原因和意义,反而会因此忽视一些重大的科学发现。
缺失值的处理:缺失值是人群研究中不可避免的问题,其处理方式的差异可能在不同程度上引入偏倚,因此,详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进行评价。例如,瑞舒伐他汀试验在统计分析部分详细说明了缺失值的填补策略,包括:将二分类结局中的缺失值视为未发生事件;将生物标志物和心电图测量中的缺失值进行多重填补(multiple imputation);为了证明缺失值处理的合理性和填补结果的稳定性,研究还比较了多重填补与完整数据(complete-case)分析的结果。2、数据的预处理:实施统计分析之前往往需要将原始数据进行预处理,如:对连续变量进行函数转换使其更接近正态分布,基于原始数据构建衍生变量,将连续变量拆分为分类变量或将分类变量的不同类别进行合并等。医学论文应报告处理原始数据的方法及依据,瑞舒伐他汀试验即在统计分析部分描述了对血液生物标志物的对数转换。3、变量分布特征描述:确定统计分析使用的变量,并针对每一个变量的分布特征进行描述,是决定研究选用何种统计分析方法的基础。医学期刊虽然普遍对此提出要求,但作者往往套用常用方法,如:连续变量符合正态分布时,采用均数(标准差)描述,否则采用中位数(四分位间距)描述;分类变量采用频数(百分比)描述等。事实上,应根据研究设计类型、统计分析目的和数据特征选择恰当的描述方法。例如,CKB选择采用年龄、性别和地区校正的均值和率来描述人群分布特征,而非简单的报告连续变量的均数和分类变量的构成比。4、主要分析(primary analysis):指针对研究结局的统计分析,是研究论文的核心证据。因此,医学论文应详细描述主要分析的实施过程和适用性。在试验性研究中,应明确统计分析数据集、试验效应指标、相对或绝对风险及其置信区间的计算方法、以及假设检验的方法。
一、统计学论文中的研究方法 1、大量观察法 这是统计活动过程中搜集数据资料阶段(即统计调查阶段)的基本方法:即要对所研究现象总体中的足够多数的个体进行观察和研究,以期认识具有规律性的总体数量特征。大量观察法的数理依据是大数定律,大数定律是指虽然每个个体受偶然因素的影响作用不同而在数量上存有差异,但对总体而言可以相互抵消而呈现出稳定的规律性,因此只有对足够多数的个体进行观察,观察值的综合结果才会趋向稳定,建立在大量观察法基础上的数据资料才会给出一般的结论。统计学的各种调查方法都属于大量观察法。 2、统计分组法 由于所研究现象本身的复杂性、差异性及多层次性,需要我们对所研究现象进行分组或分类研究,以期在同质的基础上探求不同组或类之间的差异性。统计分组在整个统计活动过程中都占有重要地位,在统计调查阶段可通过统计分组法来搜集不同类的资料,并可使抽样调查的样本代表性得以提高(即分层抽样方式);在统计整理阶段可以通过统计分组法使各种数据资料得到分门别类的加工处理和储存,并为编制分布数列提供基础;在统计分析阶段则可以通过统计分组法来划分现象类型、研究总体内在结构、比较不同类或组之间的差异(显著性检验)和分析不同变量之间的相关关系。统计学中的统计分组法有传统分组法、判别分析法和聚类分析法等。 3、综合指标法 统计研究现象的数量方面的特征是通过统计综合指标来反映的。所谓综合指标,是指用来从总体上反映所研究现象数量特征和数量关系的范畴及其数值,常见的有总量指标、相对指标,平均指标和标志变异指标等。综合指标法在统计学、尤其是社会经济统计学中占有十分重要的地位,是描述统计学的核心内容。如何最真实客观地记录、描述和反映所研究现象的数量特征和数量关系,是统计指标理论研究的一大课题。
如果研究一个X或多个X对Y的影响关系,其中Y为定量数据,可使用线性回归分析,构建回归模型。如果研究一个X或多个X对Y的影响关系,其中Y为定类数据,可使用Logistic分析,构建Logistic回归模型。如果要分析1组X与一组Y之间的关系情况,可使用典型相关分析。如果要分析多个X与多个Y之间的影响关系情况,且样本量较小(通常小于200),可使用PLS回归分析。
正确的统计学分析一定要建立在明确的研究目的和研究设计的基础之上,那些事先没有研究目的和研究设计,事后找来一堆数据进行统计分析都是不可取的。 在医学论文的撰、编、审、读过程中经常遇到的问题是研究的题目与课题设计、论文内容不符,包括文章的方法解决不了论文的目的、文章的结果说明不了论文的题目、文章的讨论偏离了论文的主题;还有是目的不明确、设计不合理。如题目过小,论文不够字数,而一些无关紧要的变量指标或结果被分析被讨论;又如题目过大,论文的全部内容不足以说明研究的目的,使论文的论点难以立足。 所以,合理明确的论文题目或目的以及研究设计方案是撰、编、审、读者应当关注的首要问题。此外,样本含量是否满足,抽样是否随机,偏倚是否控制等,也是不可忽视的问题。2、建好分析用的数据库建好数据库是正确统计分析的前提和基础,甚至决定了论文分析结果的成败。对于编、审、读者来讲,一般由于篇幅的限制,往往得不到数据库数据,而只有作者在数据库数据基础上经统计描述计算后给出的诸如各指标均数 x、标准差 s 或中位数 M、百分位数 Px 的“二手”数据,或将研究对象小或特征属性分组,清点各组观察单位出现的个数或频数的频数表数据等。 无论是否能够得到数据库数据,作者在统计分析过程中一定依据数据库数据进行计算,得出结果。如果对“二手”数据或频数表数据的结果等存在疑惑,编辑、审稿专家或读者有权要求作者提供数据库数据以检查其完整性、准确性和真实性,确保研究数据的质量。假若在投稿须知中对数据库数据作出必要的要求,无疑对于保证刊物的发表质量有着积极的意义
需要。数据引用的过程中,一定要标明数据的出处,以保证数据的科学性。