统计预测论文范文

统计学是一门实质性的社会科学，既研究社会生活的客观规律，也研究统计方法。下文是我为大家整理的关于统计相关论文的范文，欢迎大家阅读参考!

浅谈概率在统计学中的应用

摘要：概率是研究随机现象的数学学科，其理论严谨、应用广泛、发展迅速。目前，概率的理论与方法已广泛应用于统计学中，主要是从正态分布、小概率事件两方面介绍了概率在统计学中的一些应用。

关键词：随机现象;事件;样本;母体;正态分布;小概率原理

统计学主要分为描述性统计学和推断性统计学。给定一组数据统计学可以摘要并且描述这些数据，这个用法称为描述性统计学。另外，观察者以数据的形式建立起一个用以解释其随机性和不确定性的数学模型，以之来推论研究中的步骤及母体，这种用法被称为应用统计学。另外，还有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础。

同一仪器多次测量同一物体的重量，所得的结果彼此总是略有差异，这是由于诸如测量仪器受大气影响，观察者身体或心理上的变化等等偶然因素引起的。同样的，同一门炮向同一目标发射多发同种炮弹，弹落点也不一样，因为炮弹制造时的种种偶然因素对炮弹质量也会有影响。此外，炮筒位置的误差，天气条件的微小变化等等都影响弹落点。再如从某生产线上用同一种工艺生产出来的灯泡寿命也是有差异的等等。

总之所举这些现象的一个共同点是：在基本条件不变的情况下，经过一系列试验或观察会得到不同的结果。换句话说，就个别的试验结果或观察结果而言，它会时而出现这种结果，时而出现那种结果，呈现出一种偶然性。这种现象称为随机现象。对于随机现象通常关心的是在试验或观察中某个结果是否出现，这种结果称为随机事件，简称事件。为了实际的理由选择研究团体的子集代替研究母体的每一笔资料，这个子集称作样本。推论统计学被用来将资料中的数据模型化，计算它的几率并且做出对于母体的推论，这个推论可能以对或错的答案呈现(假设检验)出对未来观察的预测，关联性的预测，或是将关系模式化(回归)。

随机现象有其偶然性的一面，也有其必然性的一面。这种必然性表现为大量试验中随机事件出现的频率的稳定性，即一个随机事件的频率常在某个固定的常数附近摆动，这种规律我们称之为统计规律性。频率的稳定性说明随机事件发生的可能性的大小是随机事件本身所固有的，不随人们的意志而改变的一种客观属性，因此可以对它进行度量。对于一个随机事件A用一个数p(A)来表示该事件发生的可能性的大小，这个数p(A)就称为随机事件A的概率，因此概率度量了随机事件发生的可能性的大小。

如果样本足以代表母体，那么由样本所做的推论和结论可以引申到整个母体之上，统计学提供了许多方法来估计和修正样本资料过程中的随机性(误差)。要了解随机性的一定几率必须具备基本的数学观念。数理统计是应用数学的分支，它使用几率论来分析并且验证统计的理论基础。

概率在统计学中有着重要的作用，包括总体、抽样研究、统计描述、统计推断、正态分布规律等，正态分布是概率中最重要的一种分布。一方面正态分布是自然界最常见的一种分布，例如测量的误差;炮弹弹落点的分布;人的生理特征的尺寸：身长、体重等;农作物的收获量;工厂产品的尺寸：直径、长度、宽度、高度，都近似服从正态分布。

一般来说若影响某一个数量指标的随机因素很多，而每个因素所起的作用又不太大，则服从正态分布这点可以用概率论的极限定理来加以证明。另一方面正态分布具有许多良好的性质，许多分布可用正态分布来近似，另外一些分布又可由正态分布来导出，因此在理论研究中，正态分布十分重要。如利用正态分布规律统计学校的成绩分布，得出一个阶段的学生总体是否进步，然后寻找原因，得出改进办法。分析一年经济的发展，预测来年的收入。找出影响发展的主要因素，寻求改进的方法等等。

小概率事件即发生概率很小的事件(p≤0.05)，在统计学中有着重要的应用，这样的事件理论上发生的可能性则几乎为零。如买彩票中大奖，就是典型的小概率事件，也许每一期均会有大奖开出(可能性很小)，但对于每一个彩民来说，他买一注中大奖的可能性(小概率事件在一次试验中就发生的概率几乎没有。其实，这就是小概率事件在统计学上应用的重要理论依据——小概率原理。)即小概率事件在一次试验中发生的可能性很小，如果真的发生了，根据统计学可怀疑其真实性。

如某接待站在一天内共接待5人单独来访，结果这5人全在周一到访，由此能否推断接待站有规定的接待日?假定没有规定的接待日，一个来访者在五天中任何一天来访都是等可能的用Am(m=1,2,3,4,5,)表示“一周接待了m个人，全都是周一来访”事件，Am的概率如下表示：

事件 A1概率 0.2 事件 A2概率 0.22

事件 A3概率 0.23 事件 A4概率 0.24

事件 A5概率 0.25

5个人都在周一来访的概率为0.00032，大约万分之三。现在概率很小的事件在一次试验中发生了，于是怀疑假定的正确性，从而推断接待站有规定的接待日。

公元1814年，拉普拉斯在他的新作中，记载了一个有趣的统计，世界上男婴与女婴的出生比值是22∶21，即在出生的婴儿中，男婴占51.2%，女婴占48.8%，可奇怪的是1745-1784年四十年间统计巴黎男婴的出生率时，却得到另一个比是25∶24，男婴占51.02%，与前者相差0.18%，对于这千分之一点八的微小差异，进行调查研究，发现巴黎人有“重女轻男”的现象，有抛弃男婴的陋习，以至于歪曲了出生率，经过修正出生比依然是22∶21。统计学依据小概率原理作出结论的正确性很高，但也存在犯错误的风险(较低)。

小概率原理在统计上有着非常重要的应用。如假设检验结论的判断，假设检验是用样本信息推测总体的一种统计推断方法，由于抽样误差的存在，样本信息和总体特征间可能不尽相同，所以假设检验实际上就是判断待比较各方的差别是不是由抽样误差造成的。假设检验中p值的大小反映的就是差别由抽样误差造成的概率。在假设检验中就是通过比较p值与检验水准a(通常设为0.05)的大小关系,从而做出差别有无统计学意义。

如果p值小于a统计学则认为差别由抽样误差造成的概率很低,那么根据小概率原理认为,小概率事件在一次抽样中就发生的可能性几乎为零,所以判定差别可能是由于比较各方在本质上的不同导致的。否则认为差别是由抽样误差造成的。在这里检验水准是在假设检验前认为设定的，是研究者能够承受的本次假设检验放弃真错误的概率，也可以理解为是研究者设立的小概率事件的概率。而p值则是通过计算，即在检验假设成立的情况下，差别是由抽样误差造成的概率。

统计在现代化管理和社会生活中的地位日益重要，随着社会经济和科学技术的发展统计在现代化国家管理和企业管理中的地位越来越重要，人们的日常生活都离不开统计，统计的影响是这样巨大，故与之密切相关的概率的作用也越来越重要。

浅谈统计学基础教学方法与学生应用能力的培养

摘要:统计学基础知识是一门研究数据的技术性学科,具有综合性,抽象性及应用面广等特点,通过该课程的教学能培养学生运用统计工具,系统的分析问题和解决问题的能力。在中职教学中需结合本学科的特点,不断改进教学方法,提高学生综合应用统计知识的能力。

关键词:统计学教学方法设计能力培养

统计学基础知识是一门研究数据的技术性学科,学科内容中的调查研究和分析处理问题的方法,不仅应用于各项工作中,也用于其他学科研究过程中的数据搜集、整理、分析并得出结论。故统计学具有综合性,抽象性,应用面广等特点,通过该课程的教学能培养学生运用统计工具,系统的分析问题和解决问题的能力。现结合本学科的特点探讨其教学方法和学生应用能力的培养。

一、统计学基础课程教学的特点

统计学基础也是社会经济统计学原理,其学科内容的特点:一是基本概念多,理论讲授上较抽象;二是指标类别多,初学时严格划清各种指标内涵难;三是调查分析方法多,正确理解和选择恰当的调查方法难;四是正确的调查方式、方法指标体系的设置,统计范围的界定与是否得出反映事物的正确结论直接相关;五是科学设置调查事物的指标体系又与弄清反映该事物的客观内在本质的相关指标直接相关。因此,对年龄小,分析能力差的中职学生教学对象来讲,即便从概念上掌握了统计学的原理,如果不结合实际的统计案例资料和采用恰当的教学方法,就很难达到正确应用统计知识解决现实社会经济中问题的目的,甚至会因为错误使用方法,得出对事物评判的错误结论。

二、结合本学科知识的特点采用适当的教学方法,增强应用能力的培养

在教学中,首先通过对教材内容体系的全面分析和教学对象知识结构的分析,以及学生对统计学知识学习的兴趣、理解的深度和掌握应用情况的总结,在教学中的不同环节恰当地实施不同的教学方法。

1、通过学科内容体系导入与工作任务联系,提升学生学习兴趣

在讲授本学科内容时,首先给学生介绍统计学基础教材内容的基本框架:统计学的涵义、研究对象、性质、职能和研究的基本方法。其次是介绍学科知识体系:统计学中的基本概念,统计资料调查整理的方式方法,统计数据的显示与提供,以及提供的统计数字资料运用多种指标法进行分析(总量指标法--反映事物的规模状况,平均指标法--反映事物的集中趋势及一般规律,相对指标法--反映事物的纵向横向比较和事物之间的联系,标准差法--反映事物中总体单位标志值之间的离散趋势和程度,分析事物之间的差异。统计指数法--反映事物中各种直接因素的影响。

时间数列法--反映事物在时间段上的发展变化趋势。抽样调查法--统计专门调查方法中最科学的方法。相关回归分析法--分析事物中的因果关系。)通过内容体系的简单讲解导入,让学生在学习具体理论知识前就对该学科有一个总体感性认识,产生兴趣。带着要通过掌握统计知识去解决实际问题的意识和目的去学习。

2、让学生的学习从理性认识过渡到感性认识,增强应用能力

我在教学中介绍统计学的基本概念和统计调查方法内容时,除对每个知识点进行举例说明外,一部分知识讲完后,给出几个典型的统计调查方案让学生弄清在这些调查方案中所涉及的统计总体、总体范围的界定、总体单位、标志、指标以及采用的哪种调查方式等。这不仅让学生把抽象的统计学概念知识从理性认识过渡到了感性认识,而且通过这些案例还进一步让学生明白了调查方式的选用必须要根据调查对象和要解决的问题适当选取,而不是什么调查目的,什么事物都可以用任何一种调查方式。只有正确选用统计方式、方法去调查分析客观事物才能得出正确的结论,才能具备正确利用统计知识去分析解决问题的能力。

3、综合指标应用与典型资料结合法,提高学生的应用能力在讲授综合指标法时,对每一种指标的理解都是

分别举例说明让学生理解该指标的含义和作用。为了让学生能正确理解和区分每一种指标的作用,在所有指标介绍完后,我选用了国民经济年度统计公报资料作为案例,让学生从统计公报资料中找出学习过的每一种综合指标,如:2007年全国GDP总值,人口数等是总量指标。本年度GDP完成百分比是计划完成相对指标,本年度GDP比上年度增长百分比是动态相对指标。人均GDP是强度相对指标。

GDP构成比例是结构相对指标。五年中平均每年增长的百分比是后面要学习的平均发展速度和平均增长速度的应用。通过这样的案例,学生不仅对各种综合指标法的应用有了正确的理解,而且把各种指标的理解认识变成了应用能力,同时还对后面学习动态数列知识奠定了基础。在教学中很好地起到了巩固理解知识和预习下一教学环节内容的潜在作用。还起到了掌握知识综合性的效果。通过这样一个案例,学生进一步明确,研究一个总体的问题时,可以对问题的不同方面运用多种指标进行分析,弄清事物之间客观存在的关联,这些都必须用一定的统计数据来说话。因此进一步强调了学生学习统计知识的必要性,也让他们认识到统计学知识的科学性和实用性。

4、新旧知识在现实案例中的综合运用,提升学生应用能力

在讲授统计指数的内容时,传授给学生统计指数编制的基本方法的原理,教材中举例的商品价格、商品量、以及职工工资水平指数的编制都仅仅是一种计算基本方法的介绍。要培养学生应用能力还必须结合实际统计指数编制的案例进行讲解,让学生能够将理论知识及其计算方法应用到实际工作中去,所以我特意在理论知识和计算方法讲完后,介绍实际工作中零售物价指数的编制。这个经济指数也是民众普遍关注的问题,与人们生活水平息息相关。

告诉学生,物价指数的编制运用了抽样调查的知识,实际工作中不可能对每一种商品都采价调查,而是分大类商品,在商场和集贸市场分别采价。例如集贸市场的蔬菜价格每周至少要采集三次,每次要采集成交价的三人次,进入零售商品物价指数编制的价格实际上是一个多次简单平均的价格,而每天某种商品的三个价格要简单平均,每周三次的平均价格再简单平均。商场的商品价格如较稳定可用期初和期末的平均。通过这样一个案例,既给学生传授了新知识,又复习巩固了平均指标计算方法的具体应用,不仅日常生活中用,而且在经济研究中应用非常广泛。进一步告诉学生加权平均法和调和平均法在编制物价指数和其他社会经济现象指数中的应用。

5、典型调查案例教学法,培养学生综合应用统计知识,分析解决问题的能力

教学中我把学生应用统计知识,分析问题能力的培养放在抽样技术的教学内容中,抽样技术的基本理论也是抽象的。如,抽样误差,抽样平均误差,抽样的组织方式。针对研究对象的特点,都必须具体问题具体分析,而抽样误差的计算既涉及到平均指标的计算又涉及到标准差的计算,新旧知识的交替如何培养学生应用新旧知识计算、分析问题,解决问题是教学的难点。

为了突破这个难点,我在教学中利用了一个草席质量抽样调查的案例,这个案例体现了从制定调查方案中的调查方式的确定,采用主要标志划类,简单随机抽样原则,到调查实施的步骤:草席宽度分类,登记原验级等级,编顺序号,确定抽样总体,计算全级总体标准差,决定抽样数目,设计计算表格,决定样本号,现场调查中的统一验级标准。

验级过程:由5人分别验级,级数的最后确定采用众数办法,5人验级中的3人验级标准为准。以上这些都具有前面介绍的抽样调查方式的代表性,而又用到了平均指标和众数的方法。同时,在计算草席平均等级时,还用到了品质标志值平均指标的计算,即将等级品质标志值过渡成数量标志来计算该批不同尺寸草席的平均等级,再计算抽样指标与原验级指标之间的误差。

这样一个复杂的抽样调查过程和指标的计算结果,更清晰的告诉学生要说明和解决的问题:由于收购草席时,验级人员在判断标准上的误差带来了草席等级误差与价格的差异。而由于误差的存在,根据此抽样调查结果计算出的整个库存草席的总价值与实际价值的差异巨大。对导致这样的结果,进一步结合政策市场以及人为等多种因素进行分析,查找了原因并提出了切实可行的解决方案,促使了草席的收购价实相符。

通过以上几方面的教学方法设计,能让学生对统计学有更全面的认识,对学科基础内容有一个总体框架性把握,让那些学生在学习时感觉模糊的概念和繁杂的理论通过这几个教学环节的反复巩固和练习也逐步变得清晰,并大大提高了其综合应用统计知识的能力。

统计分析论文

统计分析是运用统计方法与分析对象有关的知识，从定量与定性的结合上进行的研究活动。下文是我为大家整理的关于统计分析论文的范文，欢迎大家阅读参考!

浅谈统计分析与决策

[摘要] 统计分析与决策二者有联系又有区别。统计要参与决策，必须搞好统计分析。搞好统计分析，需要解决选题、分析、撰写报告三个问题。

[关键词] 统计分析分析方法决策

统计工作的全过程分为四个阶段，即统计设计，统计调查，统计整理，统计分析。其中，统计分析是统计工作的最后一个阶段，是出统计成果的阶段。现在倡导统计要参与决策，这是不是说统计工作还要增加一个决策阶段呢?如果不是，那么，统计分析与决策是什么关系呢?

狭义的说，统计分析与决策是有区别的。统计分析是以统计数字为基础，以统计方法为手段，对社会经济情况进行科学的分析和综合研究，以认识其本质和规律的过程。而决策则是为了达到某一预定目标，运用逻辑方法和统计方法，对两种或两种以上可能采取的方案进行比较、分析、研究，以做出合理的、科学的抉择的行为过程。假若把统计分析与决策比作医生看病，统计分析就是对病情的诊断，决策就是开处方，“诊断”和“处方”是有区别的。

广义的讲，统计分析与决策是密不可分的。一方面，统计分析贯穿于决策过程之中。一个决策过程大体上可分为下列三个大步骤：第一，诊断问题所在，确定决策目标;第二，探索和拟定各种可能的备选方案;第三，从各种备选方案中选出最合适的方案。从这三大步骤看，尽管要用到多种方法和手段，但哪一步也离不开统计分析，第一步就是通过统计分析，诊断问题所在，并在分析的基础上确定决策目标;第二步拟定备选方案，要经过“轮廊设想”和“细部设计”这个阶段对轮廊设想的方案要做初步筛选，对每一方案要充实具体内容，“筛选”和“充实”都要经过统计分析;第三步选择最佳方案，首先要对各个备选方案进行评价、论证，这又需要统计分析。因此可以说，没有统计分析，也就没有科学决策。另一方面，从某种意义上讲，决策是统计分析的结果。一般来说，统计分析报告是提出问题、分析问题、指出解决问题的办法，其实，决策方案也就是解决问题实现决策目标的办法，只不过比“今后意见”“几条措施 ”之类的办法更全面、更详细、更科学罢了。医生诊断是为了正确处方，治病救人，不能只诊断不处方。统计分析是为了发现问题，解决问题，推动社会经济的顺利发展;也不能只提出问题，而不寻找解决问题的办法。从这个意义上讲，统计分析也就包括预测和决策。我们不能为统计而统计，也不能为分析而分析。统计应该参与决策，为了决策科学化，必须搞好统计分析。

搞好统计分析，需要解决选题、分析、撰写报告三个问题。

一、统计分析选题

所谓选题，就是在复杂的社会经济现象中,确定统计分析的内容和范围。进行统计分析,选题很重要。成功的选题是成功的分析的前提。

怎样选好题呢?选好题标准有两条:―是分析对象有意义，二是适合决策层和群众需要。关键是抓住党和国家的方针政策和企业的经济效益。

统计分析课题是很广泛的。工业统计分析课题如：计划执行情况分析、工业净产值统计分析、工业产品销售统计分析、工业原材料供应和消耗统计分析、工业能源消耗统计分析、工业生产设备统计分析、工业劳动与工资统计分析、成本利润统计分析、综合经济效益统计分析等。商品流通企业统计分析课题如：市场供求状况分析、市场占有率分析、主要商品经济寿命周期分析、市场商品价格分析、计划执行情况分析、购销合同执行情况分析、商品购进质量分析、商品销售动态分析、商品销售构成分析、商品库存分析、企业经济效益分析等。对于以上内容，可根据不同的时间、地点、条件，按两条选题标准适当选择。

统计分析有专题分析与综合分析之分。在一定的总体范围内，研究总体的各个方面及其相互关系，或研究总体的主要方面的统计分析，属于综合分析;只研究其中某一方面，或某一部分的统计分析，属于专题分析。两者各有不同的特点，都是必要的，但专题分析宜多，综合分析宜少。

二、统计分析方法

统计分析的关键是分析，怎样进行统计分析呢?统计分析有两个特点:一是以统计数字为基础,二是以统计方法为手段。因此,统计分析在选题之后,就要根据分析的需要,搜集整理有关数字资料及具体情况,在充分占有材料的基础上,灵活运用统计方法进行分析。

统计分析方法很多。统计学原理中除了有关统计调查、统计整理的内容外,综合指标、统计指数、时间数列、抽样推断等内容全部是统计分析方法。从方法角度上讲，统计分析就是统计学原理的运用。

统计方法与人们的认识过程是相适应的。人们的认识分感性认识和理性认识两个阶段。感性认识阶段所认识的是事物的现象，可采用统计调查和统计整理。理性认识阶段所认识的是事物的本质和规律，这个阶段要经过形成概念、进行判断和推理等思维活动。与此相适应，要分别采用不同的统计分析方法。

形成概念一般用描述性的综合指标法，即总量指标、相对指标和平均指标，以说明现象的规模大小、水平高低、速度快慢、内部结构以及比例关系等。判断推理就是要判断事物的性质，分析事物变化的原因，找出事物发展的规律。这一般要用分组分析法、动态分析法、因素分析法、相关回归分析法、平衡分析法等。

对统计学原理中的各种统计分析方法要熟练地掌握，灵活地运用。怎样灵活运用呢?这里有个技巧问题。技巧就是定性分析与定量分析巧妙结合。

所谓定性分析是指对事物的性质和影响事物发展变化的因素进行分析。定量分析就是分析事物的规模、水平、速度、结构、比例，以及各个因素对事物总体变化的影响方向和影响程度。定性分析与定量分析巧妙结合有两层含义，一是二者不可偏废，二是二者密不可分，

没有定性分析,定量分析就没有方向。没有定量分析,定性分析就不准确。结合的目的是在质与量的辩证统一中探寻事物的内在联系。

从根本上讲，统计分析就是完成从感性认识到理性认识，从现象到本质的飞跃。完成了这―飞跃，才是高质量的统计分析。有些统计分析质量不高，往往就是没有完成这一飞跃，仍然停留在表面现象上。

三、统计分析报告的撰写

统计分析报告是统计的最终产品。如果说统计数字的准确性是统计的生命，那么，统计分析报告的质量则关系到统计作用的发挥。对高质量的统计分析报告的要求，可以概括为五个字，就是“准、快、新、深、活”。

准:就是实事求是地反映客观实际。做到数字准确，情况准确，论点准确。

快:就是在决策层决策之前，不失时机地及时提供分析报告。

新:就是不断创新。要求不断开拓新领域，钻研新课题，反映新情况和新问题。

深:就是要在充分占有材料的基础上，提高分析的深度，使认识不只停留在反映现象上，而要揭示事物的本质和规律，并且用观点统帅材料，用材料说明观点，做到材料和观点的统一。

活:就是文字生动活泼，形式灵活多样。资料要多样化和生动具体，要有群众语言，要通俗易懂，文字要精精炼。

统计分析报告是在统计分析的基础上撰写出来的。没有好的分析，不可能写出好的报告。经过分析阶段，弄清了事实，判明了性质，探索出规律，得出了结论，在此基础上就可以撰写统计分析报告。但分析得好，并不等于报告写得好，这里还有个撰写的技巧问题，那就是准确地表述事实，透彻地阐明本质，深刻地揭示规律，恰当地提出建议。

1.准确地表述事实

每一篇统计分析报告，都需要表述所分析的现象，即说明“是什么”。准确地表述事实，才能给读者一个明确的概念。为此，须注意如下几点:(1)数字要真实;(2)运用数字要适当，不要堆砌数字，搞数字文字化;(3)语言要素准确。

2.透彻地阐明本质

现象只说明事物的各个片面，本质才说明事物的整体。撰写统计分析报告，必须深刻地揭示事物的本质，它是统计认识事物的正确程度和深度的反映。如果不能深刻地阐明事物的本质，那只能是现象罗列，没有多大价值。

阐明事物的本质，也就是阐明事物的基本性质。事物的性质是由事物内部矛盾的主要方面决定的。例如，某企业利润增加，是靠涨价，还是靠降低成本?经过分析，认识到利润增加主要是靠降低成本，这是矛盾的主要方面，这就反映出事物的性质。因此，在报告中就应阐明降低成本在提高经济效益中的重要作用。再如某企业，本质问题是钢材浪费严重，在报告中就应揭示浪费的若干方面和严重程度。

3.深刻地揭示规律

规律是事物内部固有的、本质的、必然联系。成本高低与产量多少有联系，经过推理，这种联系是事物内部固有的、本质的必然联系，反映了事物发展变化的规律性，而且存在一定的回归关系。而回归方程反映这种关系，所以在统计分析报告中，要利用回归方程揭示这种必然联系及其回归关系。

4.恰当地提出建议

认识世界的目的是为了改造世界。经过统计分析,透过现象认识到事物的本质和规律,还必须提出解决问题的建议,如“今后意见”、“几点建议”、“决策方案”等等。怎样才算恰当地建议呢?恰当的建议要符合三个条件:(1)符合分析目的;(2)合乎客观规律;(3)切实可行。

以上四点,一般可以作为分析报告的结构和顺序,但不能千篇一律。

统计分析报告是统计分析结果的反映。既要注意提高写作水平，更要努力锻炼分析问题和解决问题的能力。

试谈统计分析方法应用

【摘要】统计分析方法应用于各个领域，解决了很多工业、农业、经济、医学等领域的实际问题，本文分析多元统计分析方法的主要应用和构建多元统计方法检验体系的必要性，针对性的提出了需要引起注意的共性问题，具有很强的现实意义。

【关键词】统计分析方法;应用;检验体系;共性问题;现实意义前言

随着信息技术的普及和广泛应用，它推动了社会、经济和科学技术的发展，多元统计分析方法的难题得到了攻破，各个领域广泛采用，推动了各行各业经济的快速发展。

二、多元统计分析方法的主要应用

统计方法是科学研究的一种重要工具，其应用颇为广泛。在工业，农业，经济，生物和医学等领域的实际问题中，常常需要处理多个变量的观测数据，因此对多个变量进行综合处理的多元统计分析方法显得尤为重要。随着电子计算机技术的普及，以及社会，经济和科学技术的发展，过去被认为具有数学难度的多元统计分析方法，已越来越广泛地应用于实际。

聚类分析

它是研究分类问题的一种多元统计方法，聚类分析的基本思想是首先将每个样本当作一类，然后根据样本之间的相似程度并类计算新类与其它类之间距离，再选择近似者并类每合并一次减少一类，继续这一过程直到所有样本都合并成为一类为止。所以聚类分析依赖于对观测间的接近程度或相似程度的理解，定义不同的距离量度和相似性量度就可以产生不同的聚类结果。企业制定市场营销战略时要弄清在同一市场中哪些企业是直接竞争者，哪些是间接竞争者是非常关键的一个环节。要解决这个问题，企业首先可以通过市场调查，获取自己和所有主要竟争者，从而寻找企业在市场中的机会。

判别分析

判别分析是已知研究对象分成若干类型，并取得各种类型的一批已知样品的观测数据、在此基础上根据某些准则建立判别式，然后对未知类型的样品进行判别分析，企业在市场预测中往往根据以往所调查的种种指标，用判别分析方法判断下季度产品是畅销平销或滞销。一般情况下判别分析经常与聚类分析联合起来使用。

主成分分析

主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标，来代替原来指标，同时根据实际需要从中可取几个较少的综台指标，尽可能多反映原来指标的信息，在市场研究中常常利用主成分析方法分析顾客的偏好和当前市场的产品与顾客之间的差别，从而提供给生产企业新产品开发方向的信息。

因子分析

因子分析是主成分分析的推广和应用。它是将错综复杂的随机变量综合为数量较少的随机变量去描述，多个变量之间的相关关系以再现原始指标与因子之间的相互关系。也可以认为因子分析是将指标按原始数据的内在结构分类。例如:对Y个调查区的商业网点数、人口数、金融机构服务数、收入情况等N个指标进行因子分析，如果按照一般的分析方法，我们就需要处理N个指标，并给它们以不同的权重。这样不仅工作量变大而且由干指标之间存在比较高的相关性，会给分析结果带来偏差另外给具有较高相关性的众多指标，从而计算出各个调查区平均综合实力得分以便决定在某个调查区拟建何种类型的销售点。

三、构建多元统计分析方法检验体系的必要性

(一)构建多元统计分析方法检验体系，提高多元统计分析应用质量

多元统计分析方法已经越来越为人们广泛应用，但应用中盲目套用分析方法的情况很多，只关心模型方法的应用。许多教科书也只侧重介绍多元统计分析方法的思想、原理和分析步骤，对多元统计分析方法应用结果的统计检验叙述不多。这就直接影响了多元统计分析方法的应用效果和可信性。因此，本文拟对多元统计分析方法的统计检验问题进行探讨。构建多元统计分析方法检验体系的目的在于进一步丰富和完善多元统计分析方法的内容体系;实践上，使多元统计分析方法的应用更加合理、规范。推动多元统计分析方法应用质量的提高，推动多元统计分析方法获得更广泛的应用。

(二)多元统计分析统计检验体系的基础理论

多元正态分布总体的样本分布，即维希特分布，霍特林分布，威尔克斯分布,多元正态总体均值向量假设检验，包括一个正态总体均值向量假设检验，两个正态总体均值向量假设检验，多个正态总体均值向量假设检验;多元正态总体协方差阵假设检验，包括一个正态总体协方差阵假设检验，多个协差阵相等假设检验。

(三)关于统计检验体系

将上述统计检验体系有机结合在一起，就构成了多元统计分析方法检验体系的基本框架。多元统计分析方法检验体系的构建,用多元统计分析方法，充分发挥多元统计分析方法的应用价值，提高应用质量，我们建议，在应用时，应该按照上述框架进行相应的统计检验。当然。上述统计检验体系还是一个初步的框架，随着多元统计分析方法理论的逐步完善，上述检验体系也需要不断完善，也需要更多的同行关注此类问题并不断加以研究。另一方面，在实际应用中，即便是某种方法根据上述内容都进行了统计检验，由于各种方法自身存在的缺陷或局限性，也还会存在许多应用中考虑不周之处。应该引起注意。但是，因子分析结果还是具有较大主观性。特别是对公共主因子在专业方面实际意义的解释上，仍然保留着一种艺术气息，并没有统一做法，因此很多情况下也是不能令人满意的。总之，我们在应用时，对因子分析的适用性、公因子的估计方法、公因子选取的数目。公因子的实际意义的解释等一系列问题都要引起足够注意。检验体系有如下几个分类：

a.主成分分析统计检验体系

b.因子分析统计检验体裂引

c.系统聚类分析统计检验体系

d.判别分析统计检验体裂

e.对应分析统计检验体系

f.典型相关分析统计检验体系

四、多元统计分析方法应用中需要注意的几个共性问题

1.关于原始数据变量的总体分布问题。

对原始变量的总体分布各种方法各有不同的要求。有的方法对原始数据变量总体分布没有特殊的要求，如主成分分析、聚类分析、对应分析。有的方法在不同情况下，对原始变量分布有不同的要求，如因子分析中，公共因子的估计方法不同，对原始变量分布要求不同，采用极大似然估计方法估计主因子时，是假定原始变量是服从多元正态分布的，因此，应用时要引起重视，如典型相关分析要求原始变量服从正态分布，但在严格意义上，如果变量的分布形式比如高度偏态不会降低其他变量的相关关系，典型相关分析是可以包含这种非正态变量的。

样本容量问题。

进行多元统计分析时，样本容量n达到多少为宜，目前尚没有统一的结论。有的认为样本容量应是变量个数的10～20倍，有的认为样本容量要在100以上比较合适，有的认为进行巴特莱特检验时的样本容量应该大于150方可，也有的认为不必苛求太多的样本容量，如在进行主成分分析和因子分析时当原始变量之间的相关性很小时，即使再扩大样本容量，也难以得到满意效果。

原始变量之间的相关性以及非线性关系问题。

多元统计分析方法中，有的是的要求原始变量中要具有相关性。有的则不要求原始变量具有相关性。如聚类分析中，进行Q型系统聚类分析时对原始数据变量之间的相关性也是有要求的，如选择欧式距离、明氏距离、兰氏距离时，则要求原始变量之间是不相关的。只有对原始数据的相关性进行了处理后，才可以选择使用上述距离。若原始变量存在相关性，则选择马氏距离比较合适。另外原始变量之间的非线性关系也是需要注意的问题。如主成分分析、因子分析以及典型相关分析当基于相关矩阵来进行计算时，这里的相关矩阵实际上是Pearson的积差相关。但是，如果变量之间的关系不是线性的，而是非性相关关系，于是，所进行的分析以及结论也就失去应有的意义了。

数据处理问题。

多元统计分析中涉及多个变量，不同变量往往具有不同的量纲及不同的数量级别。在分析时，具有不同量纲的变量进行线性组合是没有意义的，不同的数量级别的变量之间进行分析时。会导致“以大吃小”，即数量级的变量的影响会被忽略，从而影响了分析结果的合理性。因此。为了消除量纲和数量级别的影响，进行多元统计分析时，必须对原始数据进行处里，最常用的是先作标准化变换处理，然后再作相应的分析。

五、结束语

在统计分析方法的应用中，会涉及到多个变量，因此，必须根据原来有的数量进行处理，然后才能得出相应的分析结论。本文结合多元统计分析方法的理论基础，对相关检验体系和分析体系进行了分析，具有现实的理论指导意义。

【参考文献】

[1]于秀林.多元统计分析[M].北京,中国统计出版社，1999：223—224.

[2]高惠璇.应用多元统计分析[M].北京,北京大学出版社，2005：343—366.

[3]郭志刚.社会科学分析方法一SPSS软件应用[M].,中国人民大学出版社，1999.

[4]傅德印.主成分分析中的统计检验问题 [J].统计教育，2007(9)：4—7.

spss统计分析课程论文范文

SPSS软件是“统计产品与服务解决方案”软件，是数据统计分析的一个重要的工具。下文是我为大家整理的关于spss统计分析论文的范文，欢迎大家阅读参考!

统计分析软件SPSS的特点和应用分析

【摘要】通过文献资料法，介绍了统计分析软件SPSS的特点，并通过实例：用非参数检验中的两个独立样本的检验(Test for Two Independent Sample)进行分析，对该软件的应用做了详细的介绍，旨在为学习SPSS软件的人们提供参考。

【关键词】统计分析软件;SPSS;独立样本;非参数检验

一、前言

统计分析软件SPSS是一款统计产品与服务解决方案的软件，其全称为“统计产品与服务解决方案(Statistical Product and Service Solutions)”。该软件是一款在统计中应用很广的统计分析软件，目前在各专业毕业论文经常可以看到它的身影，其应用范围广、方便快捷等特点吸引着众多的爱好者。本文通过对统计分析软件SPSS的功特点进行介绍，通过举例用非参数检验中的两个独立样本的检验(Test for Two Independent Sample)进行分析，对该软件的操作用做了详细的介绍，为学习SPSS软件的人们提供参考。

二、SPSS软件的特点

(一)操作简便

SPSS软件的界面非常友好，除了数据录入及部分命令程序等少数输入工作需要键盘键入外，大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。

(二)编程方便

具有第四代语言的特点，告诉系统要做什么，无需告诉怎样做。只要了解统计分析的原理，无需通晓统计方法的各种算法，即可得到需要的统计分析结果。对于常见的统计方法，SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此，用户无需花大量时间记忆大量的命令、过程、选择项。

(三)功能强大

具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法，比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。

(四)全面的数据接口

能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPRO产生的*.dbf文件，文本编辑器软件生成的ASCⅡ数据文件， Excel 的*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt，word，PPT及html格式的文件。

(五)灵活的功能模块组合

SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。

(六)针对性强

SPSS针对初学者、熟练者及精通者都比较适用。并且现在很多群体只需要掌握简单的操作分析，大多青睐于SPSS，像薛薇的《基于SPSS的数据分析》一书也较适用于初学者。而那些熟练或精通者也较喜欢SPSS，因为他们可以通过编程来实现更强大的功能。

三、实例分析――两个独立样本的检验(Test for Two Independent Sample)

例题：为了调查甲、乙两地土壤对种植同一种西瓜有没有影响，从这两个产地分别随机抽取同种的8只和7只西瓜，称重后得重量(市斤)如下：

甲(斤)：9.31、9.57、10.21、8.86、8.52、10.53、9.21、9.14

乙(斤)：9.98、8.46、8.92、10.14、10.17、11.04、9.43

问：根据样本数据检验两地的土壤对种植西瓜在重量上是否有显著差异?

解：建立假设 H0：甲乙两地的西瓜重量没有显著差异;

H1：甲乙两地的西瓜重量有没有显著差异。

然后根据上面给出的数据建立数据文件，注意数据文件中有一个表示重量数据的变量和一个表示地区分组的变量。最后在数据编辑窗口进行检验。检验的具体操作过程如下：

第一步：单击Analyze Nonparametric Test 2 Independent Sample，打开Two-Independent-Sample对话框(见图1)。

第二步：选择检验的变量进入检验框中，选择分组变量进入Grouping Variable框中，单击Define Group键，打开Define Group对话框，将分组变量值分别键入两个框中，单击Continue返回主对话框(见图2)：

第三步：在Test Type栏中，确定检验方法。

SPSS中提供了四种检验方式，几种检验方法侧重点不同，但都是先把两样本数据混合排序，再从不同的角度分析并检验两个独立总体的分布是否有显著的差异。有时这几种检验结果可能不一样，所以要结合数据的探索分析考察数据的分布状况作出结论。本文选择了常用的Mann-Whitney U曼―惠特尼检验和Kolmogorov-Smirnov Z K-S检验。

第四步：选择输出的结果形式及缺失值处理方式;

第五步：单击OK，得输出结果。

所以，以上两种检验结论是一致的。也就是说在两地种植的同一种西瓜地重量没有显著差异。

参考文献

[1]杜志渊.常用统计分析方法―SPSS应用[M].山东人民出版社,2011.

[2]刘宁元.运用SPSS对高职专业课程成绩进行相关分析[J].电脑与电信,2007(3).

[3]井海立.SPSS在数学试卷统计分析中的应用[J].科技信息(学术版),2006(10).

试谈SPSS软件在考试数据统计分析中的应用

摘要： SPSS软件是数据统计分析的一个重要的工具。本文作者利用SPSS软件对考试数据的相关性、检验假设进行了统计分析，介绍了使用SPSS进行统计分析的一般方法和步骤，文中的方法对考试研究人员具有一定的指导意义。

关键词： SPSS软件考试数据统计分析操作步骤

1. 引言

一份好的试卷须有好的测量指标来表明它的优良程度，试题有难度和区分度指标，试卷有效度和信度指标，这些是评价考试最主要的测量指标，但是仅有这些指标不足以反映一份试卷的实际测量效果，考试研究人员希望从考生的试卷统计分析中获取更多的信息来评价一份试卷。在计算机未普及的年代，考试成绩统计主要依靠人工阅卷，考试数据无法电子化存储，对考试数据分析统计难以实现。随着计算机的普及和信息化的推广，各种分析数据的软件应运而生，这些软件中汇集了统计学和测量学的分析工具，使得应用电子信息技术分析统计考试成绩数据成为可能，这些统计信息可以为教研部门、考试行政部门进行行政决策等提供非常重要的帮助。在众多的统计分析软件当中，SPSS是应用最多、影响最广泛的分析工具之一。在本文中，我们以SPSS软件为工具，对教育招生考试成绩的数据进行统计分析，分析主要着重于考试数据的相关性、假设检验等几个方面。

2. SPSS分析软件简介

“SPSS统计分析软件”的英文名称为“Statistical Package for the Social Science”，中文名称为“社会科学统计软件包”，它是世界著名的统计分析软件之一，在自然科学、社会科学的各个领域均有非常广泛的应用。SPSS是一个组合式软件包，它集数据整理、分析于一身，主要功能包括数据管理、统计分析、图表分析、输出管理等，该软件的统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类。

下面我们利用SPSS软件对考试数据的相关性、检验假设进行统计分析，介绍使用SPSS进行统计分析的一般方法和步骤。

3. 相关性分析

教育考试中，考试结果的信度，试题的区分度，每个题目得分与试卷总分的关系，以及题目之间的关系，等等，都是考试研究的重要内容，最主要的研究方法就是数据的相关性分析。在众多的教育考试数据的相关性分析方法中，Pearson相关系数法、Spearman相关系数法和Cronbach α信度系数法是比较常用的几种方法。

Pearson相关系数法计算公式：

式中x为第i个考生第j题的得分，y为第i个考生第k题的得分，为第j题的平均分，为第k题的平均分，n为测试样本量。该公式既可以计算两个连续变量之间的相关性，又可以计算一个双歧变量与一个连续变量之间的相关性。

Spearman相关系数法计算公式：

r=1-(2)

式中D为两个变量的秩序之差，n为样本容量。

Cronbach a信度系数法计算公式：

α= 1-(3)

式中n为试题数，s为第i题的标准差，s为总分的标准差。该公式实际上就是将考试中所有试题间相关系数的平均值(又称内部一致性)作为α信度系数。

对于给定的一组考生成绩数据，利用SPSS统计分析软件可以非常容易地定量分析考生某学科试卷总分和该学科某道题的相关性，以及各个题目之间的相关性。我们以Pearson相关系数分析为例，利用SPSS软件进行统计分析。

数据统计分析的对象是某省高考数学6道解答题的得分情况(不是整张试卷)，数据源于该省的高考数据成绩。研究的目的是测量6道解答题每两个题目之间的相关性。

我们以SPSS 13.0版本的软件为例，介绍利用SPSS进行数据统计分析的步骤(以Pearson相关系数法为例)：

(1)将考试数据导入SPSS软件，在SPSS数据窗口中，顺序点击【Analyze】→【Correlate】→【Bivariate...】，系统弹出变量相关系数设置对话框。

(2)在该对话框中，将待计算的变量从左侧的变量列表中导入到右侧的“Variables”变量列表中，在本例中导入t1、t2、t3、t4、t5、t6共6个变量(t1―t6是6道解答题的变量名称)。在“Correlation Coefficients”相关系数选项中，选取“Pearson”复选框。

(3)在该对话框的“Test of Significance”设置区域，可以点选“Two-tailed”选项或者“One-tailed”，我们采用系统默认值。

(4)对话框中的其它选项取软件系统的默认值，点击【OK】，开始相关系数计算，系统弹出新的窗体输出运算的结果。本次输出的情况如下：

上表的统计结果可用于题目之间相关性的分析。表中的大部分题目的相关系数都比较适中，但题目T4和题目T5之间的相关程度远高于其它几个题目，我们可以确信这两者之间一定存在着比其他题目之间更紧密的关系，这是我们通过分析获取的重要信息，该信息表明这两个题目之间的相关性高于其他几个题目之间的相关性，这在大规模考试中是不应该出现的，需要在以后的命题考试中加以改进。

Spearman相关系数分析方法和上述分析方法类似，只需要在上述SPSS操作的第二个骤中选取“Pearson”复选框，程序就会按Pearson相关系数法进行统计分析，如果同时选中“Spearman”和“Pearson”复选框，程序将会同时计算按两种分析方法统计分析的数据，并会以不同的图表进行显示，而Cronbach a信度系数法计算方法与上述方法略有不同，其操作步骤如下：

(1)在SPSS数据窗口中，顺序点击【Analyze】→【Scale】→【Reliability Analysis...】，系统弹出“Reliability Analysis”信度分析设置对话框。

(2)将待计算的变量从左列的变量列表中导入到右侧的“items”变量中，在左下列的“model”选择项的下拉列表中确保选中“Alpha”(信度系数)，点击“Statistics”选择项可以进行更为详细的参数设置，我们采用系统的默认值即可。

(3)参数设置完毕之后，点击【OK】，软件开始相关系数计算并输出运算结果。

4. 选择题的选项分析

在目前的教育招生考试中选择题是一种较常见的题型，考试研究人员关注较多的是对选择题基本特征、测量功能及其优缺点的理论探讨[1][2]，对选择题干扰项的设计及其施测后的实际效果关注甚少，事实上施测后对题目各选项的有效性作出判断可为评价试题质量提供重要参考依据。我们利用统计中χ检验假设，对试卷中常见的选择题选择项进行统计分析。

教育考试的单项选择项一般设置为4个，其中仅有1个选择项是正确的。命题人员在设计选择项时，应当也必然对每道题目所有的选择项(正确选择项和干扰选择项)的考生作答情况作出预测，对考生作答的分布情况作出预估。考试结束后，研究人员应该对实测的情况与命题教师预测的情况进行对比分析，以检验考试效果是否达到了预测的目标。这和χ拟合度检验的思想具有一致性，因此可以尝试使用χ检验假设进行分析。

我们依据文献[3][4]的方法来介绍χ检验假设在考试数据分析中应用的基本原理，设变量E是命题者对某道试题的期望值，E=nP，n为样本容量，P为期望的相对频率，引入以下统计量：∑(O-E)/E，其中O为观察频数。

本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文

我们需要进行的假设检验是：零假设H：选项的实测分布与期望分布相同;非零假设H：选项的实测分布与期望分布不同。

检验假设的思想：拟合度检验的统计量在确定的某种显著性水平下如果零假设是真，则检验统计量∑(O-E)/E呈近似χ分布，其自由度为研究变量的可能值减1;如果实测分布与期望的分布相当吻合，就不排除零假设，否则就排除零假设;最后对检验假设的结果进行解释。

数据分析的目的是判断考生实际的应答结果(实测数据)与命题期望的选择概率(期望数据)是否一致。我们随机抽取某省5542个高考考生的数学有效数据构成分析样本，利用SPSS进行统计分析。

SPSS数据统计分析的步骤如下：

(1)将考试数据导入SPSS软件，依次点击【Analyze】→【Nonparametric Tests】→【Chi-Square...】，弹出“Chi-Square Tests”对话框。

(2)将变量列表中待分析的题目序号导入到“Test Variables List”(检验变量列表)中，本例中题目的序号为t7。

(3)将对选择试题的每个选项的期望值依次输入到“Expected Values”所属的方框，具体操作方法是选中单选框“Values”，输入具体的期望数值，点击“Add”按钮，依次重复上述的步骤直至所有的选项的期望值输入完毕。

(4)点击【OK】，输出软件运算结果。

我们需要进行的假设检验，H：选项的实测分布与期望分布相同;H：选项的实测分布与期望分布不同。

假设检验的显著性水平为α=0.05，χ=∑(O-E)/E，自由度为df=4-1=3，查χ分布表或利用相关软件可得P=0.0626，由于P>α，因此不能拒绝零假设，即选项的实测分布与期望分布相同。因此，检验结果在0.05显著性水平时，没有足够的证据拒绝零假设，即可认为本题选项的实测分布与期望分布相同，也就是说本题的实际测试效果与命题教师预测的效果是一致的，命题教师准确地估计了考生的实际水平，这是分析获得的很重要的结论。

5. 结语

SPSS软件在考试数据统计分析中应用广泛，但大部分是集中在试题难度、均值、方差统计、考试数据的图表显示等几个方面，本文从一个新的角度利用SPSS软件对考试数据的相关性、检验假设等几个方面进行了尝试性统计分析，介绍了使用SPSS进行统计分析的一般方法和步骤。从上述分析来看，软件操作步骤和统计分析过程十分简单、快捷，对于测量学和统计学基础不太好的数据分析统计人员来说，只要遵循一定的操作步骤，就可以进行分析。

参考文献：

[1]王孝玲.教育测量(修订版)[M].上海：华东师范大学出版社，2006.

[2]雷新勇.大规模教育考试：命题与评价[M].上海：华东师范大学出版社，2006.

[3]李伟明，冯伯麟，余仁胜.考试的统计分析方法[M].北京：高等教育出版社，1990.

[4]雷新勇.考试数据的统计分析和解释[M].上海：华东师范大学出版社，2007.

统计模型论文

在统计学中，统计模型是指当有些过程无法用理论分析方法导出其模型，但可通过试验或直接由工业过程测定数据，经过数理统计法求得各变量之间的函数关系。下文是我为大家整理的关于统计模型论文的范文，欢迎大家阅读参考!

统计套利模型的理论综述与应用分析

【摘要】统计套利模型是基于数量经济学和统计学建立起来的，在对历史数据分析的基础之上，估计相关变量的概率分布，并结合基本面数据对未来收益进行预测，发现套利机会进行交易。统计套利这种分析时间序列的统计学特性，使其具有很大的理论意义和实践意义。在实践方面广泛应用于个对冲基金获取收益，理论方面主要表现在资本有效性检验以及开放式基金评级，本文就统计套利的基本原理、交易策略、应用方向进行介绍。

【关键词】统计套利成对交易应用分析

一、统计套利模型的原理简介

统计套利模型是基于两个或两个以上具有较高相关性的股票或者其他证券，通过一定的方法验证股价波动在一段时间内保持这种良好的相关性，那么一旦两者之间出现了背离的走势，而且这种价格的背离在未来预计会得到纠正，从而可以产生套利机会。在统计套利实践中，当两者之间出现背离，那么可以买进表现价格被低估的、卖出价格高估的股票，在未来两者之间的价格背离得到纠正时，进行相反的平仓操作。统计套利原理得以实现的前提是均值回复，即存在均值区间(在实践中一般表现为资产价格的时间序列是平稳的，且其序列图波动在一定的范围之内)，价格的背离是短期的，随着实践的推移，资产价格将会回复到它的均值区间。如果时间序列是平稳的，则可以构造统计套利交易的信号发现机制，该信号机制将会显示是否资产价格已经偏离了长期均值从而存在套利的机会在某种意义上存在着共同点的两个证券(比如同行业的股票)，其市场价格之间存在着良好的相关性，价格往往表现为同向变化，从而价格的差值或价格的比值往往围绕着某一固定值进行波动。

二、统计套利模型交易策略与数据的处理

统计套利具体操作策略有很多，一般来说主要有成对/一篮子交易，多因素模型等，目前应用比较广泛的策略主要是成对交易策略。成对策略，通常也叫利差交易，即通过对同一行业的或者股价具有长期稳定均衡关系的股票的一个多头头寸和一个空头头寸进行匹配，使交易者维持对市场的中性头寸。这种策略比较适合主动管理的基金。

成对交易策略的实施主要有两个步骤：一是对股票对的选取。海通证券分析师周健在绝对收益策略研究―统计套利一文中指出，应当结合基本面与行业进行选股，这样才能保证策略收益，有效降低风险。比如银行，房地产，煤电行业等。理论上可以通过统计学中的聚类分析方法进行分类，然后在进行协整检验，这样的成功的几率会大一些。第二是对股票价格序列自身及相互之间的相关性进行检验。目前常用的就是协整理论以及随机游走模型。

运用协整理论判定股票价格序列存在的相关性，需要首先对股票价格序列进行平稳性检验，常用的检验方法是图示法和单位根检验法，图示法即对所选各个时间序列变量及一阶差分作时序图，从图中观察变量的时序图出现一定的趋势册可能是非平稳性序列，而经过一阶差分后的时序图表现出随机性，则序列可能是平稳的。但是图示法判断序列是否存在具有很大的主观性。理论上检验序列平稳性及阶输通过单位根检验来确定，单位根检验的方法很多，一般有DF，ADF检验和Phillips的非参数检验(PP检验)一般用的较多的方法是ADF检验。

检验后如果序列本身或者一阶差分后是平稳的，我们就可以对不同的股票序列进行协整检验，协整检验的方法主要有EG两步法，即首先对需要检验的变量进行普通的线性回归，得到一阶残差，再对残差序列进行单位根检验，如果存在单位根，那么变量是不具有协整关系的，如果不存在单位根，则序列是平稳的。EG检验比较适合两个序列之间的协整检验。除EG检验法之外，还有Johansen检验，Gregory hansan法，自回归滞后模型法等。其中johansen检验比较适合三个以上序列之间协整关系的检验。通过协整检验，可以判定股票价格序列之间的相关性，从而进行成对交易。

Christian L. Dunis和Gianluigi Giorgioni(2010)用高频数据代替日交易数据进行套利，并同时比较了具有协整关系的股票对和没有协整关系股票对进行套利的立即收益率，结果显示，股票间价格协整关系越高，进行统计套利的机会越多，潜在收益率也越高。

根据随机游走模型我们可以检验股票价格波动是否具有“记忆性”，也就是说是否存在可预测的成分。一般可以分为两种情况：短期可预测性分析及长期可预测性分析。在短期可预测性分析中，检验标准主要针对的是随机游走过程的第三种情况，即不相关增量的研究，可以采用的检验工具是自相关检验和方差比检验。在序列自相关检验中，常用到的统计量是自相关系数和鲍克斯-皮尔斯 Q统计量，当这两个统计量在一定的置信度下，显著大于其临界水平时，说明该序列自相关，也就是存在一定的可预测性。方差比检验遵循的事实是：随机游走的股价对数收益的方差随着时期线性增长，这些期间内增量是可以度量的。这样，在k期内计算的收益方差应该近似等于k倍的单期收益的方差，如果股价的波动是随机游走的，则方差比接近于1;当存在正的自相关时，方差比大于1;当存在负的自相关是，方差比小于1。进行长期可预测性分析，由于时间跨度较大的时候，采用方差比进行检验的作用不是很明显，所以可以采用R/S分析，用Hurst指数度量其长期可预测性，Hurst指数是通过下列方程的回归系数估计得到的：

Ln[(R/S)N]=C+H*LnN

R/S 是重标极差，N为观察次数，H为Hurst指数，C为常数。当H>0.5时说，说明这些股票可能具有长期记忆性，但是还不能判定这个序列是随机游走或者是具有持续性的分形时间序列，还需要对其进行显著性检验。

无论是采用协整检验还是通过随机游走判断，其目的都是要找到一种短期或者长期内的一种均衡关系，这样我们的统计套利策略才能够得到有效的实施。

进行统计套利的数据一般是采用交易日收盘价数据，但是最近研究发现，采用高频数据(如5分钟，10分钟，15分钟，20分钟收盘价交易数据)市场中存在更多的统计套利机会。日交易数据我们选择前复权收盘价，而且如果两只股票价格价差比较大，需要先进性对数化处理。Christian L. Dunis和Gianluigi Giorgioni(2010)分别使用15分钟收盘价，20分钟收盘价，30分以及一个小时收盘价为样本进行统计套利分析，结果显示，使用高频数据进行统计套利所取得收益更高。而且海通证券金融分析师在绝对收益策略系列研究中，用沪深300指数为样本作为统计套利配对交易的标的股票池，使用高频数据计算累计收益率比使用日交易数据高将近5个百分点。

三、统计套利模型的应用的拓展―检验资本市场的有效性

Fama(1969)提出的有效市场假说，其经济含义是:市场能够对信息作出迅速合理的反应,使得市场价格能够充分反映所有可以获得的信息,从而使资产的价格不可用当前的信息进行预测,以至于任何人都无法持续地获得超额利润.通过检验统计套利机会存在与否就可以验证资本市场是有效的的，弱有效的，或者是无效的市场。徐玉莲(2005)通过运用统计套利对中国资本市场效率进行实证研究，首先得出结论：统计套利机会的存在与资本市场效率是不相容的。以此为理论依据，对中国股票市场中的价格惯性、价格反转及价值反转投资策略是否存在统计套利机会进行检验，结果发现我国股票市场尚未达到弱有效性。吴振翔，陈敏(2007)曾经利用这种方法对我国A股市场的弱有效性加以检验，采用惯性和反转两种投资策略发现我国A股若有效性不成立。另外我国学者吴振翔，魏先华等通过对Hogan的统计套利模型进行修正，提出了基于统计套利模型对开放式基金评级的方法。

四、结论

统计套利模型的应用目前主要表现在两个方面：1.作为一种有效的交易策略，进行套利。2.通过检测统计套利机会的存在，验证资本市场或者某个市场的有效性。由于统计套利策略的实施有赖于做空机制的建立，随着我股指期货和融资融券业务的推出和完善，相信在我国会有比较广泛的应用与发展。

参考文献

[1] A.N. Burgess：A computational Methodolology for Modelling the Dynamics of statistical arbitrage, London business school,PhD Thesis,1999.

[2]方昊.统计套利的理论模式及应用分析―基于中国封闭式基金市场的检验.统计与决策,2005,6月(下).

[3]马理,卢烨婷.沪深 300 股指期货期现套利的可行性研究―基于统计套利模型的实证.财贸研究,2011,1.

[4]吴桥林.基于沪深 300 股指期货的套利策略研究[D].中国优秀硕士学位论文.2009.

[5]吴振翔,陈敏.中国股票市场弱有效性的统计套利检验[J].系统工程理论与实践.2007,2月.

关于半参统计模型的估计研究

【摘要】随着数据模型技术的迅速发展，现有的数据模型已经无法满足实践中遇到的一些测量问题，严重的限制了现代科学技术在数据模型上应用和发展，所以基于这种背景之下，学者们针对数据模型测量实验提出了新的理论和方法，并研制出了半参数模型数据应用。半参数模型数据是基于参数模型和非参数模型之上的一种新的测量数据模型，因此它具备参数模型和非参数模型很多共同点。本文将结合数据模型技术，对半参统计模型进行详细的探究与讨论。

【关键词】半参数模型完善误差测量值纵向数据

本文以半参数模型为例，对参数、非参数分量的估计值和观测值等内容进行讨论，并运用三次样条函数插值法得出非参数分量的推估表达式。另外，为了解决纵向数据下半参数模型的参数部分和非参数部分的估计问题，在误差为鞅差序列情形下，对半参数数据模型、渐近正态性、强相合性进行研究和分析。另外，本文初步讨论了平衡参数的选取问题，并充分说明了泛最小二乘估计方法以及相关结论，同时对半参数模型的迭代法进行了相关讨论和研究。

一、概论

在日常生活当中，人们所采用的参数数据模型构造相对简单，所以操作起来比较容易;但在测量数据的实际使用过程中存在着相关大的误差，例如在测量相对微小的物体，或者是对动态物体进行测量时。而建立半参数数据模型可以很好的解决和缓解这一问题：它不但能够消除或是降低测量中出现的误差，同时也不会将无法实现参数化的系统误差进行勾和。系统误差非常影响观测值的各种信息，如果能改善，就能使其实现更快、更及时、更准确的误差识别和提取过程;这样不仅可以提高参数估计的精确度，也对相关科学研究进行了有效补充。

举例来说，在模拟算例及坐标变换GPS定位重力测量等实际应用方面，体现了这种模型具有一定成功性及实用性;这主要是因为半参数数据模型同当前所使用的数据模型存在着一致性，可以很好的满足现在的实际需要。而新建立的半参数模型以及它的参数部分和非参数部分的估计，也可以解决一些污染数据的估计问题。这种半参数模型，不仅研究了纵向数据下其自身的t型估计，同时对一些含光滑项的半参数数据模型进行了详细的阐述。另外，基于对称和不对称这两种情况，可以在一个线性约束条件下对参数估计以及假设进行检验，这主要是因为对观测值产生影响的因素除了包含这个线性关系以外，还受到某种特定因素的干扰，所以不能将其归入误差行列。另外，基于自变量测量存在一定误差，经常会导致在计算过程汇总，丢失很多重要信息。

二、半参数回归模型及其估计方法

这种模型是由西方著名学者Stone在上世纪70年代所提出的，在80年代逐渐发展并成熟起来。目前，这种参数模型已经在医学以及生物学还有经济学等诸多领域中广泛使用开来。

半参数回归模型介于非参数回归模型和参数回归模型之间，其内容不仅囊括了线性部分，同时包含一些非参数部分，应该说这种模型成功的将两者的优点结合在一起。这种模型所涉及到的参数部分，主要是函数关系，也就是我们常说的对变量所呈现出来的大势走向进行有效把握和解释;而非参数部分则主要是值函数关系中不明确的那一部分，换句话就是对变量进行局部调整。因此，该模型能够很好的利用数据中所呈现出来的信息，这一点是参数回归模型还有非参数归回模型所无法比拟的优势，所以说半参数模型往往拥有更强、更准确的解释能力。

从其用途上来说，这种回归模型是当前经常使用的一种统计模型。其形式为：

三、纵向数据、线性函数和光滑性函数的作用

纵向数据其优点就是可以提供许多条件，从而引起人们的高度重视。当前纵向数据例子也非常多。但从其本质上讲，纵向数据其实是指对同一个个体，在不同时间以及不同地点之上，在重复观察之下所得到一种序列数据。但由于个体间都存在着一定的差别，从而导致在对纵向数据进行求方差时会出现一定偏差。在对纵向数据进行观察时，其观察值是相对独立的，因此其特点就是可以能够将截然不同两种数据和时间序列有效的结合在一起。即可以分析出来在个体上随着时间变化而发生的趋势，同时又能看出总体的变化形势。在当前很多纵向数据的研究中，不仅保留了其优点，并在此基础之上进行发展，实现了纵向数据中的局部线性拟合。这主要是人们希望可以建立输出变量和协变量以及时间效应的关系。可由于时间效应相对比较复杂，所以很难进行参数化的建模。

另外，虽然线性模型的估计已经取得大量的成果，但半参数模型估计至今为止还是空白页。线性模型的估计不仅仅是为了解决秩亏或病态的问题，还能在百病态的矩阵时，提供了处理线性、非线性及半参数模型等方法。首先，对观测条件较为接近的两个观测数据作为对照，可以削弱非参数的影响。从而将半参数模型变成线性模型，然后，按线性模型处理，得到参数的估计。而多数的情况下其线性系数将随着另一个变量而变化，但是这种线性系数随着时间的变化而变化，根本求不出在同一个模型中，所有时间段上的样本，亦很难使用一个或几个实函数来进行相关描述。在对测量数据处理时，如果将它看作为随机变量，往往只能达到估计的作用，要想在经典的线性模型中引入另一个变量的非线性函数，即模型中含有本质的非线性部分，就必须使用半参数线性模型。

另外就是指由各个部分组成的形态，研究对象是非线性系统中产生的不光滑和不可微的几何形体，对应的定量参数是维数，分形上统计模型的研究是当前国际非线性研究的重大前沿课题之一。因此，第一种途径是将非参数分量参数化的估计方法，也称之为参数化估计法，是关于半参数模型的早期工作，就是对函数空间附施加一定的限制，主要指光滑性。一些研究者认为半参数模型中的非参数分量也是非线性的，而且在大多数情形下所表现出来的往往是不光滑和不可微的。所以同样的数据，同样的检验方法，也可以使用立方光滑样条函数来研究半参数模型。

四、线性模型的泛最小二乘法与最小二乘法的抗差

(一)最小二乘法出现于18世纪末期

在当时科学研究中常常提出这样的问题：怎样从多个未知参数观测值集合中求出参数的最佳估值。尽管当时对于整体误差的范数，泛最小二乘法不如最小二乘法，但是当时使用最多的还是最小二乘法，其目的也就是为了估计参数。最小二乘法，在经过一段时间的研究和应用之后，逐步发展成为一整套比较完善的理论体系。现阶段不仅可以清楚地知道数据所服从的模型，同时在纵向数据半参数建模中，辅助以迭代加权法。这对补偿最小二乘法对非参数分量估计是非常有效，而且只要观测值很精确，那么该法对非参数分量估计更为可靠。例如在物理大地测量时，很早就使用用最小二乘配置法，并得到重力异常最佳估计值。不过在使用补偿最小二乘法来研究重力异常时，我们还应在兼顾着整体误差比较小的同时，考虑参数估计量的真实性。并在比较了迭代加权偏样条的基础上，研究最小二乘法在当前使用过程中存在的一些不足。应该说，该方法只强调了整体误差要实现最小，而忽略了对参数分量估计时出现的误差。所以在实际操作过程中，需要特别注意。

(二)半参模型在GPS定位中的应用和差分

半参模型在GPS相位观测中，其系统误差是影响高精度定位的主要因素，由于在解算之前模型存在一定误差，所以需及时观测误差中的粗差。GPS使用中，通过广播卫星来计算目标点在实际地理坐标系中具体坐标。这样就可以在操作过程中，发现并恢复整周未知数，由于观测值在卫星和观测站之间，是通过求双差来削弱或者是减少对卫星和接收机等系统误差的影响，因此难于用参数表达。但是在平差计算中，差分法虽然可以将观测方程的数目明显减少，但由于种种原因，依然无法取得令人满意的结果。但是如果选择使用半参数模型中的参数来表达系统误差，则能得到较好的效果。这主要是因为半参数模型是一种广义的线性回归模型，对于有着光滑项的半参数模型，在既定附加的条件之下，能够提供一个线性函数的估计方法，从而将测值中的粗差消除掉。

另外这种方法除了在GPS测量中使用之外，还可应用于光波测距仪以及变形监测等一些参数模型当中。在重力测量中的应用在很多情形下，尤其是数学界的理论研究，我们总是假定S是随机变量实际上，这种假设是合理的，近几年，我们对这种线性模型的研究取得了一些不错的成果，而且因其形式相对简洁，又有较高适用性，所以这种模型在诸多领域中发挥着重要作用。

通过模拟的算例及坐标变换GPS定位重力测量等实际应用，说明了该法的成功性及实用性，从理论上说明了流行的自然样条估计方法，其实质是补偿最小二乘方法的特例，在今后将会有广阔的发展空间。另外文章中提到的分形理论的研究对象应是非线性系统中产生的不光滑和不可微的几何形体，而且分形已经在断裂力学、地震学等中有着广泛的应用，因此应被推广使用到研究半参数模型中来，不仅能够更及时，更加准确的进行误差的识别和提取，同时可以提高参数估计的精确度，是对当前半参数模型研究的有力补充。

五、总结

文章所讲的半参数模型包括了参数、非参数分量的估计值和观测值等内容，并且用了三次样条函数插值法得到了非参数分量的推估表达式。另外，为了解决纵向数据前提下，半参数模型的参数部分和非参数部分的估计问题，在误差为鞅差序列情形下，对半参数数据模型、渐近正态性、强相合性进行研究和分析。同时介绍了最小二乘估计法。另外初步讨论了平衡参数的选取问题，还充分说明了泛最小二乘估计方法以及有关结论。在对半参数模型的迭代法进行了相关讨论和研究的基础之上，为迭代法提供了详细的理论说明，为实际应用提供了理论依据。

参考文献

[1]胡宏昌.误差为AR(1)情形的半参数回归模型拟极大似然估计的存在性[J].湖北师范学院学报(自然科学版)，2009(03).

[2]钱伟民，李静茹.纵向污染数据半参数回归模型中的强相合估计[J].同济大学学报(自然科学版)，2009(08).

[3]樊明智，王芬玲，郭辉.纵向数据半参数回归模型的最小二乘局部线性估计[J].数理统计与管理，2009(02).

[4]崔恒建，王强.变系数结构关系EV模型的参数估计[J].北京师范大学学报(自然科学版).2005(06).

[5]钱伟民，柴根象.纵向数据混合效应模型的统计分析[J].数学年刊A辑(中文版).2009(04)

[6]孙孝前，尤进红.纵向数据半参数建模中的迭代加权偏样条最小二乘估计[J].中国科学(A辑：数学)，2009(05).

[7]张三国，陈希孺.EV多项式模型的估计[J].中国科学(A辑)，2009(10).

[8]任哲，陈明华.污染数据回归分析中参数的最小一乘估计[J].应用概率统计，2009(03).

[9]张三国，陈希孺.有重复观测时EV模型修正极大似然估计的相合性[J].中国科学(A辑).2009(06).

[10]崔恒建，李勇，秦怀振.非线性半参数EV四归模型的估计理论[J].科学通报，2009(23).

[11]罗中明.响应变量随机缺失下变系数模型的统计推断[D].中南大学，2011.

[12]刘超男.两参数指数威布尔分布的参数Bayes估计及可靠性分析[D].中南大学，2008.

[13]郭艳.湖南省税收收入预测模型及其实证检验与经济分析[D].中南大学，2009.

[14]桑红芳.几类分布的参数估计的损失函数和风险函数的Bayes推断[D].中南大学，2009.

[15]朱琳.服从几类可靠性分布的无失效数据的bayes分析[D].中南大学，2009.

[16]黄芙蓉.指数族非线性模型和具有AR(1)误差线性模型的统计分析[D].南京理工大学，2009.

统计类论文投稿

统计学是一门抽象难懂的学科，非统计学专业毕业人员一般很难做到精通。下文是我为大家整理的关于统计类论文投稿的范文，欢迎大家阅读参考!

医学统计学方法应用的错误解析

一、引言

医学由于其研究的复杂性和系统性，常需要应用严谨的统计学方法，由于有些作者对医学科研的统计学理论和方法的应用缺乏深刻了解，在医学论文中错误应用统计学方法的现象时有发生。统计学方法应用的错误直接导致统计结果的错误。例如统计学图表、统计学指标、统计学的显著性检验等。因此，正确应用统计学方法，并将所获得的结果进行正确的描述有助于单篇论著的质量提高，现将医学论文中统计学方法应用及其常见结果的错误解析如下。

二、医学论文统计学方法应用概况

医学论文的摘要是全文的高度浓缩[1]，主要由目的、方法、结果、结论组成。一般要求要写明主要的统计学方法、统计学研究结果和P值。一篇医学论文的质量往往通过摘要的统计学结果部分就能判断。统计学方法的选择和结果的表达直接影响单篇论著的科研水平。

(一)材料与方法部分

正文中，材料与方法部分必须对统计学方法的选择、应用、统计学显著性的设定进行明确说明。通过对统计学方法的描述，读者应该清楚论著的统计学设计思路。材料部分要清楚说明样本或病例的来源、入组和排除标准、样本量大小、研究组和对照组的设定条件、回顾性或者前瞻性研究、调查或者实验性研究、其他与研究有关的一般资料情况，其目的是表明统计学方法应用的合理性和可靠性，他人作相关研究时具备可重复性。方法部分应详细叙述研究组和对照组的不同处理过程、观察的具体指标、采用的测量技术，要具备可比较性和科学性，

方法部分还要专门介绍统计分析方法及其采用的统计软件。不同的数据处理要采用不同的方法，必须清楚的说明计数或者计量资料、两组或者多组比较、不同处理因素的关联性研究。常用的有两组间计量资料的t检验，多组间计量资料的F检验，计数资料的卡方检验，不同因素之间的相关分析和回归分析。有些遗传学研究方法还有专门的统计学方法，要在这里简要说明并给出参考文献，还要简单叙述统计方法的原理。统计学软件要清楚的说明软件的名称和版本号，如基于家系资料研究的FBAT1.7.3版本。

(二)论文结果部分

论文结果部分要显示应用统计学方法得到的统计量[2]，所采用的统计学指标较多时，往往分开叙述。分组比较多时还要借助统计图表来准确表达统计结果。对于数据的精确度，除了与测量仪器的精密程度有关外，还与样本本身的均数有关，所得值的单位一般采用紧邻均数除以三为原则。均数和标准差的有效位数要和原始数据一致。标准差或标准误差有时需要增加一个位数，百分比一般保留一个小数。在统计软件中，分析结果往往精确度比较高，一般要采用四舍五入的方法使其靠近实验的实际情况，否则还会降低论文的可信度和可读性。

结果部分的统计表采用统一的“三线”表，表题中要注明均数、标准差等数据类型。表格中的数值要按照行和列进行顺序放置，要求整齐美观，不能出现错行现象。要明确标注观察的例数，得到的检验统计量。统计图可以直观的表达研究结果，如回归和相关分析的散点图可以显示个体值的散布情况。曲线图表达个体均值在不同组别随时间变化的情况或者不同条件下重复测量的结果。误差条图由均数加减标准误绘出，描述的是67%的置信区间，不是95%，提倡在误差条图采用95%的置信区间。

关于统计量，一般采用均数与标准差两个指标，均数不宜单独使用。使用均数的时候要明确变异指标标准差或者精确性指标标准误。关于百分比，分母的确定必须要符合逻辑，过小的样本会导致分母过小而出现百分比过大的情况。百分率的比较要写清两者中不同的变化，可以采用卡方检验。

1.假设检验的结果中，常见只写P值的情况，有时候会误导读者，也会隐藏计算失误的情况，因此写出具体的统计值，如F值、t值，可以增强可信度。对于率、相关系数、均数这类描述统计量，要清楚写明进行过统计学检验并将结果列出。P值一般取0.05与0.01作为检验显著性，对于结果的计算要求具体的P值，如P=0.23或P=0.02。

2.在对论文进行讨论时，作为统计学方法产生的结果往往要作为作者的主要观点支持其科学假设，对统计结果的正确解释至关重要。P值很大表明两组间没有差别属于大概率事件，P值很小表明两组间没有差别的概率很小。当P<0.05，表明差异具有统计学意义。P值与观察的样本量的大小有关联，当样本量小的时候，数据之间的差别即使很大，P值也可能很大;当样本量大时，数据之间的差别即使很小，P值也可能显示有显著性差异。相关系数统计学意义的显著性也与相关系数的大小没有绝对的关联，有统计学意义的样本相关系数可能很小。因此，有统计学差异的描述并不一定意味着两组间差别很大，错判的危险性很大，显著性的检验为定性的结果，结合统计量大小方可判断是否具有专业意义。

变量间虚假的相关关系与变量随时间变化而变化相关，统计学意义的关联并不表示变量间一定存在因果关系。因果关系的确定要根据专业知识和采用的研究方法的不同来考量。使用回归方程进行分析，当两变量间具有显著性关系，但是从自变量推测因变量仍然不会很精确。相关或回归系数不能预测推测结果的精确程度，而只是预测一个可信区间。诊断性检验应用于人群发病率很低的疾病，灵敏度、特异度的高低对于明确疾病诊断并不能很肯定。“假阳性率”与“假阴性率”根据实际的需要不同要求并不一致，在疾病患病率很低时，出现假阳性也是正常的，要确诊疾病必须要与临床症状体征相结合。因此，这两个率的计算方法必须交待清楚。

三、医学论文统计学方法应用的常见错误分析

(一)“材料与方法”中的统计学方法应用的常见错误

“材料与方法”中统计学方法常见的问题主要为：对样本的选择或者研究对象的来源和分组描述很少或者过于简单。例如，临床入组病例分组只采用简单的随机分组，未描述随机分组的方法，未描述是否双盲双模拟，未设置空白对照组，分组后对性别、年龄、文化程度的描述未进行统计学检验，对于特殊的统计学方法没有详细交代;动物实验分组的随机化原则描述过于简单，没有具体说清完全随机、配对或分层随机分组等;统计分析方法没有任何说明采用的分析软件，有的只说明采用的分析软件而不交代在软件中采用的统计方法;没有说明原因的情况下出现样本量过于小等情况。

(二)“结果”统计学方法应用的常见错误

1.应用正确的统计学方法出现的结果表达并不一定正确。例如前文所述数据的精确度要求。医学论文常见错误中包括均数、标准差、标准误等统计学指标与原始数据应保留的小数位数不同;对于率、例数、比值、比值比、相对危险度等统计学指标保留的小数点位数过多;罕见疾病的发病率、患病率、现患率等指标没有选择好基数，导致结果没有整数位;相关系数、回归系数等指标保留的小数位数过多或者过少;常用的一些检验统计量，如F值、t值保留的位数不符合要求。

2.对统计学指标进行分析和计算时，一般采用计数资料和计量资料进行区分。计量资料常用三线表，在近似服从正态分布的前提下采用均数、标准差进行说明，如果不符合正态分布时，可以采用加对数或其他的处理方式使其近似正态分布，否则只能采用中位数和四分位数间距等指标进行描述。医学论文中常见未对数据进行正态分布检验的计算，影响统计结果的真实性和可信度。对于率、构成比等常用的计数资料指标，常见样本量过小的问题，采用率进行描述会影响统计结果的可靠性，采用绝对数进行说明会显得客观一些。还有一些文献将构成比误用为率，也是不可取的。

3.在判断临床疗效之一指标时，两组平均疗效有差别并不意味着两组的每一个个体都有效或无效，必须通过计算有效率进行计算。如比较某药物治疗糖尿病的疗效，服药一周后，研究组和对照组的对血糖降低值分别为6.7 ±2.4 和1.2 ±0.6 ( P = 0.000 1) 。按空腹血糖值低于7.7mmol/L的疗效判定有效率，研究组和对照组的有效率分别为75.6%和12.4% ，尽管平均疗效相差较多，但也要注意到该药物对部分患者无效(24.4%)。对假设检验结果的统计学分析结果，P 值的表达提倡报告精确P值，如P = 0.015或P = 0.321等。目前的统计学分析软件均可自动计算精确的P 值。例如常用的SAS，SPSS等，只要提供原始数据，就可以计算出t值、F值和相应的自由度，并可获得精确的P值。

四、小结

提高医学论文中统计学方法的使用质量是编辑部值得重视的一项长期而又艰巨的工作[3]，医学论文中统计方法应用和统计结果的表达正确与否，不仅体现了论文的科学性和严谨性，而且对于提高期刊整体的学术质量，促进医学科学的发展和传播也有着重要作用[4]。

参考文献：

[1] 李敬文,吕相征,薛爱华.医学期刊评论性文章摘要的添加对期刊被引频次的影响[J].编辑学报,2011(23).

[2] 陈长生.生物医学论文中统计结果的表达及解释[J].细胞与分子免疫学杂志,2008(24).

[3] 潘明志.新时期复合型医学科技期刊编辑应具备的素质和能力[J].中国科技期刊研究,2011 (22).

统计学专业毕业现状分析与对策研究

本科毕业论文是高等学校人才培养计划的重要组成部分，是本科教学过程中最后一个重要的教学实践环节，是学士学位授予的一个重要依据。[1，2]然而，相较于其他教学环节，毕业论文没有受到足够的重视，从而导致该环节存在着一些问题。[3]本文将以中央民族大学统计学专业毕业论文为例，在分析其现状的基础上，找到问题并提出相应的建议。

中央民族大学统计学本科专业设置于2003年，目前已有六届毕业生。经过学院和学校层面的努力，统计学专业作为新办专业取得了较快发展，所培养的学生具有较好的专业能力和综合素质，近四成学生继续读研深造，就业的学生大都在专业对口的工作岗位上，就业率一直在85%左右。

本科毕业论文环节在培养方案中是6个学分。学生在第七学期开始选择指导教师以确定毕业论文题目。经过前6个学期的系统理论学习，统计学专业学生已基本掌握了统计学的基础理论和基本方法，具备了正确的统计思想和较强的统计软件应用能力，以及运用所学的理论和方法解决实际问题、文献检索和资料查询等综合能力。本科毕业论文的写作就是统计学专业学生将上述基础和能力进一步深化与升华的重要过程，从而培养学生的创新能力和实践能力，使学生的知识、技能和素质得到进一步的充实和提高，同时也是衡量学校教学质量和办学水平的重要指标。因此对如何提高毕业论文质量进行研究是必要和有意义的。[4]

一、统计学专业毕业论文质量的现状分析

从论文完成情况来看，每届的毕业论文基本都能达到论文教学环节的要求，通过对中央民族大学统计学专业2007～2011年四届毕业生的毕业论文进行分析，发现毕业论文及格率为99.18%。

从毕业论文研究的类型来看，主要分为两大类：理论研究型论文和实证型论文，理论研究型论文表现为总结和论述现有统计理论问题，表述理论研究的成果，或应用理论对现实问题进行分析、说明，并提出自己的思考;实证型论文主要表现为针对某一特定的实际目的或目标，运用所学统计的理论和方法，对经济、管理、金融、医学、生物、工程、环境等领域进行统计调查、统计信息管理、数量分析等。

从论文知识点范围的分析来看，学生论文绝大多数是统计专业问题，极少数是其他数学分支的问题。从中央民族大学历届统计学专业学生的毕业论文情况分析，发现毕业论文中研究其他数学分支的问题占总数的6.50%，主要包括：一是其他科目的应用研究(数学分析、常微分方程、运筹学及空间解析几何等)，占总数的1.63%。二是数学专业教育和数学思维的研究，占总数的4.87%。研究统计学专业问题的毕业论文占绝大部分，比例为93.50%，选题内容广泛且多为社会热点问题，涉及经济、社会、医疗卫生、教育发展、旅游、基础设施建设等多领域，由于受学校人文环境影响，很大比例的学生对少数民族地区的经济、社会、民生等问题进行了统计分析，约占总学生人数的30.08%。所使用的分析方法主要集中于抽样调查、回归分析、多元统计方法、聚类分析、判别分析等常用统计方法。

此外，统计分析显示学生成绩普遍偏高，统计学专业学生的毕业论文，尤其是实证类论文，存在着可以大量使用背景介绍和统计软件分析结果的特点，因此，一些论文没有创新性和学术含量，但具有较大的篇幅，与理学院其他专业的毕业论文成绩比较，其平均成绩相对较高，约80.42分。

二、统计学专业毕业论文存在的问题

毕业论文的质量问题关系到本科人才的培养规格和目标，直接体现了学生本科阶段的学习成果，是衡量教学水平、学生毕业与学位资格认证的重要依据。通过对论文和考评结果的具体分析，发现学生的毕业论文在创新性、理论深度及论文写作常识多方面存在问题。具体表现为：

1.创新性不够

学生的毕业论文表现为理论性研究非常少，大都是实证型论文，并且多是简单的统计方法应用，缺少创新性研究和思考。从中央民族大学历届统计学专业学生的毕业论文来看，理论研究型论文只占4.89%，与实证型论文的比例为1︰19.45，比例悬殊，体现了学生在毕业论文大的选题过程中，避重就轻，缺乏创新的特点。如每年都有一定数量的学生选择“我国人均GDP的预测”这类针对某经济指标进行预测的题目，论文的主要内容就是利用ARMA、灰色预测或者趋势外推方法等一种或多种方法对时间序列数据做简单建模和分析，论文没有对指标本身的意义以及国内国际的社会经济形势进行综合分析。这种方法简单套用性质的论文占有很大的比重。

2.选题过大、内容空泛，缺乏深入研究，存在抄袭、拼凑现象

有些学生在选择研究课题时，往往不能根据自身的专业知识结构特点和社会实践情况进行准确定位，只是一味的盲目的选择一些过大过空的社会热点问题，因此难以看到所要研究的问题的本质。如有的学生针对CPI做研究，没有深入了解问题的实质，只是收集了一些文献，很难提出自己的观点或研究角度，造成了材料堆积且过于散乱，论文变成了一些材料的简单拼凑。有些论文针对某一社会经济问题进行研究，论文的主题只是针对现有数据利用简单的统计方法进行分析，对数据的质量和可靠性以及方法的适用性不做针对性讨论，对所得的结论也不结合社会经济现实情况进行分析，导致论文质量不高。

3.相对前沿的分析方法利用较少

前沿的分析方法利用较少，通过毕业论文的写作，统计分析能力没有实质性提升。学生论文使用的统计方法主要集中于回归分析、聚类分析、判别分析、相关性分析等，其中回归分析方法占有非常大的比例，约41.46%，其他各统计方法使用的比例分别为：聚类分析为5.69%，判别分析为7.32%，相关性分析为14.63%，多元统计方法为2.44%，时间序列分析为3.25%，极少有学生使用教科书外的相对前沿的分析方法。

4.论文写作上存在结构不合理、没有相关研究介绍、创新点表述不清、参考文献不会正确标注等问题

从学生的毕业论文来看，论文写作不规范，专业性差。主要存在论文形式不规范、结构不合理、题目含糊、有些论文杂乱无章、口语化严重、可读性差等问题。

三、存在问题的原因分析

针对上述问题，统计学系通过对论文进行详细审查以及组织指导教师和学生座谈，发现毕业论文出现以上问题的主要原因包括以下几方面：

1.学生对论文不够重视

部分学生由于忙于考研学习而无暇顾及毕业论文的研究，还有部分学生由于忙于外出找工作、实习而无心认真撰写论文。论文撰写所需的必要时间难以得到保障，因此学生应付了事，从而无法保证论文的深度。此外，还有部分学生认为毕业论文只是一个教学环节，与考研的好坏无关，存在只要写了论文，教师都会让自己通过的侥幸心理，在思想上没有引起足够的重视。

2.缺乏指导教师的针对性指导

指导教师所带毕业生人数过多，使得导师的工作量呈现超负荷状态，无法保证每个学生毕业论文的质量，从而致使部分学生的论文规范性较差，没有对存在的问题反复修改，使得学生论文存在诸多问题。

3.学生的专业训练还不够

大部分本科生没有经历过论文的写作训练，写作水平较低，不了解学术论文的规范性及其格式，不知如何从科研的角度构思文章、组织材料、安排结构，使得相当一部分学生的毕业论文表达的观点不够准确清楚，论据亦不能很好地支持论点。另外，一些同学为了完成任务，直接将在网络中搜索到的资料不假思索的拼凑在一起，使得内容不成体系，观点混乱。

四、提高毕业论文质量的建议和实践

1.加强毕业论文重要性的宣传，提高学生的重视度

加强对毕业论文重要性的认识有助于提高本科生毕业论文的质量。通过讲座、课堂传授等形式，让学生意识到毕业论文的实践性和综合性是任何教学环节都不能替代的，是提高发现问题、分析问题、解决问题能力的有效途径，更是进行个人综合素质提高的必不可少的重要环节，[4]从而使学生在思想上认识到毕业论文的重要性，投入更多精力进行毕业论文设计。

2.选题和教师的科研项目相结合，提高论文的创新性

在选择课题时，为了能充分发挥学生的主观能动性，可以让学生根据自身的特点，与指导教师协商，结合导师的研究方向制定课题方案。统计学专业的教师一般除了申请国家自然科学基金和国家社会科学基金这类对理论性和创新性要求较高的项目以外，很多教师还主持或参加有相应的应用研究类项目。应用类项目大都需要实地调研(以及问卷涉及和数据分析)或者大量的数据分析和建模。引导学生参加这类项目来设计和完成自己的本科毕业论文，能够激发学生的科研热情和创新潜力。此外，鼓励和引导一些成绩较好，如让具备保研资格的学生参加教师的科研讨论班或者课题组，选择一些具有一定难度的理论问题进行研究，可以使学生了解本学科的发展方向和最新动态。最近两年，越来越多的学生，特别是具备了保研资格的学生，在大四上学期就能投入到项目和毕业论文的写作中。

3.重视平时实践教学环节，培养学生的实践能力、发现问题以及解决问题的能力

为了提高学生的学习兴趣以及对问题的分析、解决能力，广泛开展了丰富多彩的社会实践活动，使学生尽可能早地接触与本专业有关的实际工作，切身体会到如何将理论与实际相结合，了解本学科的实际业务，从而提高自主学习能力，加强专业知识的把握。结合学校的实际情况，积极鼓励学生在大二和大三阶段参加校级和国家级的全国大学生数学建模竞赛，申请“中央民族大学本科生研究训练计划项目”、“北京市大学生科学研究计划项目”和“国家大学生创新性试验计划项目”。项目的申请和实施以及研究报告的写作，对学生来说都是一个很好的锻炼。目前，统计学专业本科生的参与率在70%以上。此外，建立专业实习基地可以提高学生利用专业知识分析和解决实际问题的能力。这些环节的设计和实施都有力地保障了学生本科毕业论文的水平和质量。

4.加强学生科技论文写作训练

加强平时课堂上大作业的规范化，潜移默化培养学生科技论文的写作能力。通过平时的实践活动，如学生数学建模以及大学生创新实践等各类实践性项目来提高学生的论文写作能力。

5.实施激励措施，激发学生的兴趣和主动性

针对那些参与实际课题的学生，学院鼓励指导教师根据学生的完成情况以劳务费的形式给予其奖励，另外积极鼓励毕业论文质量优秀的学生进行投稿发表。此外，还需对答辩程序和评分标准进行规范化，建立优秀毕业论文指导教师和优秀毕业论文奖励制度，以形成积极的导向作用，充分调动指导教师和学生的积极性。

6.加强教师责任心，建立完善的机制

加强学生毕业论文的过程管理，从开题到中期检查严格执行，指导教师严格把关。为了保证学生与教师之间的沟通，学校可以通过建立师生信息反馈机制改善师生分离状态，为师生提供便利的沟通渠道，同时设置适当的教师激励制度，中央民族大学目前对教师指导本科毕业论文有额外的课时补贴。