0引言
正态分布是自然界中一种最常见和最重要的一种分布.以正态总体为前提的统计方法也已经被越来越多的教学、科研工作者所掌握.但是,在一个实际问题中,总体一定是正态总体吗?如果不顾这个前提是否成立,盲目套用公式,可能影响统计方法的效果,因此,正态性检验是统计方法应用中的重要问题.
但一般的数理统计教材中,关于正态性检验方法只介绍/拟合优度检验,但该方法不仅对正态分布且对其他分布也适用,对正态性检验不具有特效.本文在查阅了该问题的大量文献的基础上,结合正态分布的特点介绍了几种常见的正态性检验方法,并对各种方法的优劣点作了简要介绍.
本文的结构安排如下,第一部分介绍了正态分布的一些基本知识,第二部分首先介绍定性的正态性检验:利用概率纸检验,其次简要介绍/拟合优度检验;再次介绍了正态性检验的特效方法:W检验与D检验,最后介绍有方向性的正态性检验:峰度检验与偏度检验.第三部分简要地比较了各种检验法的优劣性.
1正态分布的基本知识
1.1正态分布的概念
定义1若随机变量X的密度函数为
另我们称p=0,a=1的正态分布为标准正态分布,记为X?N(0,1),标准正态分布随机变量的密度函数和分布函数分别用<p(x)和x)表示.
由引理可知,任何正态分布都可以通过标准正态分布表示.
若X~N(p,,a2),则3=0,3k=3若随机变量的分布函数F(x)可表示为:
F(x)=(1-s)Fj(x)+sF2(x)(0彡s<1)(8)
其中(x)为正态分布Nijx,a\)的分布函数,F2(x)为正态分布N、jx,a2)的分布函数,则称X的分布为混合正态分布.
引理5混合正态分布的峰度氏>3.
注:引理1、2、3、的证明见参考文献1和引理5的证明见参考文献M.
2几种常见的正态性检验方法
2.1利用概率纸检验分布的正态性
2.1.1正态概率纸的构造
正态概率纸是一种具有特殊刻度的坐标纸,它能使由正态变量的取值x和相应的分布函数值F(x)组成的数对(x,F(x))在这张纸上呈一条直线.因此,它计算使用简单方便.关于利用概率纸检验分布的正态性的原理,由于篇幅有限,不便阐述,见参考文献2].
下面重点介绍利用概率纸检验总体正态性假设的一般步骤:
1)把从总体中获得的n个样本观测值按由小到大的次序排列成:x(0^x(2)忘…忘xw
2)将数(x(l),n^3/4)(i=1,2,?…,n)画在正态概率纸上
3)观察这n个点的位置,进行判断.
如果这些点明显地不成一条直线,则拒绝总体正态性的假设;
如果各点离直线的偏差都不大,可以认为总体近似服从正态分布.
这时可以凭直觉画一条直线,使它离各点的偏离程度尽可能的小,
其中在纵轴刻度为50%附近各点离直线的偏差要优先照顾,使其尽可能的小,并且使直线两边的点数大致相等.另外,若发现有些点系统地偏离直线,在拒绝总体正态性假设后,可以考虑其他分布类型.特别地,如果几个较大的值明显地倾向于由其他值确定的直线的下方,考虑函数变换y=log(x)或y=槡x后,总体是否服从正态分布.同时,利用概率纸还可以估计正态分布的参数,和a.虽然不够精确,但十分简便.
2.1.2正态概率纸法的应用
例1对某种高温合金钢的15个试样在580°C的温度和15.5kg/mm2的压力下进行试验,其断裂时间为t(单位:小时),表1给出了按由小到大的次序排列的xw,及对数变化下的值lg(10x(4))(k=1,2,?…,15),试用正态
概率纸法分析高温合金钢的寿命分布.
解将这15个结果值分别同和丨8(10k))组成点分别画在两张正态概率纸上,来检查这组
结果值是否构成一条直线,是否服从正态分布(见图1).
图1的左图是由(x(k),所呈现的结果,可以看见这些点不成一条直线.图1的右图是由(x(k),lg
(10x(k)))所呈现的结果,可以看到这些点明显接近一条直线,所以说这些观测值的对数为正态分布的假设是适当的.
利用概率纸检验分布的正态性,靠的是人的视觉,主观性较强,所以检验的方法必须由定性的转为定量的.下面介绍几种定量的检验方法.
2.2/拟合优度检验
当我们通过试验取得一系列数据后,经常会遇到这样一个问题,这些数据来自怎样的分布?当然,可以根据已有数据画直方图,得到其分布的一个粗略的估计.但为了便于处理,我们希望能用一个公式定量地表示总体的概率函数,即选一个分布来拟合这批数据所属的总体.英国统计学家K.Pearson引入了著名的/拟合优度检验.
一般的本科概率统计教材对/拟合优度检验有详细介绍,鉴于篇幅限制,用^拟合优度检验来检验总体的正态性的一般步骤见参考文献1].以上的/拟合优度检验法不仅适用于正态性检验,还适用于其他分布的检验,对正态性检验来说不具有特效型,下面介绍两种只针对总体正态性假设的检验:W检验与D检验.
2.3W检验与D检验
2.3.1W检验
2.3.1.1W检验的一般步骤
W检验是S.S.Shapiro在1965年提出,检验的基本步骤如下:
1)建立原假设H:X服从正态分布;2)把从总体中获得的n个样本观测值按由小到大的次序排列成:x(1)^x(2)忘…忘xw
3)选择恰当的统计量W为:
其中b/2]表示n/2的整数部分;系数A(W)可查W检验的系数表,
Xx(.)-x]2i=1
n/2]表示数n/2的整数部分.
4)根据给定的检验水平a和样本容量n查W检验统计量W的p分位数得统计量W的a分位数Wa.
5)计算并判断:给定样本值x1,?…,x?,计算W并与Wa比较,若W<Wa,则拒绝札,反之,则不能拒绝
注:有关W检验的原理及W检验的系数及分位数表见参考文献5].
2.3.1.2W检验的应用
例2抽查用克矽平治疗的矽肺患者10名,得他们治疗前后血红蛋白的差(单位:克%)如下:2.7,-1.2,-1.0,0,0.7,
2.0,3.7,-0.6,0.8,-0.3,
试用W检验检验治疗前后血红蛋白的差是否服从正态分布.
解把例2中的数据按由小到大的次序排好填入表2
把表2的数据代入公式疋=」--n=,经计算得疋=0.9251.
.Xx(.)-x]2
I=1
若取a=0.05,查统计量W的a分位数表得n=10时,Wa=0.842,因为W>Wa,所以不拒绝原假设.虽然W检验是一种有效地正态性检验方法,但它一般只适用于容量为3至50的样本,随着n的增大,一般用于计算分位数的分布拟合的技术不能使用.
2.3.2D检验
1971年,D.Agostino提出了D检验,该检验不需要附系数表,另外,它适用于的样本容量n的范围为:50耷n耷1000.D检验的基本步骤如下:
1)建立原假设H:X服从正态分布;
2)把从总体中获得的n个样本观测值按由小到大的次序排列成:x(1)^x(2)Hxu)
3)选择恰当的统计量Y为:
4)根据给定的检验水平a和样本容量n查D检验统计量Y的p分位数,得统计量Y的a/2分位数Ya/2和1-a/2分位数
5)计算并判断:给定样本值x1,?…,x?计算y并与及Y1_f比较,若Y<Ff,或Y>Y1_f则拒绝札,反之,则不能拒绝H.
注:有关D检验的原理及D检验的分位数表见参考文献6].
以上两种检验需要提供分位数表及统计量的计算较为繁琐,下面介绍另外两种正态性检验的方法:偏度检验与峰度检验.
2.4偏度检验与峰度检验2.4.1偏度检验
设x〖,?…,xn为来自总体X的一组样本,由引理4知,若X服从正态分布,则偏度为0.若有一组数据x〖,
…,x?,观察发现数据有正偏度或负偏度的倾向,就在偏度方向产生了对正态性假设的怀疑.因此,把总体正态性检验转化成原假设札:3s=0的检验.偏度检验的一般步骤如下:
1)根据实际问题中的先验信息建立原假设札:
3=0与备择假设H:3s>0,或H:3<0
n
VnX(xi-x)3
2)选择恰当的偏度统计量bs为:bs=^^z(9)
{^xi-x]2}T
3)根据给定的检验水平a和样本容量n查偏度统计量\的p分位数表,得统计量\的1-a分位数\(1-a)
4)计算并判断:给定样本值x1,…,x?,计算&并与&(1-a)比较,作出判断:
①当备择假设为H1:3>0时,若bs>bs(1-a)则拒绝H,反之,则不能拒绝H;
②当备择假设为H:3s<0时,若bs<-bs(1-a)则拒绝H,反之,则不能拒绝H.
在进行偏度检验时,备择假设不同,判断的准则也不同.因而“具有总体在偏度方向上偏离正态,并且有明确的偏度方向”是偏度检验的使用条件.
2.4.2峰度检验
同理,设x1,…,x?为来自总体X的一组样本,由引理4知,若X服从正态分布,则峰度为3.若由先验知识知总体在峰度方向上偏离正态,则可以把总体正态性检验转化成原假设札:3k=3的检验.
2.4.2.1峰度检验的一般步骤
1)根据先验信息,建立原假设H:3k=3与备择假设H?3k>3或H1<3
n
nX(xi-x)4
2)选择恰当的偏度统计量\为:\=^(10)
{^xi-xi2}2
3)根据给定的检验水平a和样本容量n查偏度统计量b的p分位数表,得统计量b的1-a分位数h(1-a)或a分位数\(a).
4)计算并判断:给定样本值x1,…,x?,计算\并与\(1-a),bk(a)比较,作出判断:
①当备择假设为H1:3k>3时,若bk>bk(1-a)则拒绝H,反之,则不能拒绝H.
②当备择假设为H:3k<3时,若bk<bk(a)则拒绝H,反之,则不能拒绝H.
注:1)在进行峰度检验时,备择假设不同,判断的准则也不同.因而“具有总体在峰度方向上偏离正态,并且有明确的偏度方向”是偏度检验的使用条件.
2)有关偏度检验、峰度检验的原理及统计量\、bk的p分位数表见参考文献7].
1.4.2.2峰度检验的应用
例3某人怀疑测量过程受到干扰,因而又测量了40个同类零件的同一尺寸,测得与理论值的偏差见
表3.
解如果测量不受干扰,测量的偏差服从正态分布N(/x,a2),对测量过程的干扰可能是均值相同、方差增大的正态分布N(/x,a2)(a2>a1).测量偏差服从混合正态分布,混合正态分布的定义见定义4,由引理5知测量偏差的分布的峰度3>3,因此给出备择假设为圮:3k>3,把表3的数据代入公式(10),其中n=40;经计算得\=4.96,取检验水平a=0.05,查\的p分位数表得\(0.95)=4.06,因为4.96>4.06,因而拒绝原假设,认为总体为峰度大于3的分布.
3结束语
正态性检验是数理统计上一个极富价值的课题,上述的各种正态性检验方法各自有其优劣处.概率纸检验法实施起来简便直观,但主观性较强,属于定性检验;^拟合优度检验不仅能检验分布的正态性,也能检验总体是否服从其他分布,从这一点来说,它与前者具有通用性,但同时它们对正态性检验缺乏特效,效果并不十分理想;而W检验与D检验只检验总体服从正态分布的特定方法,相对来说,效果比较理想,但各自使用的范围不一样;偏度与峰度检验则是在有先验信息已知总体在偏度或峰度上有明确的偏离方向的情况下,来检验总体是否服从正态分布,称为有方向的检验.如果实际问题中不具备该信息,则无法使用该方法来检验.因此,我们在使用以上方法进行正态性检验时一定要注意具体问题中所包含的信息,从中适宜的检验方法.