无响应问题无论在抽样调查理论还是实践中都是十分重要的问题。然而,我国使用的统计学教材极少讨论这一问题。本文系统地论述了无响应问题引起的后果和对无响应问题的处理方法,希望能引起重视。
一、引言
抽样调查是统计学课程中的重要内容,而无响应(Nonresponse)问题是抽样调查中的重要问题。“无响应”也称为“无回答”。概括地说,无响应是指在抽样调查中无法从所有的样本单位及问卷中的所有项目获得有效数据。无响应可具体分为两种类型,一种是“单位无响应”,一种是“项目无响应”。单位无响应是指被调查单位没有接受调查;而项目无响应是指被调查单位虽然接受了调查,但对调查中的某些项目没有给出有效的回答。在我国使用的经济管理类统计学教材(包括引入的国外教材)中,基本上都没有涉及这方面的内容,个别讨论到的,也只是很简单的几句话。
但是,“无响应”在实际的抽样调查中是经常碰到的问题。如果学生不了解这方面的知识,就不知道该如何处理;而直接使用带有“无响应”问题的调查问卷,后果将很严重。笔者认为,经济管理类统计学教材中亟需增加无响应的后果及其处理方法方面的内容。
二、无响应的后果
1.无响应从两方面影响推断结果。在抽样调查中,无响应问题会从如下两个方面影响推断结果。一方面,由于部分调查单位或调查项目无响应,使得样本容量减少,从而使估计量的方差变大。这种后果相对来说是较容易处理的,比如,可以用补充样本、事先估计回答率并由此相应增加调查单位数量等方法来处理。
另一方面,无响应的样本单位与回答的样本单位如果在所调查的项目上存在显著差异,则会使得依据回答样本单位的数据所作的统计推断存在偏差,即无响应偏差,这是一种系统偏差。这种后果的处理比第一种复杂得多,但由于它对调查结论的影响很大,我们不能不重视这一问题的研究。事实上,在实际调查中,在回答的样本单位与无回答的样本单位(尤其是拒绝回答的样本单位)之间往往存在着很大的差别。比如,在对私营企业的依法纳税情况的抽样调查中,回答的样本单位比无回答的样本单位(如上所述,含有拒绝回答和提供不合乎要求的回答等单位)通常有较少的偷税漏税行为。
2.对无响应误差的分析。在分析无响应误差的影响问题时,不同统计学家持有不同的观点。两种通常的观点分别被称为无响应的“确定论”和“随机论”。如果记第i个总体单位的回答概率为pi,则“确定论”认为,总体所有单位有pi=0或pi=1,就是说,总体的N个单位含有两类单位,一类是如果被抽中则肯定回答的单位(N1个),另一类则是如果被抽到肯定不回答的单位(N0个,N=N1+N0)。而“随机论”则认为对所有的总体单位有0≤pi≤1,各pi可能取各种不同数值,而且在大多数情况下,pi被视为条件概率,即它的大小取决于调查时的环境。无论是从哪种观点出发,我们都可看到,无响应偏差的大小取决于两个因素:一个是回答率;另一个是回答单位与无响应单位在Y变量值之间的差异(这里,Y变量是指对调查中具体分析的指标的测度)。而两种观点的差别则体现在对形成回答率的机制的不同看法。
3.关于可接受的回答率问题。如上所述,较低的回答率将会破坏样本的代表性,从而产生较大的无回答偏差。那么,什么样的回答率是可以接受的呢?这一问题目前尚没有一个明确的、公认的结论。科克伦和伯恩鲍姆(A.Birnbaum)等人认为对一般调查而言,回答率应在90%甚至95%以上。美国广告研究基金会则建议邮寄调查的回答率应80%以上。我国学者卢淑华也持这种看法。爱尔达斯(Erdos)则认为一个可靠的邮寄调查应有50%以上的回答率,或能用某种方法证实不回答者与回答者是相似的。莱斯勒(J.T.Lessler)认为对这一问题的回答不应是绝对的,而应考虑多方面因素。她指出应结合如下因素来讨论:(1)调查前对回答率的期望值,它取决于调查的内容、总体与数据收集方式;(2)提高回答率的成本;(3)是否对无回答采用补救方法以及采用何种方法。(4)调查内容及其结论的重要性。
应该指出的是,在调查报告或研究结果中说明回答率是一项良好的调查研究应有的内容。
三、无响应问题的处理方法
为了尽量减少无响应误差的影响,统计学家们提出了许多的处理方法。这些处理方法可以归纳成两类,一类是在进行统计分析之前的处理,即在调查阶段的处理,一类是在统计分析中进行的处理,即调查完成之后的处理。
1.分析前的处理。分析前的处理方法的主要目标是提高回答率。主要方法包括:(1)认真选聘、培训、督导调查员。(2)对被调查者进行适当激励。(3)由有名望的机构出面组织调查。(4)多次访问。(5)改进调查方法。如,科学地设计调查项目与问卷外观,以使被调查者能较轻松地回答问题;调查前先与被调查者联系;仔细分析不同受访者最可能在家的时间;等等。(6)在无响应的样本单位中再次抽样。(7)使用随机化回答技术。如果引起无响应的主要原因是问卷或某些项目为敏感性问题(如隐性收入、偷税漏税、吸毒等),则可用使用随机化回答技术来进行调查。这种调查技术通过设置巧妙的“随机化装置”,使得被调查者可以说出实情而调查者并不会知道他的回答的真正含义。但调查者可以由整个样本的回答获得某类人数所占比重或某敏感性指标的均值等的估计值。
2.分析中的处理。如果由于某些原因未能采用上文所述的分析前的处理方法,或者虽已采用但仍未能达至足够高的回答率,我们就需要采取事后的补救措施。各国统计学家已为此而提出了许多方法。(1)波利兹-西蒙斯(Politz-Simmons)方法。这种方法是预先在调查时询问回答者在K个类似的期间里他有多少期间可以被找到,然后在分析时用他可被找到的期间数对其Y变量值(Y为所研究的指标的测度)作“倒数加权”。例如,对于在调查的前5天中在相同时间内呆在家里并可以接受调查的天数分别为0、1、2、3、4和5的回答者,分别用6/1、6/2、6/3、6/4、6/5、6/6作为其Y变量值的权数(分母是前5天可接受调查的天数加1,即加上调查的当天)。
这种方法的隐含假设是在家天数越少者,其Y变量值越接近不在家者。(2)时间趋势法。这种方法通过考察连续各批回答者(如邮寄调查中按时间先后对回件分批)的答案,分析其中的趋势,然后将此趋势延伸,以此推测出无响应者的答案。比如,如果各批回答者的收入呈上升趋势,则推测无响应者的收入是最高的。(3)分组加权估计。这种方法要求按某些辅助信息将总体单位分成若干组,使组内各单位的Y变量值尽可能相近。在抽样调查之后,若出现无响应问题,则按各组的单位数占总体单位数的比例进行加权调整。我们用一个简化的例子来说明,设总体分成两组,第一、二组单位数分别占总体单位数的30%与70%。假设抽样调查的结果如下表。
如果不作加权调整,则对总体的Y变量均值的估计为:
(3230×300+2110×500)/800=2530
但考虑到第2组的不回答率远高于第一组,为减少无响应偏差,使用分组加权估计,则总体的Y变量均值的估计调整为:3230×30%+2110×70%=2446。(4)替代方法。概括地说,替代方法是用“精心选择”的回答单位的数据或者用按辅助信息推测的数据来“替代”无响应单位数据的方式来处理无响应问题。而具体的替代方法则多种多样。
——均值替代法。指将总体分组,用组内回答单位的样本均值替代无响应单位的值。这种方式实质上与“分组加权估计”方法非常类似。
——完全匹配替代法。使用某些外部来源的记录来替代无响应单位或无响应项目的数据。如从工商、税务、海关等管理部门取得无响应的被调查企业的注册资本、所得税、出口货物情况等来作替代值。
——最后回答者替代法。以最后一批回答者的答案替代无响应者的答案。比如,在邮寄调查中,以几次追踪后最后寄回问卷者来代表未回件者。
——演绎估计法。如果所研究的Y变量与另一变量X存在已知的函数关系,即Y=F(X),且可了解到X的值,则可用此方法得出Y的缺失值。
——回归替代法。如果所研究的Y变量与另外一些变量存在高度的相关关系,则可建立一个回归模型,并利用回答数据对模型参数进行估计。然后利用估计的回归方程预测Y的缺失值。
——“热层”(Hot-deck)方法。通常用于项目无响应。一般做法是对调查中的项目缺失值用同一调查中具有类似背景的回答者的数值来替代。
——最近距离替代法。通常用于项目无响应。这种方法要选择一些辅助变量及一种距离测度。它按照辅助变量距离最近的原则选择替代者。有人认为“热层”方法采用的是非数值分类的方式,而最近距离替代法采用的是数值分类方式,因而后者是前者的修正。
几十年来,统计学家们针对无响应问题提出了许多的处理方法,本文难以一一介绍。统计学教材应按照所针对的学生层次、教学时间等来选择介绍适当的方法。
作者简介:岑成德(1957-),男,广东雷州人,中山大学管理学院,教授,主要从事统计学、市场研究方法的教学和研究工作。