作者:贺本岚 金勇进 巩红禹
摘 要:事后质量抽查是对人口普查登记质量进行检验和评估的调查方法。文章通过对美国、英国和印度等国家的事后质量抽查经验进行总结,对我国今后人口普查事后质量抽查提出了建议。
关键词:人口普查;事后质量抽查;数据质量
abstract:post enumeration survey is one of the effective approaches to examine and evaluate the quality ofcensus registration.based on the experience ofpostenumeration survey from theu. s., u.k. and india, this paperproposes some suggestions forchina2010 census.
key words:census; post enumeration survey; data quality
我国政府统计数据质量已成为近年来国内外社会各界关注的问题之一。Www.133229.cOM今年我国将进行第六次人口普查,人口普查的数据质量再次受到人们普遍的关注。目前,评价人口普查数据质量常用的方法之一是事后质量抽查。我国于1982年在人口普查中首次采用抽样调查的方法来评价人口普查的登记质量,在历年的人口变动情况抽样调查中仍采取事后质量抽样调查作为评价全国人口抽样调查数据质量的方法之一[1]。
美国、英国等发达国家几十年来对事后质量抽查进行了长期的讨论,积累了丰富的理论和实践经验。对这些国家人口普查事后质量抽查进行经验总结,将有助于我国人口普查及事后质量抽查工作的改进与完善,有助于改善我国政府统计数据质量,为日后普查方案的修订提供依据。
美国和英国在人口普查事后质量抽查方面起步较早,而印度作为世界上的人口大国之一,与我国国情具有诸多相似之处,因此,本文选取这三个国家与中国进行比较分析。
一、抽样设计比较
(一)美国抽样设计美国在每十年一次的人口普查中估计人口覆盖率历史较长,正式测算始于1940年的人口普查。1980年开始结合双系统估计方法采用事后质量抽查测算人口普查的覆盖率。2000年美国的人口普查事后质量抽查称为“准确性与覆盖度评估”(accuracy and coverage evaluation,以下简称为ace),采用三阶段分层整群抽样设计。
2000年人口普查中,美国共划分了3767000个街区群,美国联邦人口普查局根据估计精度和事后抽查目的确定全国样本量。第一阶段,ace调查首先将所有街区群按居住单位数量和是否美国印第安人居住分为小型街区层(每个街区群0-2个居住单位),中型街区层(每个街区群3-79个居住单位),大型街区层(每个街区群80个以上居住单位)和美国印第安人居住层[2]。再按人口比例分配各街区样本量,在各层内等距抽取街区群样本。
该阶段样本抽取出来以后,还需进行居住单元比较和目标延伸搜索,以弥补调查目录的不足。对每一个街区群样本进行现场调查,编制每个街区群内的居住单位地址目录,称为ace独立(居住单位)地址目录。对每个入选的街区群样本,将该街区群的ace独立(居住单位)地址目录与该街区群的“最新普查(居住单位)地址目录”进行对比,确定是否需要进行目标延伸搜索,完善调查目录。如果这两份目录的居住单元一致,则无需进行目标延伸搜索。而如果两份目录不一致,则按照不一致单元的数量进行排序,等距抽取其中一部分进行目标延伸搜索,即对划分区域内除调查目录外的其他建筑和场所进行居住单元地搜索与登记,对登记错误的居住单元进行改正,对遗漏的进行补充。
第二阶段对抽取的第一阶段样本街区群分子层基础上,采用第一阶段抽取街区群的相同方法从这些划分子层中分别抽取调查小区样本,目的是为了缩小最终抽取调查小区样本的数量,提高样本的代表性。
第三阶段抽取住户单位,对第二阶段抽出的包含79个住户单位以下的调查小区内的住户全部进行调查,而包含80个住户单位以上的调查小区则被再分成街区片(由若干住户单位组成),采用系统抽样抽取一定比例的街区片住户单位。
对抽取的样本住户内的个人采用年龄、性别、种族、房屋所有权期限、地区、城市类别、邮寄回答率等进行事后分层[3]。在每个事后层内构造双系统估计量估计该层的人口数,再通过汇总得到全国人口数。最终计算得到人口普查净遗漏率为1. 16%。
2010年美国将进行第23次人口普查,并制定了事后质量抽查初始方案,称为普查覆盖度测量(censuscoveragemeasuremen,t简称ccm),其抽样设计与2000年相同。
(二)英国抽样设计
英国自1961年开始在人口普查后进行普查日外出人口10%调查、事后调查估计覆盖和回答误差等。
2001年人口普查事后抽查称为普查覆盖度调查(censuscoverage survey,以下简称ccs),采用两阶段分层不等概率抽样设计。
为选择有效样本,能对所有地方行政区按年龄和性别估计普查日人口数,调查首先将英国相邻的地方行政区重新归类,形成112个“设计区”。每个设计区包含大约500000人,由若干邮政编码区域组成。由于各区域的漏报率水平不一致,为提高估计精度,根据1991年普查中影响漏报率的相关变量构造“普查难度指数(had to count index)”[4],将每个设计区划分为简单、中等、困难三类调查区,再从每一类调查区内抽取调查区,即为第一阶段样本。
第二阶段采用简单随机抽样从每一调查区内抽取一定数量的邮政编码(每个邮政编码对应多个住户),这些邮政编码对应的住户构成最终样本单元。最后将ccs最终样本按年龄性别交叉分为37组,经过ccs与普查记录进行匹配,构造双系统估计量来推断总人口数。推估得到2001年人口普查净遗漏率为6.1%。
为准备2011年的人口普查事后质量抽查,英国于2009年11月23日至12月17日进行了预调查。2011年的ccs在1991年的基础上做了一些改进,如划分设计区时不仅考虑地理位置因素,还综合考虑区域类型等其它因素;对重复率和漏登率分别进行估计等。
(三)印度抽样设计
印度于1872年首次进行人口普查,从1951年人口普查起开展事后质量抽查。2001年人口普查事后质量抽查(postenumeration survey,以下简称pes),主要目的是计算覆盖误差(coverage error),采取两阶段分层系统抽样设计。
调查首先根据1991年的遗漏率和相对百分误差确定2001年pes的样本量。再考虑区域的离散性,数据分析的可靠性及非抽样误差的控制等因素,在国家的层面上抽取3000个街区。同时由1991年的调查发现,在区域范围内更能精确合理地估计相对标准百分比误差。因此,将全国所有的邦分成六个区:南区、东区、东北区、北区、西区、中区,分别在全国和区域的层面上进行估计。
根据1991年人口普查结果预先推算2001年各邦人口数,再按与这个人口规模数成比例分配街区到各个邦。在每个邦内,先将该邦所有的街区按照位置代码排序,采取系统抽样抽取街区,最终抽取的3000个街区用来估计覆盖误差。再从这3000个街区中按照系统抽样抽出600个街区,用来估计普查登记内容误差。对被选中街区的所有住户都进行调查。
对最终抽取的样本按年龄、性别、城乡和区域进行事后分层,构造双系统估计量估计特定属性人口的普查覆盖率和人口数。2001年印度pes显示全国范围内总的净遗漏率为2. 3%,其中:城市比农村遗漏的更多,前者净遗漏率为4%,后者净遗漏率为1. 7%。
2011年印度将进行第十五次全国人口普查,这次普查的准备工作已经于2010年4月1日正式启动。
(四)中国抽样设计
2000年我国人口普查事后质量抽查采取分层随机等距整群抽样设计,采用人口普查地址码库作为调查目录。事后质量抽样调查目的是只评价全国人口普查登记的质量,并不评价省级及省级以下各级的登记质量,也不评价抽中调查小区的登记质量。
首先根据1999年年末人口数据将我国31个省市按总人口规模划分为四层,各省再按城乡分层,在层内随机等距整群抽取调查小区(根据《第五次全国人口普查办法》,人口普查登记和资料汇总按照划分的普查区域进行。农村以村民委员会所辖地域为基础,城镇以居民委员会所辖地域为基础划分普查区。每个普查区,按照一个普查员所能承担的工作量,划分成若干个调查小区,涵盖调查小区的
所有住户,不重不漏。)。5000万人以上的省份抽取30个调查小区, 2600—5000万人的省份抽取20个调查小区, 2600万人以下的省份抽取10个调查小区,西藏由于地广人疏的特殊地理条件单独划分为一层,抽取2个调查小区。对居住在入选调查小区的人全部进行调查。全国共抽取602个调查小区,调查了162940人,抽样比为0. 13‰。
事后质量抽查的对象包括普查时应在该调查小区登记的常住人口和普查登记时不属于本调查小区的常住人口(即暂住人口)。对常住人口,先与该小区原普查表结果进行逐项比对得到两次调查不一致的地方;对接受过调查的暂住人口,汇总至省级普查机构与其原登记地进行联系比较,得到暂住人口在普查登记中的重登和漏登情况。通过两类人的比对,计算普查的遗漏率、重登率、性别差异率和年龄差错率。采用双系统估计方法估计调查遗漏人口,最终计算得出2000年人口普查净遗漏率为1. 81%。将上述四个国家人口普查事后质量抽查抽样设计汇总如表1所示。
二、抽样设计特点比较通过上述四个国家人口普查事后质量抽查抽样设计的比较,可以发现:1.从净遗漏率的角度看,这四个国家中美国人口普查登记的误差最小,而英国误差最大。国际上人口统计的基本共识是,普查登记的误差在2%以下是正常的, 2% ~5%是可以接受的,如果超过5%,则资料的使用价值就要大大降低[1]。即是说,美国和中国人口普查净遗漏率均低于2%,人口普查数字的质量是较好的,印度人口普查数字的质量可以接受,而英国人口普查资料的使用价值则要低。
2.从样本量的确定方式来看,美国、英国和印度均采用基于全国的设计来确定抽取的样本量,其中美国根据抽样估计的精度确定事后抽查的样本量,印度根据上次普查的遗漏率和相对百分误差确定样本量。
根据人口规模分配调查区样本时,美国根据各州的上次普查的人口数确定样本量分配,印度根据上次普查预测本次普查的人口规模确定各邦的样本分配。
3.从调查方式看,各国都采用多阶段分层抽样设计以提高抽样的代表性。美国和英国都在第一阶抽样基础上,通过相关特征标志对第一阶段样本进行分层,再抽取第二阶段样本,目的是为了进一步提高抽查样本对不同特征层人群普查遗漏率的代表性。而印度则是根据地理位置来进行分层,以更精确地在国家和区域层面上估计相对标准百分比误差。中国则是根据自身国情选择城乡作为分层依据来确定各省应调查的普查小区数。此外,在最终入选的街区内对全部住户都进行事后质量抽查。
4.从推估人口普查净遗漏率的方法来看,四个国家都使用双系统技术进行估计。即通过全国普查人口数与事后质量抽查得到的全国人口数进行比较,构建双系统估计来最终估计全国的真实人口数。而事后质量抽查由p样本和e样本组成,p样本由抽中样本街区群在事后调查中和普查中同时被登记的人组成,e样本由p样本对应街区群在人口普查中所有被登记的那些人构成,通过两个样本的匹配,在每一事后层内构造双系统估计量。
三、对中国人口普查事后质量抽查的建议人口普查事后质量抽查对于提高我国普查和人口变动抽样调查数据质量具有重要的意义,根据上述美、英、印和中四个国家2000年的经验做法,对我国今后人口普查事后质量抽查提出以下建议:(一)进一步细化事后质量抽查目标,计算不同子总体遗漏率目前我国事后质量抽查方案主要是从全国层面上估计和调整数据,而在省一级的层面上调查值与调整值之间的差值难以解释,某些地域、民族等子总体的普查遗漏率可能会高于其他子总体。同时普查覆盖率越接近100%,提高每个百分点的精度所需调查费用就越高,而如某些子总体在普查中遗漏率较高,其在事后调查中的入样概率仍会比其他子总体要低。因此,如果将事后调查目标进一步细化至子总体,即将事后调查估计目标细化到估计各省的登记质量,不仅可以提高投入的人、财、物的使用效率,还可以提高事后质量抽查的估计精度,为以后的人口普查和人口变动抽样调查提供原始珍贵的资料。
(二)选取合适的分层指标提高样本代表性及估计精度2000年我国人口普查事后质量抽查样本时在各省按城乡标志将调查小区分为城市层和乡村层,再在每层等距抽取调查小区样本。分层过于简单,抽取的样本代表性不足。英国借助1991年普查信息构造普查难度指数来进行分层提高设计效率,印度则是由1991年的普查将全国所有的邦根据地理区域分层来提高估计效率。借鉴上述国家经验并结合我国国情,可综合考虑以下分层指标: (1)人口流动程度。近年来随着我国经济社会的发展,人口流动越来越频繁,人户分离现象比较普遍,势必会给人口普查带来相当大的困难,如难以入户登记,多次上门找不见人等,导致普查遗漏率上升。一些省份人口流入较多,如广东省和福建省,而另一些省份则流出人口较多,如四川省和贵州省,人口流动程度相近的省份会呈现出相似的特征。
因此,有必要将人口流动程度作为一个分层指标,按照人口净流出、净流入程度将全国划分为不同层。(2)地域特征。可按照我国大陆划分的地理区域(东北、华北、华东、华南、华中、西南和西北)划分为七层,或按照国家统计局根据我国经济特征划分的东部、中部、西部和东北地区四层。
(三)根据我国人口特点选择相应标志对抽取的样本人口进行事后分层,使得层内个体被登记概率相同使用双系统估计需要满足的前提假设之一是每个人有相同的概率进入普查样本和事后抽查样本,对调查样本进行事后分层则能较好解决这个问题。美国、英国和印度都对最终样本分别按年龄、性别等标志进行了事后分层,而我国在未对抽取的调查小区样本进行事后分层就直接使用双系统估计方法,有悖于该假设条件。因此,对照我国事后质量抽查表与人口普查表,结合我国人口自身特点,可以选择性别、年龄、民族、城乡、城市化程度和省份区域等作为事后分层标志,进行事后交叉分层,并分别在事后层内构造双系统估计量,从而满足不同属性人口的估计要求。
(四)确定恰当的事后质量抽查时间并选择合适的调查人员,以保证事后质量抽查与人口普查之间的独立性使用双系统估计需要满足的另外一个前提假设是事后质量抽查与普查之间相互独立,要实现这一目的可以从时间和调查人员上分别考虑。(1)调查时间上,目前我国事后质量抽查在人口普查结束后的半个月后进行,既能保证调查员及被调查者对普查内容记忆的流畅性,又能减轻人口流动对普查质量造成的影响。而英国和印度事后质量抽查则是在普查后的1-2个月内进行,来保证事后质量抽查不受前期普查的影响。但这个时间点对于我国这样一个人口大国且人口流动性较强的国家并不适用,因此,我国事后质量抽查的时间上仍可以保持不变。(2)调查人员上,事后质量抽查人员与普查人员独立。从人员、经费等角度考虑,结合我国具体实践操作经验,可选取人口普查中的优秀普查员去不同于其普查期间所在的调查小区参加事后质量抽查。对于部分特殊地区如少数民族聚居地,还可以根据当地文化、语言条件另外选择合适的调查人员。
参考文献:
[1]武洁.人口普查中的事后质量抽样调查[j].南方人口, 2002(3): 18-24.
[2]胡桂华.美国2010年人口普查的事后质量检查介绍[j].中国统计, 2009(8): 47-49.
[3]胡桂华.使用双记录系统技术估计全国真实人口数[j].统计与决策, 2008(9): 31-34.
[4]owen abbott. 2011 census coverageassessment and adjustmentstrategy[j]. population trends, 2007(127): 7-13.