中国农村工资性就业教育收益率的实证调查

一、引言
    教育是一种最重要的人力资本投资形式，估算教育的私人收益率始终是劳动经济学和教育经济学关注的重要问题之一，对这个问题的研究也推动着微观计量经济学的发展。中国是一个以农业人口为主的发展中国家，教育对于促进农村发展和提高农民收入的重要性不言而喻。精确地估算农村居民的教育收益率，揭示教育投资对于优化农村居民就业选择、促进农村劳动力流动和增加农民收入等方面的作用，无疑具有重要的理论和现实意义。
    农村居民的收入由农业收入和非农收入构成。对于农业收入，通常采用生产函数法估计教育收益率，即把农村家庭视为生产单位，把教育看作是家庭生产的一种投入要素，结合物质资本、劳动力、土地等其他投入要素，建立生产函数估算教育对于家庭农业收入（或人均农业收入）的影响。农村居民的非农收入主要是非农经营收入和工资性收入。对于非农经营收入，同样需要用生产函数的方法估计教育收益率。而对于工资性收入，通常采用明瑟收益率法估算教育收益率，这一方法基于明瑟方程，分析在控制相关变量的情况下，个体的教育水平对其工资收入的影响。估算工资性就业教育收益率的另一种方法是内部收益率法，但这一方法需要教育成本的信息（如受教育期间缴纳的学杂费、教材教辅和学习用品支出、交通费等等），相关数据很难获得，因此现有研究大部分使用明瑟收益率法。
    本文基于明瑟收益率的方法估算中国农村工资性就业的教育收益率①。与以往研究相比，本研究的特色在于：其一，使用相同样本省份不同年份的微观调查数据，并采用相同的估计方法，使得估计结果在不同年份之间具有可比性；其二，考虑到农村劳动力不仅面临是否从事工资性就业的选择，也面临是否进行劳动力迁移的选择，因此使用多元选择模型纠正样本选择偏差对教育收益率估计的影响；其三，在估计时引入个体能力的代理变量来纠正遗漏能力变量造成的估计偏误。
    二、文献回顾
    利用明瑟方程估计我国农村地区教育收益率的研究已经取得了比较丰富的成果。在这些研究中，部分研究使用劳动者的全部收入作为因变量（如：Wei, et al., 1999；侯风云，2004；赵力涛，2006；国务院发展研究中心农村经济研究部课题组，2007）。由于农业收入、非农经营收入等非工资性收入除了受到劳动者人力资本的影响之外，还受到土地和物质资本投入等因素的影响，使用明瑟方程是不恰当的，因此在这里对这些研究的方法和结果不予讨论。
    基于明瑟方程并以工资性收入为被解释变量的相关研究的总结如表1所示，这些研究在数据来源、研究对象和估算方法等方面存在不同程度的差异。
    首先，从数据来源看。多数研究使用农村住户调查数据，但部分研究分别使用了城市企业调查、乡镇企业调查、城市外来人口调查、农村外出劳动力调查等不同来源的数据，有些研究甚至把不同来源的数据混合起来使用（如：姚先国、张海峰，2004）。
    其次，从研究对象看。大多数研究关注全体工资收入者和外出工资收入者（即农民工），也有研究关注农村工业部门工资收入者和农村本地工资收入者。部分研究还估算了自我经营者的教育收益率（Meng, 2001；王德文等，2008）②。
    最后，从估算方法看，所有研究都使用了OLS估计方法。其中多数研究仅仅使用了OLS方法（李实、李文彬，1994；Gregory and Meng, 1995; Parish et al., 1995; Johnson and Chow, 1997; Ho et al., 2002；姚先国、张海峰，2004；谌新民、林隽宇，2009）。

    但是，简单地使用OLS方法估计教育收益率会遇到很多计量方面的问题，导致教育收益率的估计是有偏和非一致的（刘泽云，2009）。其中一个常见的问题是遗漏了个体能力变量，由于个体能力与其教育水平和工资收入都相关，遗漏能力变量会导致教育收益率的OLS估计值是有偏误的，这种情况称为能力偏误。解决能力偏误问题最常用的方法是使用代理变量或工具变量。已有研究中，陈玉宇和邢春冰（2004）用户主的受教育年限作为劳动者个人能力的代理变量，其他一些研究使用父母的教育年限作为劳动者能力的代理变量或工具变量（Li and Urmanbetova, 2007；王德文等，2008; de Brauw and Rozelle, 2008；邓曲恒，2009）③。
    另一个经常遇到的问题是样本选择偏差。研究农村工资性就业教育收益率应该使用农村住户调查数据，但有不少研究使用农村乡镇企业调查、城市企业调查或农民工调查数据，从而无法避免样本选择偏差对估计的影响。部分研究使用农村住户调查数据并用标准的Heckman两阶段模型对样本选择偏差进行了纠正，即在第一阶段使用Probit或Logit模型估计选择方程并构造逆米尔斯率，将所得的逆米尔斯率加入第二阶段的工资方程中纠正选择偏差（如：孙志军，2004；陈玉宇、邢春冰，2004；张泓骏、施晓霞，2006）④。这一方法假定农村劳动力面临工资性就业和非工资性就业的二元选择，而在现实中，农村劳动力的就业选择是多元的。因此，使用上述传统的Heckman两阶段模型无法估计不同类型工资性就业者的教育收益率。de Brauw和Rozelle（2008）考虑到了这一问题，他们把农村劳动力的就业分为农业生产、自我雇佣、本地打工和外出打工四种类型，通过扩展的样本选择偏差模型，估计出本地打工者和外出打工者的教育收益率。但他们仅仅使用了2000年的数据，无法进行跨时期的比较，也不能反映农村工资性就业教育收益率的最新状况⑤。
    除了对方法问题的讨论之外，由于中国正处于经济快速增长和体制不断转型的进程中，教育对农村劳动力收入的影响在这一进程中发生了怎样的变化也是研究者关注的问题之一。基于对20世纪90年代中期之前研究的回顾，孙志军（2004）总结道“教育收益率很可能随时间的推移逐渐提高，其原因可能与中国正在进行的市场化改革有关”。而邓曲恒（2009）对截止到2002年数据的研究进行了“元回归分析（metaregression analysis）”，发现农村非农就业的教育收益率“确实存在着真实的上升趋势，这反映了经济转型以及劳动力市场发育导致教育收益率的真实提高”。但是，上述结论是基于不同类型样本、不同研究对象和不同估算方法的研究得出的，估算结果在不同年份之间是否具有可比性很值得怀疑。相反，有些研究使用可比较的不同年份数据和相同的方法，发现自上世纪80年代末期以来我国城镇地区教育收益率呈现上升趋势（如：Zhang et al., 2005）。
    邓曲恒（2009）使用“中国居民收入调查项目”（Chinese Household Income Project，简称CHIP）1988、1995、2002年农村住户调查的数据，发现在此期间农村工资性就业的教育收益率呈上升趋势。他的研究基于同一项目的调查数据，应该说估计结果在不同年份之间具有较强的可比性。但该研究也存在一些问题。首先，CHIP农村住户调查数据在不同年份涵盖的省份有所差别（1988年为28个省、1995年为19个省、2002年为22个省），而且不同年份的数据不一定能保证在反映地域和经济发展差异方面具有相同的代表性，因此简单地使用各自年份的全部调查数据降低了估计结果在不同年份之间的可比较性。例如，如果20（）2年的教育收益率高于1995年，我们无从知道在多大程度上是因为两个年份的样本省份不同。其次，1988年的估计基于年工资，而1995和2002年的估计则基于小时工资，估计结果之间并不完全可比。
    本文使用CHIP1995、2002和2007年的农村住户调查数据，将样本限定在相同的几个省份，并且使用同样的估计方法，使得估计结果在不同年份之间具有很强的可比性。同时，使用两种样本选择模型，估计出农村全体工资性就业者（简称全体打工者）、本地工资性收入者（简称本地打工者）、外出工资性收入者（简称外出打工者）的教育收益率。最后，使用母亲受教育年限作为个人能力的代理变量以纠正能力偏误。
    三、模型和方法
    估算农村工资性就业教育收益率采用明瑟方程。简单明瑟方程为：

    加入其他控制变量后的明瑟方程称为扩展明瑟方程，我们选择在其他研究中经常使用的性别、婚姻状况以及劳动者户口所在省份的虚拟变量等作为控制变量。扩展明瑟方程为：

    其中，MALE是性别虚拟变量（男性取值为1，女性取值为0），MARRIED是表明婚姻状况的虚拟变量（已婚者取值为1，未婚者取值为0），P为省份虚拟变量。
    只有对获得工资收入（W＞0）的个体，才能使用方程（1）或（2）估计教育收益率。但是，这会产生样本选择问题。也就是说，农村劳动力会根据个体特征选择就业类型，如农业生产、非农经营或被雇佣（即获得工资收入）。对于那些没有被雇佣的个体，我们观测不到他们的工资收入，导致可观测的数据不能代表总体。当影响个体就业选择的因素与个体受教育年限不相关时（称为外生样本选择偏差），使用方程（1）或（2）可以得到β[,1]的无偏或一致估计量。但通常的情形是影响个体就业选择的因素与个体受教育年限相关（称为内生样本选择偏差），在这种情况下，使用方程（1）或（2）得到的β[,1]的估计量是有偏和非一致的。
    在存在内生样本选择偏差的情况下，如果就业选择是二元的（如从事工资性就业或非工资性就业），在第一阶段用Probit模型针对全体劳动力数据估计选择方程，得到每一个观测的逆米尔斯率。然后在第二阶段将逆米尔斯率作为一个解释变量加入到仅包括工资性收入者数据的工资方程中，得到β[,1]的估计量。上述方法是标准的纠正样本选择偏差的Heckman两阶段方法。
    此外，为了纠正遗漏能力变量导致的偏误，我们使用劳动者母亲的受教育年限作为能力的代理变量。因此，在同时纠正样本选择偏差和能力偏误的情况下，第二阶段用于估计工资收入者教育收益率的工资方程为：　
    其中，lnW为全体工资收入者小时工资的对数，Ms为母亲受教育年限。
    在第一阶段的选择方程（Probit模型）中，解释变量除了方程（3）中的所有解释变量外，还包括两个解释变量：家庭劳动力人数（LABOR）和家庭耕地面积（LAND）。
    如果就业选择是多元的，应该如何纠正样本选择偏差呢？Lee（1983）、Durbin和McFadden（1984）以及Dahl（2002）等人的研究将Heckman模型中的二元选择扩展为适合多元选择的模型。基本原理是：在第一阶段用多元Logit模型针对全体农村劳动力数据估计个体从事不同就业类型的选择方程（选定某一就业类型为对照组），得到个体选择各个就业类型的概率，并用此构造选择偏差修正项。在第二阶段将选择偏差修正项作为解释变量加入仅包括某一就业类型数据的工资方程（3）中，得到岛的估计量。
    具体而言，Lee（1983）以及Durbin和McFadden（1984）的方法假设第一阶段各个选择方程的误差项服从特定的联合分布，进而得到选择偏差修正项（为与传统的Heckman选择模型保持一致，选择偏差修正项可称为“逆米尔斯率”）。而Dahl（2002）对第一阶段各个选择方程误差项的联合分布不做任何假设，只是将选择偏差修正项看作是第一阶段估计出的各个选择的概率的一个连续函数，利用多项式逼近的方法得到选择偏差修正项的近似值（可称为“近似的逆米尔斯率”）。我们认为，Dahl（2002）的方法放宽了误差项联合分布的假设，是对Lee（1983）以及Durbin和McFacdden（1984）的方法的改进。因此，本文在多元选择的样本选择模型中使用的是Dahl（2002）提出的方法⑥。
    在多元选择模型中，我们将农村劳动力的就业类型分为本地打工者、外出打工者、农业劳动者和其他劳动者四种类型。第二阶段用于估计本地打工者或外出打工者教育收益率的工资方程为方程（3）。同样地，在第一阶段的选择方程（多元Logit模型）中，解释变量除了方程（3）中的所有解释变量外，还包括两个解释变量：家庭劳动力人数和家庭耕地面积。并且以农业劳动者为对照组。
    也可以估算不同学历的收益率，方法是在工资方程中将受教育年限（5）这一解释变量替换为表示劳动者学历的两个虚拟变量：初中学历（JS）和高中及以上学历（HS），对照组是小学及以下学历⑦。当然，对于样本选择模型，在选择方程中也应作相同的处理。
    四、样本和数据
    本文使用CHIP1995、2002和2007年三个年份农村住户调查的数据⑧。与国家统计局的官方调查数据以及学者们根据研究需要自行调查的数据不同，CHIP采取国家统计局与学者合作调查的模式，保证了数据的代表性和质量。作为中国居民住户调查的权威性数据之一，CHIP数据被国内外学者广泛使用，也适用于估算农村工资性就业的教育收益率。
    CHIP的农村住户调查数据在各个年份覆盖的省份是不同的⑨，而中国的地域差异又非常大，为使估计结果在不同年份之间具有最大程度的可比性，我们将分析样本限定在1995、2002、2007年都有数据的九个省份。其中，浙江、江苏、广东、河北属于东部地区，湖北、河南、安徽属于中部地区，重庆和四川属于西部地区⑩。2007年，这九个省份的人均GDP在全国31个省市自治区的排名为：浙江第4位、江苏第5位、广东第6位、河北第11位、湖北第16位、河南第17位、安徽第28位、重庆第18位、四川第24位；农民人均纯收入在全国31个省市自治区的排名为：浙江第3位、江苏第5位、广东第6位、河北第10位、湖北第14位、河南第16位、安徽第20位、重庆第22位、四川第21位（国家统计局，2008）。可见，这九个省市总体上能够代表中国不同区域和不同经济发展水平的地区。
    分析使用的样本限于在调查年份年龄为16－60岁的农村劳动力。部分变量的定义如下：工资为根据年工资收入（或月工资收入）以及工作小时数折算的小时工资，按当年价格计算。受教育年限为受访者填写的实际接受教育的年数。学历根据受访者填写的文化程度得到。工作经验的计算公式为：年龄－受教育年限－6。已婚指已结婚且配偶健在。
    关于农村劳动力的就业类型，本地打工者指当年在本县内从事工资性就业的劳动者，外出打工者指当年从事工资性就业并且在本县以外工作一个月及以上的劳动者，农业劳动者指从事农业生产的劳动者，其他劳动者为除上述三种类型之外的农村劳动力（主要为非农个体经营者）。需要说明的是，1995年的CHIP数据没有外出劳动力具体工作地点的信息，因此是否为外出打工者根据问卷中“在1995年是否出门在外工作一个月以上”这一问题来判断。
    劳动者父母的背景信息（如教育水平）通常通过以下方式获得：首先确定调查户中每一个成员与户主的关系，然后将具有子（女）和父（母）关系的观测匹配起来。但这种处理方法至少有两个缺陷：其一，如果户主的父母已去世或与调查户不同户，将无法获得户主父母的相关信息；其二，通常情况下户主配偶的父母与调查户不同户，因此一般而言难以获得户主配偶的父母的相关信息。2002年和2007年的CHIP农村住户调查问卷专门询问了户主及其配偶的父母的背景信息（包括教育信息），即便这些父母与调查户不同户或者已经去世。因此，将常规的住户调查问卷和户主及其配偶父母的调查问卷结合起来，将大大减少缺失父母信息的情况，使分析的样本具有更全面的代表性。遗憾的是，1995年的CHIP问卷没有专门询问户主及其配偶的父母的背景信息，缺失父母信息的观测非常多。
    由于1995年的数据与后两个年份的数据存在较大差异，本文的分析将使用两个样本：“样本一”不删去母亲受教育年限为缺失值的观测，涉及到1995、2002、2007年三个年份的数据，目的是进行OLS估计；“样本二”删去了母亲受教育年限为缺失值的观测，只涉及2002年和2007年的数据，目的是纠正能力偏误和样本选择偏差。变量的描述性统计见表2。

    我们基于样本一来看农村劳动力就业类型的变化。最明显的特征是：与1995年相比，2002年和2007年农村劳动力从事农业生产的比例大大降低，相应地，选择工资性就业的劳动者的比例大大增加。当然，从2002年到2007年还有一个变化，就是外出打工者比例提高较快，而本地打工者比例有所下降。
    无论在哪一年，无论是使用哪个样本，不同就业类型农村劳动力的平均受教育年限由高到低依次为：外出打工者、本地打工者、其他劳动者和农业劳动者。但是，从学历分布来看，高中及以上学历者的比例在本地打工者中是最高的。与其他类型的劳动力相比，外出打工者的平均工作经验最短，已婚者的比例最低，母亲平均受教育年限最高，家庭平均劳动力人数最多。在1995年和2002年，外地打工者的平均小时工资低于本地打工者，而到了2007年，外地打工者的平均小时工资高于本地打工者。
    另外，对于2002年和2007年的数据，样本一和样本二中同一变量的均值相差很小，基于两个样本的回归结果具有很大的可比性。
    五、估计结果
    我们的估计分为三步：第一步基于样本一，使用简单明瑟方程（1）和扩展明瑟方程（2），在不考虑能力偏误和样本选择偏差的情况下，用OLS估计1995、2002、2007年农村工资性就业的教育收益率。这些估计结果当然是有偏误的，但可以为了解这十二年间中国农村工资性就业教育收益率的变化趋势提供一个粗略的描述。第二步基于样本二，利用2002年和2007年的数据，以母亲受教育年限作为能力的代理变量，并用两阶段方法纠正样本选择偏差。第三步对基于不同样本省份数据的估计结果进行比较。分析中使用的统计软件是STATA 11。
    （一）OLS模型
    OLS估计结果见表3。简单明瑟方程估计结果表明，1995年和2007年全体打工者（指当年从事工资性就业的农村劳动力，包括本地打工者和外出打工者）的教育收益率约为4.3％左右，2002年则为6.4％，呈现先上升后下降的趋势。外出打工者的教育收益率同样呈现先上升后下降的趋势，而本地打工者的教育收益率在1995－2007年间有所上升。

    扩展明瑟方程估计结果则表明，1995－2007年间，全体打工者的教育收益率在3－4％之间，呈轻微的下降趋势。本地打工者的教育收益率为3－4％，呈现先上升后下降的趋势。外出打工者1995年和2007年的教育收益率分别为5.6％和4.2％，高于本地打工者，但2002年的教育收益率不显著。另外，从扩展明瑟方程的估计结果看，初中学历的收益率不显著，意味着在其他条件相同的情况下，初中学历劳动者的小时工资并不比小学及以下学历的劳动者高。而高中学历的收益率尽管呈下降趋势，但始终是显著的。
    （二）样本选择模型
    样本选择模型的估计结果见表4。在纠正了能力偏误和样本选择偏差之后，从2002年到2007年，全体打工者的教育收益率从3.2％下降到2.6％，与小学及以下学历相比，高中及以上学历的收益率显著为正；本地打工者的教育收益率从3.5％下降到2.0％，高中及以上学历的收益率从显著为正变为不显著；外出打工者的教育收益率从不显著上升到4.5％，高中及以上学历的收益率从不显著变为显著为正。此外，初中学历的收益率均不显著。


    除了2007年外出打工者之外，工资方程中逆米尔斯率的系数都是显著的，说明样本选择问题是普遍存在的。另外，对于2002年本地打工者和全体打工者的工资方程，母亲受教育年限这一变量也是显著的，说明不考虑能力偏误在一定程度上会影响教育收益率的估计。与表3所示扩展明瑟方程的OLS估计结果相比，在纠正了能力偏误和样本选择偏差之后，全体打工者和本地打工者的教育收益率有所下降，而外出打工者的教育收益率有轻微上升。
    下面来看选择方程。全体打工者的选择方程中，受教育年限和高中及以上学历这两个变量显著为正，说明总体而言农村劳动力教育水平的提高有助于其从农业生产转向工资性就业。同样地，在本地就业者的选择方程中，教育变量也显著为正。但是，在外出打工者的选择方程中，教育变量是不显著的。这说明教育水平的提高仅限于促进农村劳动力从农业生产转向本地的工资性就业，而对于推动农村劳动力外出打工没有显著影响。
    我们基于样本二对外出打工者和本地打工者的职业分布进行了分析，结果见表5。在2002年，本地打工者中担任各级行政单位干部的比例远远高于外出打工者。在2007年，与外出打工者相比，本地打工者中专业技术人员和行政办公管理人员的比例明显偏高。显然，劳动者的教育水平对于能否获得行政职位和专业技术职位更为重要，因此这在一定程度上可以解释为什么教育对于选择成为本地打工者的影响比较大。

    与选择农业劳动相比，男性劳动力和未婚者从事工资性就业的可能性更大，家庭耕地面积越少的劳动者越倾向于放弃农业生产而转向工资性就业，这些结果是易于理解的。家庭劳动力人数越多的劳动者选择外出打工的概率越大，而选择在本地打工的概率越小，我们认为这反映了农村剩余劳动力在选择工资性就业时更倾向于外出这一事实。同时，母亲受教育年限越高的劳动者选择工资性就业而非农业生产的概率更大。如果把母亲受教育年限看作是一个简单的解释变量，这意味着母亲教育水平的提高有助于下一代农民转向工资性就业。如果把母亲受教育年限看作是劳动者个体能力的代理变量，则意味着能力更强的劳动者将更多地选择离开农业生产。在工资方程中，母亲受教育年限这一变量不是很显著，而在选择方程中则更为显著(11)。由此我们得出一个试探性的结论：农村劳动力个体能力对其就业选择的影响可能大于对其工资收入的直接影响。
    （三）不同样本省份的估计结果
    前面曾经提到，CHIP农村住户调查在不同年份的覆盖省份是不一样的。为了最大限度地保证估计结果在不同年份之间的可比性，本文将分析样本限定在三个年份都有数据的九个省份。如果简单地使用三个年份的所有数据，教育收益率的估计结果会有所不同吗？表6中“九省份样本”的回归结果来自表3和表4，“当年全部样本”指使用了当年所有省份的数据，即1995年为19个省份，2002年为22个省份。2007年本身就只有九个省份的数据，因此“九省份样本”和“当年全部样本”的估计结果完全相同。

    由表6可以看出，使用两套样本得到的结果存在一定差异。从OLS估计结果看，如果使用当年全部样本，本地打工者和全体打工者教育收益率的时间趋势发生了变化，1995年外出打工者和全体打工者的教育收益率明显变大，而2002年外出打工者的教育收益率也变得显著了（p＜0.1）。从样本选择模型估计结果看，2002年全部样本和九省份样本的教育收益率估计值的相对差异也超过了10％。因此，我们认为要保证估计结果的可比性，应该基于相同省份的样本。
    六、结论
    基于上述分析，本文得出以下结论：第一，1995－2007年间，农村全体打工者教育收益率的OLS估计值在3－4％之间，呈轻微的下降趋势。本地打工者的教育收益率为3－4％，先上升而后下降。外出打工者1995年和2007年的教育收益率分别为5.6％和4.2％，高于本地打工者，但2002年的教育收益率不显著。第二，在纠正了能力偏误和样本选择偏差之后，从2002年到2007年，全体打工者的教育收益率从3.2％下降到2.6％，本地打工者的教育收益率从3.5％下降到2.0％，外出打工者的教育收益率从不显著上升到4.5％。第三，利用2002年和2007年数据的分析表明，教育水平的提高有助于促进农村劳动力从农业生产转向工资性就业，这当然也应该被视为农村教育收益的重要组成部分。但这仅限于促进从农业生产转向本地的工资性就业，而对于推动农村劳动力外出打工没有显著影响。第四，从方法上看，样本选择偏差和能力偏误是存在的，意味着在估算农村教育收益率时必须考虑这些问题。此外，在比较不同年份问教育收益率变化时有必要基于相同样本省份的数据。
    不论是基于OLS模型还是样本选择模型，本文发现1995－2007年中国农村工资性就业的教育收益率都在4％以下，外出打工者也不超过6％。除了de Brauw和Rozelle（2008）的研究以外，这些结果与现有诸多研究的结论是一致的(12)。目前中国城镇地区工资性就业的教育收益率约为10％(13)，我们得到的农村地区教育收益率远低于此。这说明与城市居民相比，教育在提高农村居民工资性收入方面的作用相对有限。我们认为主要原因可能有三个方面：一是农村劳动力市场的发育仍然相对滞后；二是农村劳动力工资性就业者主要从事比较低端的职业（如生产运输工人、商业服务业工作人员）和流动性比较大的职业（如临时工或短期合同工以及非农个体户中打工者），教育等人力资本对收入的影响难以充分发挥；三是农村基础教育的质量较差，不利于农村劳动力人力资本的积累。
    本文还存在一些缺憾：首先，尽管我们使用的是目前在中国数据质量很高的CHIP数据，也选择了来自同样省份的样本，但由于CHIP每年调查问卷的结构和内容存在一定差异，使得不同年份的估计结果仍然不是完全可比的。其次，本文着重考虑了能力偏误和样本选择偏差问题，但还有一个影响教育收益率估计的重要问题是测量误差，一些研究探讨了这一问题（如邓曲恒，2009；孙志军、杜育红，2009）。限于篇幅，本文未讨论测量误差问题。从理论上说，如果受教育年限这一变量存在经典测量误差，那么OLS将低估教育收益率。最后，本文的主要工作是讨论农村工资性就业教育收益率的估算方法并给出相应结果，而在解释农村教育收益率偏低的原因、教育收益率的时间趋势以及本地打工者和外出打工者教育收益率的差异等方面没有做深入的分析。我们期待着更高质量的跨年度农村微观数据在中国出现，并将在今后对上述后两个问题展开进一步研究。
    ［收稿日期］2011－06－28
    注释：
    ① 基于明瑟方程估算的教育收益率通常称为教育的明瑟收益率。在本文中，除非特别说明，“教育收益率”指的是“教育的明瑟收益率”。
    ② 如上所述，用明瑟方程估算自我经营者的教育收益率实际上是不恰当的。
    ③ 邓曲恒（2009）还使用学习成绩作为能力的代理变量，以及使用同胞数据纠正能力偏差。
    ④ 比较特殊的是王德文等（2008）的研究，他们使用农村迁移劳动力的数据，把农村迁移劳动力的就业选择分为工资收入者和自我经营两个类型，并采用Heckman两阶段模型估算了工资收入者的教育收益率。
    ⑤ Meng（2001）使用城市流动人口调查数据，把这部分人口的就业分为正规部门流动者、非正规部门受雇者和非正规部门自雇者三种类型，并在第一阶段使用多元logit模型纠正样本选择偏差。
    ⑥ 由于文章篇幅有限。文中不详细介绍估计方法，具体可参看Dahl（2002）。此外，无论就业选择是二元的还是多元的，除了两阶段方法之外，还可使用极大似然法（ML）纠正样本选择偏差。
    ⑦ 高中及以上学历包括高中阶段教育（普通高中、中专、技校、职高）以及高等教育。
    ⑧ CHIP还有1988年的调查数据，但1988年的调查问卷与后三次相比较为简单，一些关键信息（如农村劳动力外出状况）无法获得，因此本文未使用1988年的数据。
    ⑨ 1995年为19个省份；2002年为22个省份；2007年为16个省份，但有个体收入数据的仅为九个省份。
    ⑩ 重庆直辖市成立于1997年，1995年重庆市的数据包含于四川省的数据中，因此三个年份之间仍然是可比的。
    (11) 我们用父亲受教育年限作为能力的代理变量估计了所有方程，结论基本不变。为节省文章篇幅，文中未列出相应结果。
    (12) de Brauw和Rozelle（2008）使用多元选择模型纠正样本选择偏差，根据河北、陕西、辽宁、浙江、四川、湖北六个省的数据得到2000年中国农村全体打工者的教育收益率为6.4％，外出打工者为8.0％，本地打工者为3.3％。这些估计值普遍高于同类研究的结果，他们强调教育收益率的低估是由于大多数研究没有采用对数小时工资作为工资方程的因变量。但是，邓曲恒（2009）使用对数小时工资得到的1995和2002年的教育收益率OLS估计值低于5％，本文采用了对数小时工资也得到较低的教育收益率。我们认为de Brauw和Rozelle（2008）的估计结果之所以较高，很有可能是样本的问题，但这一猜测有待证实。