事实上,仅仅为了解决内生性问题,并不需要我们对内生性问题的缘起有很深入的理解。对于应用型的实证研究而言,我们只需要掌握解决内生性问题的具体方案即可。内生性问题的解决方案一共四种,理论上来讲,这四种方案应对内生性问题都很有效。但于我个人而言,我对四种方法的评价是有高低的,由高到低分别介绍如下。1.自然实验法所谓自然实验,就是发生了某些外部突发事件,使得研究对象仿佛被随机分成了实验组或控制组。这是我最喜欢的方法,只是自然实验需要寻找一个事件,并且这个事件只影响解释变量而不影响被解释变量。遇着这种事件是一种缘分,还要能识别出来,这对学者的眼光也是一种挑战。有很多文章声称使用了自然实验,但严格来讲,并没有做到对研究对象进行了随机分组。虽然如此,我对此类文章仍然很是喜欢。2.双重差分法Difference-in-Difference (DID)一般称为双重差分法,或倍差法。倘若出现了一次外部冲击,这次冲击影响了一部分样本,对另一部分样本则无影响,而我们想看一下这次外部冲击到底有何影响,双重差分法就是用来研究这次冲击的净效应的。其基本思想是,将受冲击的样本视作实验组,再按照一定标准在未受冲击的样本中寻求与实验组匹配的对照组,而后做差,做差剩下来的便是这次冲击的净效应。双重差分法实际上是固定效应的一个变种,差分的过程实际上是排除固定效应的过程。ZERA在《计量论文写作和发表的黑客教程》有一个非常简明风趣的举例,我转述于此,以飨读者。“大家都知道买房子靠不靠学校医院等设施还是有很大差别的。但是,影响房价的因素又不止学区那么简单。学校旁边的学区房价格上升,难道一定是学区房因素导致的吗?现在我们要使用双重差分法检验一个假设:学区房因素导致房价上升。差分再差分,这个方法要凑效的秘诀是:学区房因素发生变化,而其他因素基本维持不变。例如教育管理机构重新划分学区,一个著名小学突然在某个没学校的地方建分校,或者一个著名小学搬迁,这些因素导致房子是否属于学区房发生了变化。以建分校为例。建校后周围一片区域A的房子都属于学区房,这个区域以外附近区域(B)的其他房子就不算该校学区房。然后收集建校前后两个时间点上、A和B区域房价的数据。所谓的差分再差分法,就是:A区域两个时间点上的平均房价差距 - B区域两时间点上的平均房价差距 = d,这个d就是建校对房价的影响了。d是两个差距之间的差距,所以才叫做差分再差分。用计量回归把这个d给估计出来,是有办法的:P= b0 + b1*Da +b2*Dt + d*(Da*Dt) + Xb + eP是房价,Da是虚拟变量,在区域A则为1,否则为0, Dt是时间虚拟变量,建校后为1,建校前为0。 STATA一跑,就把d估计出来了。为什么d可以如此表示?自己思考一下啦。实在想不出来,Wooldridge的书上有精确严格的解释。这里给出一个直观的粗略解释:北京所有区域的房价每个月都在上升,因此需要控制这部分因素,这就是时间因素Dt;区域不同自然也有差别,需要控制区域位置因素,这就是Da,这就控制了即使不建校也存在的差距;控制住其他因素X,那么剩下的Da*Dt就是建校带来的房价提升效应了。这下明白了哦。”当然,如果你想看到更学术化的探讨,可以参考2015年第7期《数量经济技术经济研究》所刊文章《国内双重差分法的研究现状与潜在问题》。3.工具变量法这是一种处理内生性问题的经典方法,或者说被滥用最严重的方法。这种方法相信大家都已经学过,就是找到一个变量和内生解释变量相关,但是和随机扰动项不相关。在OLS的框架下同时有多个工具变量(IV),这些工具变量被称为two stage least squares (2SLS) estimator。具体的说,这种方法是找到影响内生变量的外生变量,连同其他已有的外生变量一起回归,得到内生变量的估计值,以此作为IV,放到原来的回归方程中进行回归。工具变量法最大的问题是满足研究条件的工具变量难以找到,而不合乎条件的工具变量只能带来更严重的估计问题。当然,我确实见过非常精巧的工具变量,譬如,殖民地时代的死亡率。4. 动态面板回归法基本思想是将解释变量和被解释变量的滞后项作为工具变量(IV)。其实,我是不认可这种处理方法,除非万不得已,我不推荐这种方法,我也不太相信这种方法能真正缓解内生性问题。可是,确实很多人都在用。算了,不多说了。