举例:
现在要修一条铁路,铁路是条线,所以必然会有穿过的城市和没有被穿过的城市。记Di=1 如果城市i被穿过,Di=0 如果城市i没有被穿过。现在我们比较好奇铁路修好以后,被铁路穿过的城市是不是经济增长更快了?我们该怎么做呢?一开始的想法是,我们把Di=1的城市的GDP加总,减去Di=0的城市的GDP加总,然后两者一减,即E(Yi|Di=1)-E(Yi|Di=0),这样我们就算出了两类城市的GDP的平均之差。这样做不用说肯定有问题。万一被铁路穿过的城市在建铁路之前GDP就高呢?为了解决这个问题,我们需要观察到至少两期,第一期是建铁路之前,第二期是建铁路之后。我们先把两类城市的GDP做两期之差,即:
这是第一次差分,经过这一步,我们实际上算出了每个城市GDP的增长(率,如果取log之后),也就是GDP的趋势。完了之后,计算:
这是第二次差分。这一步就把两类城市在修建铁路之前和之后的GDP增长率的差异给算出来了,这就是我们要的处理效应,即修建铁路之后对城市经济的促进作用。这个东西你还可以换一个写法。记T=1 如果时间为建铁路之后,T=0如果时间为建铁路之前,那么我们可以得到一个表:
Treated代表在某一期,某一类城市是不是建了铁路。第零期肯定没有建铁路,第一期只有Di=1的城市建了铁路。所以Treated=Di*T。因此我们把方程写成:
对时间差分,得到:
再次差分,取期望:
可见,gamma就是我们想要估计的处理效应。所以实际做的时候,可以直接跑
这个式子的回归,得到的交叉项的系数就是所要估计的处理效应。用一个图表示就是:
所以看清楚了,这里DID最关键的假设是common trend,也就是两个组别在不处理的情况下,y的趋势是一样的。那么你会说了,铁路穿过的城市可能本身GDP也高,而GDP高的城市按照理论GDP增长率可能更高可能更低,所以common trend的假设可能是不对的,那怎么办?如果这个问题存在,我们可以进一步假设在控制了某些外生变量之后,common trend是对的,比如上个问题,我们可以控制城市在t=0期的GDP level。当我们控制其他变量之后,自然不能直接减两次了,我们需要用上面说的回归式子,即run the following OLS:
1、双重差分模型(difference-in-difference,DID)近年来多用于计量经济学中对于公共政策或项目实施效果 的定量评估。 2、通常大范围的公共政策有别于普通科研性研究,难以保证对于政策实施组和对照组在样本分配上的完全随机。
3、非随机分配政策实施组和对照组的试验称为自然试验(naturaltrial),此类试验存在较显著的特点,即不同组间样本在政策实施前可能存在事前差异,仅通过单一前后对比或横向对比的分析方法会忽略这种差异,继而导致对政策实施效果的有偏估计。4、DID模型正是基于自然试验得到的数据,通过建模来有效控制研究对象间的事前差异,将政策影响的真正结果有效分离出来。