中国工业企业数据已成为国内外学者研究中国企业行为和绩效的主要数据之一,但是这个数据库处理起来并不容易。在正式开始之前,我们必须清楚两个概念:1、脱敏数据:所谓脱敏之后的工业企业数据,就是指这份工业企业数据每个企业的名称、地址、电话等敏感信息已经剔除;2、序贯匹配:将不同年份的未脱敏数据合并为一份面板数据时,需要每家企业具有唯一的企业标识码,序贯匹配的方法可以为每家企业生成唯一的标识码(除序贯匹配外还有聂辉华(2012)交叉匹配法,本文主要以序贯匹配法为例);有了上述两个概念之后,就可以将我们获取的工业企业数据分为以下三种类型:1、经过序贯匹配之后的未脱敏数据2、经过序贯匹配之后的脱敏数据3、未经过序贯匹配的未脱敏数据首先是 经过序贯匹配之后的未脱敏数据(获取这类数据的渠道包括:EPS、中国工业企业数据查询系统),这一类型的数据未脱敏,因此可以与污染、创新、海关等数据库匹配使用,但由于数据商并没有提供序贯匹配的代码和详细方法,因此序贯匹配过程是一个黑洞;其次是 经过序贯匹配之后的脱敏数据( 获取这类数据的渠道包括:RESSET),这一类型的数据脱敏,因此不可以与其他数据库匹配使用,并且序贯匹配过程是一个黑洞;最后是 未经过序贯匹配的未脱敏数据(获取这类数据的渠道包括:不详 高校老师可能有),这一类型的数据未脱敏,因此可以与其他数据库匹配使用,并且这一类型数据并没有经过序贯匹配的方法为每家企业生成唯一的标识码,因此可以自己参考Brandt et al.(2012)等方法进行匹配,避免序贯匹配过程的黑洞;本文主要以第三种类型,即 未经过序贯匹配的未脱敏数据 来讲解处理流程(本文的数据也不一定“真实”但是不影响处理流程),主要分为以下几步:预备部分:第一,样本期内中国部分地区发生了行政区划调整, 本文在匹配时将1998-2012年每家企业的行政区划代码调整到了 2013 年版的行政区划代码 ( GB T2260-2013) ,具体方法参考本人写的另一篇文章:县级行政区划代码的统一与调整 - 你的男孩ZT的文章 - 知乎 ;第二,由于在样本期内, 国民经济行业代码发生过两次调整, 将1998-2013年的样本分成了三段:1998-2002 :GB/T 4754-19942003-2012 :GB/T 4754-20022013 :GB/T 4754-2011在匹配时将每个企业的行业信息都调整到了国民经济行业代码( GB4754 -2002) ,本文主要参考了公众号DMETP提供的数据(公众号只处理了制造业行业),并在其基础上,又对工业企业数据库出现的其他行业进行了类似调整;第三,保留用于匹配的关键变量以及研究需要的变量,减少无关变量,降低匹配时间;正式部分:杨汝岱(2015)提出 Brandt et al.(2012) 的匹配方法会导致过宽的匹配,即本来不属于一家企业,但被他们匹配成一家企业了。所以在杨汝岱(2015)的基础上参考寇宗来(2020)的方法:(1)使用法人代码逐年匹配;(2)若法人代码匹配不上, 使用企业全称匹配;(3)若企业全称仍然匹配不上, 使用企业简称(依次剔除“企业全称”中的下列词汇: 有限、责任、股份、公司、厂、省、市、区、县、回族自治区、壮族自治区、维吾尔自治区、自治区, 接着剔除括号, 由此得到“企业简称”)进行匹配;(4)如果企业简称无法匹配上, 进一步使用“法人代表姓名 + 行政区划六位码 + 成立年份”匹配;(5)上一步仍然匹配不上的, 使用“电话号码 + 行政区划六位码 + 成立年份”匹配;具体在实现上述五步时,可以参考Brandt et al.(2012) 提供的序贯匹配的代码,我们只需要将其中的部分变量进行修改即可。但我知道,看懂所给的代码才是难点,Brandt教授提供的几千行代码如果都看不明白,想修改谈何容易!这一部分用文字难以解释清楚,所以我在这里推荐一个up主的视频(中国工业企业数据库 数据处理 STATA Brandt方法_哔哩哔哩_bilibili)讲得非常好!看完之后你一定可以自己修改代码。我在这里就不提供自己的代码了,因为每个人需要的变量以及拿到的原始数据质量都不一样,有问题欢迎讨论