断点回归首先是由美国西北大学的心理学家Campbell于1958年首先发展设计出来的,从那时开始直到二十世纪80年代,Campbell和西北大学心理学系和统计学系的同事一直从事断点回归的设计和研究工作。Thistlethwaite和Campbell(1960)正式发表了第一篇关于断点回归的论文,他们提出断点回归是在非实验的情况下处理处置效应(Treatment Effects)的一种有效的方法,主要应用于心理学和教育学领域。随后,Campbell和Stanley(1963)为断点回归提供了更加清晰化的概念,但是由于他们并没有给出断点回归统计上的证明。这是08年JoE的paper,但是题主的问题问的不好,因为这篇文章讲的不是用断点回归来检测数据造假,而是要检验断点回归的running variable是不是被操纵(造假)。比如我现在规定,全校学生某次考试超过90分的就可以上实验班。因为这个90分对于学生来说是common knowledge,所以有些学生,可能本来可以考90分以上,但是为了避免上实验班给自己太大压力,会故意考到89分。那么问题来了,RD的识别虽然需要的假设很少,但是关键假设就是,你的running variable(分数)应该是连续的。这种自己选择的行为会导致成绩在90分左右的地方分布不连续,RD就不能用了。那么怎么检验呢?其实最简单的就是,你可以画个直方图,看看在90分前后,直方图的高度是不是差别很大。
1、先画直方图,注意不要把90分分在一个区间里面。对于直方图的每一个区间,计算出区间中心的数字以及区间内的数据个数。2、拿区间内的数据个数对区间中心做nonparametric的回归,为了避免边界估计很差,使用local polynomial(而非local constant)的估计,检验在90分处是不是有断点。