在实证研究中「坏的控制」时常出现,当一个变量的加入使得回归结果与预期产生明显差异时,该变量可能是坏的控制在实证研究中,回归分析模型的建立除了需要关注因变量和自变量之外,我们还得重点关注一下控制变量对因变量的影响关系,有关控制变量的作用和设计思路的重要性。但是,在日常的学术工作中,不少学术同仁,尤其是那些处于学术初期阶段的学生,由于注重控制变量的重要性,他们十分关注和重视控制变量对因变量的显著性影响,即控制变量的系数显不显著的问题。由于控制变量作为模型设计中的重要参与者,我们期待控制变量的系数是通过显著性检验的,但如果他们的不显著,这类状况很容易让人揪心!或者,为什么在别人论文的模型中这个控制变量是显著的,而在我的研究回归模型中却不显著,这是为什么呢?如果显著的话,当然你会很高兴,但如果不显著,这个控制变量需不需要被剔除掉呢?类似地,近期就有粉丝朋友发帖问道:“请问控制变量不显著,需要把控制变量删除吗?”显然,这位粉丝朋友很重视自己的研究,关心自己设计是否有问题,这是非常谨慎的态度。但是,我们不得不承认一个现实情况:一个正常的实证分析模型不可能让所有的变量都能通过显著性检验的,如果要做到这种程度,你的研究设计可能会丢失一些重要的信息,譬如有些变量很重要,但不能因其不显著而将其剔除,否则审稿人会认为你没有做到位、设计的模型不够全面完美。为此,一般而言,一个实证回归分析模型中有两三个控制变量不显著,也是正常的现象,不要期待所有的变量都是显著的,也不要因为某个变量不显著而闹心,它只是数据处理过程中的一个常见现象,可能受到样本分布、模型设计等多重因素的影响导致的。当然,我们也想知道的是,如果控制变量不显著,会不会是什么原因造成的呢?我个人认为,控制变量不显著的原因可能是多样性的,有主观的也有客观,也包括你的操作方法是否正确。一般而言,控制变量不显著的可能性原因,主要体现在两个方面:一是客观原因,但需要保持目前模型设计的现状。首先,一个情况是在某个样本分布中,这个控制变量可能真没对因变量造成影响。也就是说,在确定的样本分布范围内,这两个变量之间的确没有显著的影响关系,控制变量并没有对因变量造成很显著的影响,所以在后续的回归分析中未能通过显著性检验。但是,在常规的情景下,考虑到这个变量的确是影响因变量的重要因素,所以这个控制变量即使不显著,也要被保留在模型中,可以说这是模型设计的基本原则。其次,控制变量不显著,可能是样本分布异质性造成的。换言之,在总样本分布下,由于不同样本(如行业、企业或地区)的异质性问题,控制变量在总样本中对因变量的影响可能被平滑掉了,如果通过分样本进行检验,也许就会发现在某类样本中控制变量的系数是显著的。当然,由此带来的这类分样本检验,也能为深入分析因果关系带来更为精彩的内容或成果。所以,在看待控制变量系数不显著的问题上,以上这点也是我们需要关注的地方。