1.提出研究问题——具体(在a对b有何作用这一问题中,明确a/b各是什么)、有趣(why should 为care?)、新颖(研究新现象、使用新方法、新数据集)、可行(通过查文献看他人是否有类似的研究或大致数据是否可得) 2.文献回顾 cnki/jstor/econlit....百度、google…… 3.建立理论模型 具体来说,回归分析一般只能说明变量之间的相关性,要对变量之间的因果关系作出判断常常需要依赖于经济理论。因此,即使无法提供完整的理论模型,也应该进行一定的理论分析。最理想的情形是,从理论模型中推导出计量模型,即待估计的回归方程。 4.收集数据 如果使用别人的数据,要注意其数据是如何定义、计算的(统计口径),是否与你的理论模型中的变量相对应。 5.使用适当的计量方法。 比如,被解释变量为二元变量,则可以使用probit或者logit;如果是非负整数,则可以使用泊松回归;如果是面板数据,则可以考虑固定效应、随机效应、时间效应、动态面板等;如果是时间序列,则应先判断是否含单位根(如果样本容量太小,比如小于20,则可以不进行单位根检验,因为单位根是大样本检验),再决定使用相应的计量方法。 对于一般的数据,通常先做OLS,看看结果,作为一个参照系。做完OLS后,可以画残差图(residual plot),大致看看扰动项是否符合经典嘉定,然后进行严格的检验。如果有所违背(比如,存在异方差、自相关),则作相应的处理。对于时间序列,还可以检验是否存在结构变动(邹检验)。另外,应该对数据的质量进行检验,判断是否存在多重共线性、极端值、弱工具变量等,并作相应的调整。 对于回归函数的具体形式,可以考虑线性、对数(如果解释变量只取正数且有指数增长趋势)、双对数、非线性(边际效应不是常数)等。 由于受数据可获得性的限制,遗漏变量几乎不可避免。因此,很有必要在实证论文中对此进行讨论。不外乎两种情况。第一,存在遗漏变量,但与解释变量不相关(需要说明为什么不相关),故可以不作处理。第二,存在遗漏变量,且与解释变量相关,则必须进行处理,处理方法包括增加控制变量、寻找代理变量、使用工具变量、使用面板数据等。 另一常见问题是内生解释变量。此时,一般需要找到有效的工具变量才能得到一致的估计。由于面板数据可以在一定程度上客服遗漏变量问题,故比横截面数据或时间序列更有说服力。因此,如果可以获得面板数据,则应尽力争取。 大多数的实证论文都希望说明x对y的因果作用。而从回归分析的相关关系得到因果关系,是一个很大的飞跃。引言——文献回顾——理论框架——计量模型——数据说明——计量方法——回归结果——结论