实验三 多元回归模型
【实验目的】
掌握建立多元回归模型和比较、筛选模型的方法。
【实验内容】
建立我国国有独立核算工业企业生产函数。根据生产函数理论,生产函数的基本形式为: 。其中,L、K分别为生产过程中投入的劳动与资金,时间变量 反映技术进步的影响。表3-1列出了我国1978-1994年期间国有独立核算工业企业的有关统计资料;其中产出Y为工业总产值(可比价),L、K分别为年末职工人数和固定资产净值(可比价)。
表3-1 我国国有独立核算工业企业统计资料
年份 时间
工业总产值
Y(亿元) 职工人数
L(万人) 固定资产
K(亿元)
1978 1 3289.18 3139 2225.70
1979 2 3581.26 3208 2376.34
1980 3 3782.17 3334 2522.81
1981 4 3877.86 3488 2700.90
1982 5 4151.25 3582 2902.19
1983 6 4541.05 3632 3141.76
1984 7 4946.11 3669 3350.95
1985 8 5586.14 3815 3835.79
1986 9 5931.36 3955 4302.25
1987 10 6601.60 4086 4786.05
1988 11 7434.06 4229 5251.90
1989 12 7721.01 4273 5808.71
1990 13 7949.55 4364 6365.79
1991 14 8634.80 4472 7071.35
1992 15 9705.52 4521 7757.25
1993 16 10261.65 4498 8628.77
1994 17 10928.66 4545 9374.34
资料来源:根据《中国统计年鉴-1995》和《中国工业经济年鉴-1995》计算整理
【实验步骤】
一、建立多元线性回归模型
一建立包括时间变量的三元线性回归模型;
在命令窗口依次键入以下命令即可:
⒈建立工作文件: CREATE A 78 94
⒉输入统计资料: DATA Y L K
⒊生成时间变量 : GENR T=@TREND(77)
⒋建立回归模型: LS Y C T L K
则生产函数的估计结果及有关信息如图3-1所示。
图3-1 我国国有独立核算工业企业生产函数的估计结果
因此,我国国有独立工业企业的生产函数为:
(模型1)
=(-0.252) (0.672) (0.781) (7.433)
模型的计算结果表明,我国国有独立核算工业企业的劳动力边际产出为0.6667,资金的边际产出为0.7764,技术进步的影响使工业总产值平均每年递增77.68亿元。回归系数的符号和数值是较为合理的。 ,说明模型有很高的拟合优度,F检验也是高度显著的,说明职工人数L、资金K和时间变量 对工业总产值的总影响是显著的。从图3-1看出,解释变量资金K的 统计量值为7.433,表明资金对企业产出的影响是显著的。但是,模型中其他变量(包括常数项)的 统计量值都较小,未通过检验。因此,需要对以上三元线性回归模型做适当的调整,按照统计检验程序,一般应先剔除 统计量最小的变量(即时间变量)而重新建立模型。
二建立剔除时间变量的二元线性回归模型;
命令:LS Y C L K
则生产函数的估计结果及有关信息如图3-2所示。
图3-2 剔除时间变量后的估计结果
因此,我国国有独立工业企业的生产函数为:
(模型2)
=(-2.922) (4.427) (14.533)
从图3-2的结果看出,回归系数的符号和数值也是合理的。劳动力边际产出为1.2085,资金的边际产出为0.8345,表明这段时期劳动力投入的增加对我国国有独立核算工业企业的产出的影响最为明显。模型2的拟合优度较模型1并无多大变化,F检验也是高度显著的。这里,解释变量、常数项的 检验值都比较大,显著性概率都小于0.05,因此模型2较模型1更为合理。
三建立非线性回归模型——C-D生产函数。
C-D生产函数为: ,对于此类非线性函数,可以采用以下两种方式建立模型。
方式1:转化成线性模型进行估计;
在模型两端同时取对数,得:
在EViews软件的命令窗口中依次键入以下命令:
GENR LNY=log(Y)
GENR LNL=log(L)
GENR LNK=log(K)
LS LNY C LNL LNK
则估计结果如图3-3所示。
图3-3 线性变换后的C-D生产函数估计结果
即可得到C-D生产函数的估计式为:
(模型3)
= (-1.172) (2.217) (9.310)
即:
从模型3中看出,资本与劳动的产出弹性都是在0到1之间,模型的经济意义合理,而且拟合优度较模型2还略有提高,解释变量都通过了显著性检验。
方式2:迭代估计非线性模型,迭代过程中可以作如下控制:
⑴在工作文件窗口中双击序列C,输入参数的初始值;
⑵在方程描述框中点击Options,输入精度控制值。
控制过程:
①参数初值:0,0,0;迭代精度:10-3;
则生产函数的估计结果如图3-4所示。
图3-4 生产函数估计结果
此时,函数表达式为:
(模型4)
=(0.313)(-2.023)(8.647)
可以看出,模型4中劳动力弹性 =-1.01161,资金的产出弹性 =1.0317,很显然模型的经济意义不合理,因此,该模型不能用来描述经济变量间的关系。而且模型的拟合优度也有所下降,解释变量L的显著性检验也未通过,所以应舍弃该模型。
②参数初值:0,0,0;迭代精度:10-5;
图3-5 生产函数估计结果
从图3-5看出,将收敛的误差精度改为10-5后,迭代100次后仍报告不收敛,说明在使用迭代估计法时参数的初始值与误差精度或迭代次数设置不当,会直接影响模型的估计结果。
③参数初值:0,0,0;迭代精度:10-5,迭代次数1000;
图3-6 生产函数估计结果
此时,迭代953次后收敛,函数表达式为:
(模型5)
=(0.581)(2.267)(10.486)
从模型5中看出,资本与劳动的产出弹性都是在0到1之间,模型的经济意义合理, ,具有很高的拟合优度,解释变量都通过了显著性检验。将模型5与通过方式1所估计的模型3比较,可见两者是相当接近的。
④参数初值:1,1,1;迭代精度:10-5,迭代次数100;
图3-7 生产函数估计结果
此时,迭代14次后收敛,估计结果与模型5相同。
比较方式2的不同控制过程可见,迭代估计过程的收敛性及收敛速度与参数初始值的选取密切相关。若选取的初始值与参数真值比较接近,则收敛速度快;反之,则收敛速度慢甚至发散。因此,估计模型时最好依据参数的经济意义和有关先验信息,设定好参数的初始值。
二、比较、选择最佳模型
估计过程中,对每个模型检验以下内容,以便选择出一个最佳模型:
一回归系数的符号及数值是否合理;
二模型的更改是否提高了拟合优度;
三模型中各个解释变量是否显著;
四残差分布情况
以上比较模型的一、二、三步在步骤一中已有阐述,现分析步骤一中5个不同模型的残差分布情况。
分别在模型1~模型5的各方程窗口中点击View/Actual, Fitted, Residual/ Actual, Fitted, Residual Table(图3-8),可以得到各个模型相应的残差分布表(图3-9至图3-13)。
可以看出,模型4的残差在前段时期内连续取负值且不断增大,在接下来的一段时期又连续取正值,说明模型设定形式不当,估计过程出现了较大的偏差。而且,模型4的表达式也说明了模型的经济意义不合理,不能用于描述我国国有工业企业的生产情况,应舍弃此模型。
模型1的各期残差中大多数都落在 的虚线框内,且残差分别不存在明显的规律性。但是,由步骤一中的分析可知,模型1中除了解释变量K之外,其余变量均为通过变量显著性检验,因此,该模型也应舍弃。
模型2、模型3、模型5都具有合理的经济意义,都通过了 检验和F检验,拟合优度非常接近,理论上讲都可以描述资本、劳动的投入与产出的关系。但从图3-13看出,模型5的近期误差较大,因此也可以舍弃该模型。
最后将模型2与模型3比较发现,模型3的近期预测误差略小,拟合优度比模型2略有提高,因此可以选择模型2为我国国有工业企业生产函数。
图3-8 回归方程的残差分析
图3-9 模型1的残差分布
图3-10 模型2的残差分布
图3-11 模型3的残差分布
图3-12 模型4的残差分布
图3-13 模型5的残差分布
多元线性回归模型表示一种地理现象与另外多种地理现象的依存关系,这时另外多种地理现象共同对一种地理现象产生影响,作为影响其分布与发展的重要因素。
设变量Y与变量X1,X2,…,Xm存在着线性回归关系,它的n个样本观测值为Yj,Xj1,Xj2,…Xjm�(j=1,2,n),于是多元线性回归的数学模型可以写为:
可采用最小二乘法对上式中的待估回归系数β0,β1,…,βm进行估计,求得β值后,即可利用多元线性回归模型进行预测了。
计算了多元线性回归方程之后,为了将它用于解决实际预测问题,还必须进行数学检验。多元线性回归分析的数学检验,包括回归方程和回归系数的显著性检验。
回归方程的显著性检验,采用统计量:
式中: ,为回归平方和,其自由度为m; ,为剩余平方和,其自由度为(n-m-1)。
利用上式计算出F值后,再利用F分布表进行检验。给定显著性水平α,在F分布表中查出自由度为m和(n-m-1)的值Fα,如果F≥Fα,则说明Y与X1,X2,…,Xm的线性相关密切;反之,则说明两者线性关系不密切。
回归系数的显著性检验,采用统计量:
式中,Cii为相关矩阵C=A-1的对角线上的元素。
对于给定的置信水平α,查F分布表得Fα(n-m-1),若计算值Fi≥Fα,则拒绝原假设,即认为Xi是重要变量,反之,则认为Xi变量可以剔除。
多元线性回归模型的精度,可以利用剩余标准差
来衡量。S越小,则用回归方程预测Y越精确;反之亦然。
计量经济学实验报告参考格式:
一、介绍主题,提出感兴趣的主要问题
实验报告的前几段应该对主题进行有趣的描述。研究项目的介绍部分应该包括以下两个部分(按顺序排列):
1、主题说明;
2、对方法的描述。
二、回顾现有文献
其他研究人员可能已经研究了相关主题,所以报告的一个部分应该回顾关于这个主题的其他研究。
三、描述概念或理论框架
计量经济学的应用研究不同于统计分析,其特征之一是支持实证工作的理论结构。
四、解释计量经济学模型
开发了模型的理论结构之后,同学需要将其与经验、方法(也就是统计分析和观察方法)联系起来,这种方法在形式上被称为经济计量模型。
五、讨论估算方法
因为估计通常是假设某些统计条件成立,所以从计量经济学模型到估计可能并不完全简单。
六、详细描述数据
详细描述所使用的数据。要解决这些问题:
1、数据集是如何获得的及其来源;
2、数据的性质;
3、数据覆盖的时间范围;
4、数据收集的方式和频率;
5、观察到的结果;
6、计量经济学模型中使用的任何变量的汇总统计数据(平均值、标准差等)。
七、解释报告结果
读者可能不太了解计量经济学模型的规格、变量的规模以及其他相关信息,因此同学需要为读者提供相应的解释。
八、总结学到的东西
研究项目的结论应该综合结果,并解释其如何与报告的主要问题相关联。