0 问题的提出
中国制造业技术创新是近年学术研究的一个重要论题,研究的焦点主要围绕影响制造业技术创新的因素分析展开。张海洋[1]探讨了FDI与技术创新之间的联系,李小平和朱钟棣[2]考察了技术进步中的对外贸易因素,Zhang et al.[3]、吴延兵[4]就研发投入对制造业企业知识生产和创新的影响进行了分析。但值得注意的是,迄今为止的此类研究有一个共同的倾向,即主要关注了国际技术溢出和研发投入对制造业技术创新的作用,而忽略了制造业空间分布格局对技术创新的影响,尤其是制造业空间集聚的作用。我们知道,技术创新的一个重要来源是知识溢出,而知识溢出本质上是一个区域和地方现象,即知识溢出随着地理范围的扩大而减小,这意味着,制造业企业在空间上的相互接近性无疑为知识溢出继而技术创新提供了便利。因此,要理解技术创新就须理解知识溢出,要理解知识溢出就须研究区域经济集聚。本文的核心主旨恰在于此,即在现有研究中纳入空间维度,从行业层面切入考察制造业区域集聚对技术创新的影响。
不同于国内现有文献采用全要素生产率或新产品销售收入作为技术创新的衡量指标,本文按照国际上通常做法,选用发明专利数这一更为直接的衡量指标。在此基础上,针对发明专利数作为计数变量(count variable)所具有的特殊统计属性,我们放弃了线性回归模型,首次采用负二项回归模型来对影响中国制造业技术创新的诸因素进行更为精确地实证分析。
1 变量界定、数据来源及统计描述
考虑到数据分析的可获得性,我们选取了2000-2005年间20个制造业行业作为样本行业。前已提及,本文衡量技术创新的指标是行业拥有发明专利数,数据来源于2001-2006年的《中国科技统计年鉴》。而对于制造业区域集聚的测度尺度,可沿用克鲁格曼[5]所用过的“空间基尼系数”。按照界定,这个系数是Ellision和Glaeser[6]的制造业地理集聚指数的简化形式,具体计算公式为
为该地区工业产值占全国工业总产值的比重。该系数值的涵义也是清楚的,即其值越大(最大值为1),表明行业在地理上的集聚程度越高。该公式中所涉及的地区某行业工业产值、该行业全国工业总产值、地区工业产值和全国工业总产值数据均来源于2001-2006年的《中国工业经济统计年鉴》。
此外,我们还引入了一些其他可能对制造业技术创新产生影响的因素:(1)外商直接投资(FDI),可取行业外企就业人数占行业总就业人数比率来衡量,用于考察FDI的技术溢出效应,其中行业外企就业人数和行业总就业人数数据均来源于2001-2006年的《中国工业经济统计年鉴》;(2)行业的增长(Growth),可取行业全国工业总产值年增长率来衡量,其中行业全国工业总产值数据来源于2001-2006年的《中国工业经济统计年鉴》,已有研究表明,市场需求是推动技术创新的动力源泉;(3)企业规模(Scale),可选用行业全国工业总产值的企业平均规模值,即用行业全国工业总产值除以该行业的企业个数,这两个数据均来源于2001-2006年《中国工业经济统计年鉴》,不难预测,企业规模越大,其创新的能力和实力越强;(4)行业累积发明专利数(Cpatent),借鉴Ketelhohn[7]的做法,可取行业前两年累加的拥有发明专利数来衡量行业的创新环境,该数据来源于2001-2006年《中国科技统计年鉴》;(5)技术人员(SP),可取行业技术开发人员占从业人员比重,该比值来源于2001-2006年《中国科技统计年鉴》;(6)研发支出(R&D),可取行业技术开发经费占产品销售收入比重,该比值也来源于2001-2006年《中国科技统计年鉴》。很显然,一个行业的技术人员和研发经费支出越多,其技术创新的可能性越大。
图1给出了2000-2005年各个行业拥有发明专利数的箱线图(方盒的下边缘、中线和上边缘分别表示25%,50%和75%的分布点)。不难看出,拥有发明专利数最多的行业是电子及通信设备制造业(C40),其次为电气机械及器材制造业(C39),年平均拥有发明专利数分别为2170个和1580个;拥有发明专利数最少的行业是造纸及纸制品业(C22),其次为化学纤维制造业(C28),年平均拥有发明专利数仅有40个和47个。而且,各行业每年拥有发明专利数的变化幅度也不同。其中,变化幅度最大的行业依然是电子及通信设备制造业(C40)和电气机械及器材制造业(C39);变化幅度最小的行业也依然是造纸及纸制品业(C22),其次为化学纤维制造业(C28)。
图1 行业拥有发明专利数箱线图(2000-2005)
就这些行业间拥有发明专利数的差距和制造业总体拥有发明专利数的变动来比较,可以看到一个明显的趋势:行业间的技术创新差距趋于拉大。如图所示(见图2),从2000年的693扩大到了2005年的4669,增长了6.74倍,而且这种差距呈现出逐步上升的态势。与此同时,制造业总体拥有的发明专利数连年上升,从2000年的282增加到2005年的1011,增幅达到了3.59倍,并仍有继续上升的趋势。
图2 行业间拥有发明专利数差距与总体拥有发明专利数(2000-2005)
2 计量模型选取
由于因变量拥有发明专利数是一个只取非负整数的计数变量,不服从普通最小二乘法(OLS)所要求的正态分布(见图3),因而,包含了k个解释变量的的线性模型不能对所有解释变量的值提供最好的拟合。而且,考虑到计数变量有可能取值为零,也不能对它取对数。伍德里奇[8]指出,一个有价值的方法就是将期望值模型化为一个指数函数:
由于exp(·)总为正,所以式(1)确保了y的预测值也总为正。
很显然,式(1)是其参数的一个非线性函数,因此不能使用线性回归模型。而且,由于所有标准计数数据的分布都表现出异方差性,因此采用广义线性模型(generalized linear model,GLM)的最大似然估计(maximum likelihood estimation,MLE)无疑是个较好的选择。
图3 因变量拥有发明专利数密度分布图
具体来说,虽然计数变量不具有正态分布,但是它却服从泊松分布(poisson distribution)。由于泊松分布完全由其均值决定,所以只需确定E(y|x)。我们假定它具有与式(1)同样的形式,简记为exp(xβ)。于是,以x为条件,y等于h的概率为
但值得注意的是,上述泊松MLE的一个关键假定是计数因变量的均值与方差必须相等:
Var(y|x)=E(y|x).
而在我们的样本数据里,因变量拥有发明专利数的均值为593.71,方差为498058.4,两者相差了近840倍,存在明显的过度分散(overdispersion)问题,这
[1] [2] 下一页
将导致泊松回归模型得出的结果是有偏的。在这种情况下,较为合适的做法是采用负二项回归模型(negative binomial regression model, NBR regression)。上一页 [1] [2]