第十五章 SPSS回归分析与市场预测市场营销活动中常常要用到市场预测。市场预测就是运用科学的方法,对影响市场供求变化的诸因素进行调查研究,分析和预见其发展趋势,掌握市场供求变化的规律,为经营决策提供可靠的依据。预测的目的是为了提高管理的科学水平,减少盲目的决策,通过预测来把握经济发展或者未来市场变化的有关动态,减少未来的不确定性,降低决策可能遇到的风险,进而使决策目标得以顺利实现。回归分析是研究两个变量或多个变量之间因果关系的统计方法。其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数学模型,以便从一个已知量来推断另一个未知量。15.1 回归分析概述相关回归分析预测法,是在分析市场现象自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量在预测期变化结果的预测方法。根据市场现象所存在的相关关系,对它进行定量分析,从而达到对市场现象进行预测的目的,就是相关回归分析市场预测法。相关回归分析市场预测法的种类:根据相关关系中自变量不同分类,有以下几种主要类型:1、一元相关回归分析市场预测法,也称简单相关回归分析市场预测法。它是用相关回归分析法对一个自变量与一个因变量之间的相关关系进行分析,建立一元回归方程作为预测模型,对市场现象进行预测的方法。2、多元相关回归市场预测法,也称复相关回归分析市场预测法。它是用相关分析法对多个自变量与一个因变量之间的相关关系进行分析,建立多元回归方程作为预测模型,对市场现象进行预测的方法。回归模型的建立步骤:1)做出散点图,观察变量间的趋势。如果是多个变量,则还应当做出散点图矩阵、重叠散点图和三维散点图。2)考察数据的分布,进行必要的预处理。即分析变量的正态性、方差齐等问题。并确定是否可以直接进行线性回归分析。如果进行了变量变换,则应当重新绘制散点图,以确保线性趋势在变换后任然存在。3)进行直接先行回归,包括变量的初筛、变量选择方法的确定等。4)残差分析。这是模型拟合完毕后模型诊断过程的第一步,主要分析两大方面:残差间是否独立;残差分布是否为正态。5)强影响点的诊断及多重共线性问题的判断。这两个步骤和残差分析往往混在一起,难以完全分出先后。15.2 回归分析熟练使用SPSS中的回归分析过程,对大量样本进行有效的回归分析,并根据回归分析的结果对市场行为进行预测。在市场营销中我们可以根据回归方程判断顾客的满意度、商品的业务量以及他们的相关关系等。进行简单回归分析对数据也有一定的要求,这里给出的是基本适用条件:1)线性趋势:自变量与因变量的关系是线性的,如果不是,则不能采用线性回归来分析。这可以通过散点图来加以判断。2)独立性:可表述为因变量y的取值相互独立,之间没有联系。反应到模型中,实际上就是要求残差间相互独立,不存在自相关,否则应当采用自回归模型来分析。3)正态性:就自变量的任何一个线性组合,因变量y均服从正太分布,反映到模型中,实际上就是要求残差服从正太分布。4)方差齐性:就自变量的任何一个线性组合,因变量y的方差均相同,实质就是要求残差的方差齐性。15.2.1 案例一问题要对中国电信业务总量的影响因素进行计量模型的分析,我们可以对1991年—1999年电信业务总量、邮政业务总量、中国人口数、市镇人口数、人均GDP以及人均消费水平这六个指标进行回归并对市场进行预测。根据回归的结果我们可以得出回归方程,根据回归方程利用往期的数据可以对电信业务总量进行预测。15.2.2 案例一操作打开SPSS 20.0,在其窗口中选择菜单【文件】→ 【打开】→ 【数据】,打开(文件名称:Book\第十五章\中国电信业务总量.sav)数据表,文件包括年份(定序尺度)、电信业务总量、邮政业务总量等7个变量(定距尺度)。选择【分析】→ 【回归】→【线性】,打开线性回归分析对话框。在左侧变量框中选择“电信业务总量变量”将其移动到因变量列表下的方格中,将因素变量“邮政业务总量、中国人口数、市镇人口比重、人均GDP、人均消费水平”移动到自变量下的方格中,如图15-1所示。图15-1 “线性回归”对话框方法(M)下拉框中设置解释变量进入模型的方法:1)进入:将所有变量全部引入模型中2)逐步:每一次按照向前筛选法的标准引入变量后,都要按照向后筛选法的标准对已经引入的所有变量进行检验,剔除掉由于新变量的引入而变得不再显著的变量。3)删除:建立模型时,根据设定的条件剔除部分解释变量。4)向前:与被解释变量有最大相关的变量首先进入方程,如果该解释变量没有通过 F 检验,则变量筛选过程结束,方程中没有引入任何变量;如果通过 F 检验,则在剩余的变量中寻找具有最大偏相关系数的变量,将其引入方程,并再次进行 F 检验,如果通过检验,则保留该变量在模型中,并继续寻找下一个候选变量,否则变量筛选过程结束,方程中仅有一个解释变量;依次类推,直至所有满足判据的变量都被引入到模型为止。5)向后:与向前筛选法的顺序相反,向后筛选法首先将所有变量都引入模型,然后剔除最不显著的变量。如果剩余变量都通过显著性检验,则变量筛选过程结束;否则按同样的标准继续剔除不显著的变量,直至剩余的解释变量都满足显著性检验为止。单击“统计量”按钮,弹出“统计量”子对话框,该对话框用于设置要输出的统计量。估计:输出有关回归系数的统计量,包括回归系数、回归系数的标准差、标准化的回归系数、t统计量及其对应的p值;模型拟合度:输出可决系数、调整的可决系数、回归方程的标准误差、回归方程F检验的方差分析;共线性检验:输出多重共线性分析结果;Durbin-Watson:输出Durbin-Watson检验统计量。在此对话框中选择估计、模型拟合度、共线性诊断,如图15-2所示。图15-2 “线性回归:统计量”子对话框单击“绘制”按钮,弹出绘制子对话框,该对话框主要用于利用图形对残差进行分析。在此选中正态概率图复选框,对残差的正态性进行分析,如图15-3所示。图15-3 “线性回归:图”子对话框单击“保存”按钮,弹出保存子对话框,如图15-4所示,该对话框用于设置将某些有用的分析结果保存到数据文件中,在此选择默认的选项。图15-4 “线性回归:保存”子对话框单击“选项”按钮,弹出选项子对话框,步进方法标准:用于设置解释变量筛选的判定标准;在等式中包含常量:用于设置在模型中是否包含常数项,默认为在模型中包含常数项;缺失值:用于设置缺失值的处理方法。在此选择默认选项,如图15-5所示。图15-5 “线性回归:选项”子对话框单击“继续”按钮,返回线性回归主对话框,单击“确定”按钮,执行现行回归分析命令。得到输出结果。15.2.3 案例一结果分析表15-1给出了解释变量的筛选过程,根据此表,我们可以看出在本例中所有的解释变量均进入进行回归分析。表15-1 解释变量筛选过程模型 输入的变量 移去的变量 方法1 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均GDPb . 输入a. 因变量: 电信业务总量b. 已输入所有请求的变量。表15-2和表15-3给出了回归模型拟合优度评价及方程的方差分析表,根据表15-2得出回归方程的拟合优度调整的R方为0.978,这个R方数值还是比较大的,大致可以认为回归方程有意义。而表15-3是方程的方差分析表,根据此表看一看出回归方程的方差检验对应的p值为0.002小于0.05,说明该模型从整体上看是比较有意义。表15-2 回归模型拟合优度评价模型 R R 方 调整 R 方 标准 估计的误差1 .996a .992 .978 1.47822a. 预测变量: (常量), 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均GDP。b. 因变量: 电信业务总量表15-3 方差分析表模型 平方和 df 均方 F Sig.1 回归 794.319 5 158.864 72.703 .002b残差 6.555 3 2.185 总计 800.874 8 a. 因变量: 电信业务总量b. 预测变量: (常量), 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均GDP。从表15-4可以看出,引入模型的五个解释变量都没有通过t检验。模型整体显著而单个系数均不能通过t检验,这正是解释变量之间存过多重共线性的常见特征。观察表15-4中的容差和方差膨胀因子我们可以看出五个解释变量的容差都很小接近于0,但它们的VIF都很大,这进一步证实了解释变量之间存在严重的多重共线性。1) 容忍度 (Tolerance) :某自变量的容忍度等于1减去以该自变量为反应变量,Independentω 杠中选入的其他自变量为自变量所得到的线性回归模型的决定系数。显然,容忍度越小,多重共线性越严重。有学者提出,容忍度小于 0.1 时,存在严重的多重共线性。2) 方差膨胀因子 (Varianceinflation factor , VIF): 等于容忍度的倒数。显然,VIF 越大,多重共线性问题越大。一般认为VIF不应大于5 ,对应容忍度的标准,也可放宽至不大于10 。3) 特征根 (Eigenvalue) :对模型中常数项及所有自变量计算主成分,如果自变量问存在较强的线性相关关系,则前面的几个主成分数值较大,而后面的几个主成分较小,甚至接近0。4) 条件指数 (ConditionIndex):等于最大的主成分与当前主成分的比值的算术平方根。所以第一个主成分相对应的条件指数总为1。同样,如果几个条件指数较大(如大于30) ,则提示存在多重共线性。表15-4 回归系数估计及其显著性检验系数a模型 非标准化系数 标准系数 t Sig. 共线性统计量B 标准 误差 试用版 容差 VIF1 (常量) -124.504 456.294 -.273 .803 邮政业务总量 35.740 16.047 1.734 2.227 .112 .005 222.177中国人口数 16.970 47.309 .589 .359 .744 .001 987.365市镇人口比重 -300.267 390.878 -.426 -.768 .498 .009 112.937人均GDP -5.317 9.898 -.951 -.537 .628 .001 1149.087人均消费水平 -.270 19.750 -.023 -.014 .990 .001 1057.707a. 因变量: 电信业务总量表15-5给出了方程解释变量的多重共线性诊断结果。从特征根上看,最大的特征根远远大于其他特征根,后 4 个条件指数都大于 10,说明变量之间确实存在多重共线性问题。从方差比例上看,第 5 个特征根解释了人均 GDP 方差的 58%,同时解释了人均消费水平方差的 65%,说明这两个变量之间可能存在多重共线性;第 6 个特征根同时解释了邮政业务总量方差的 77%、人口总数方差的 100%和市镇人口比重方差的60%,说明这 3 个变量之间可能存在多重共线性。表15-5 多重共线性诊断模型 维数 特征值 条件索引 方差比例(常量) 邮政业务总量 中国人口数 市镇人口比重 人均GDP 人均消费水平1 1 5.820 1.000 .00 .00 .00 .00 .00 .002 .174 5.785 .00 .00 .00 .00 .00 .003 .006 31.563 .00 .07 .00 .00 .00 .004 .000 193.583 .00 .01 .00 .02 .22 .325 2.528E-005 479.782 .01 .16 .00 .38 .58 .656 4.476E-007 3606.121 .99 .77 1.00 .60 .20 .02a. 因变量: 电信业务总量为了解决多重共线性带来的问题,可以使用 Backward 法筛选变量。得到结果如下表15-6、表1