spss统计分析论文参考文献

SPSS软件是“统计产品与服务解决方案”软件，是数据统计分析的一个重要的工具。下文是我为大家整理的关于spss统计分析论文的范文，欢迎大家阅读参考!

统计分析软件SPSS的特点和应用分析

【摘要】通过文献资料法，介绍了统计分析软件SPSS的特点，并通过实例：用非参数检验中的两个独立样本的检验(Test for Two Independent Sample)进行分析，对该软件的应用做了详细的介绍，旨在为学习SPSS软件的人们提供参考。

【关键词】统计分析软件;SPSS;独立样本;非参数检验

一、前言

统计分析软件SPSS是一款统计产品与服务解决方案的软件，其全称为“统计产品与服务解决方案(Statistical Product and Service Solutions)”。该软件是一款在统计中应用很广的统计分析软件，目前在各专业毕业论文经常可以看到它的身影，其应用范围广、方便快捷等特点吸引着众多的爱好者。本文通过对统计分析软件SPSS的功特点进行介绍，通过举例用非参数检验中的两个独立样本的检验(Test for Two Independent Sample)进行分析，对该软件的操作用做了详细的介绍，为学习SPSS软件的人们提供参考。

二、SPSS软件的特点

(一)操作简便

SPSS软件的界面非常友好，除了数据录入及部分命令程序等少数输入工作需要键盘键入外，大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。

(二)编程方便

具有第四代语言的特点，告诉系统要做什么，无需告诉怎样做。只要了解统计分析的原理，无需通晓统计方法的各种算法，即可得到需要的统计分析结果。对于常见的统计方法，SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此，用户无需花大量时间记忆大量的命令、过程、选择项。

(三)功能强大

具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法，比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。

(四)全面的数据接口

能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPRO产生的*.dbf文件，文本编辑器软件生成的ASCⅡ数据文件， Excel 的*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt，word，PPT及html格式的文件。

(五)灵活的功能模块组合

SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。

(六)针对性强

SPSS针对初学者、熟练者及精通者都比较适用。并且现在很多群体只需要掌握简单的操作分析，大多青睐于SPSS，像薛薇的《基于SPSS的数据分析》一书也较适用于初学者。而那些熟练或精通者也较喜欢SPSS，因为他们可以通过编程来实现更强大的功能。

三、实例分析――两个独立样本的检验(Test for Two Independent Sample)

例题：为了调查甲、乙两地土壤对种植同一种西瓜有没有影响，从这两个产地分别随机抽取同种的8只和7只西瓜，称重后得重量(市斤)如下：

甲(斤)：9.31、9.57、10.21、8.86、8.52、10.53、9.21、9.14

乙(斤)：9.98、8.46、8.92、10.14、10.17、11.04、9.43

问：根据样本数据检验两地的土壤对种植西瓜在重量上是否有显著差异?

解：建立假设 H0：甲乙两地的西瓜重量没有显著差异;

H1：甲乙两地的西瓜重量有没有显著差异。

然后根据上面给出的数据建立数据文件，注意数据文件中有一个表示重量数据的变量和一个表示地区分组的变量。最后在数据编辑窗口进行检验。检验的具体操作过程如下：

第一步：单击Analyze Nonparametric Test 2 Independent Sample，打开Two-Independent-Sample对话框(见图1)。

第二步：选择检验的变量进入检验框中，选择分组变量进入Grouping Variable框中，单击Define Group键，打开Define Group对话框，将分组变量值分别键入两个框中，单击Continue返回主对话框(见图2)：

第三步：在Test Type栏中，确定检验方法。

SPSS中提供了四种检验方式，几种检验方法侧重点不同，但都是先把两样本数据混合排序，再从不同的角度分析并检验两个独立总体的分布是否有显著的差异。有时这几种检验结果可能不一样，所以要结合数据的探索分析考察数据的分布状况作出结论。本文选择了常用的Mann-Whitney U曼―惠特尼检验和Kolmogorov-Smirnov Z K-S检验。

第四步：选择输出的结果形式及缺失值处理方式;

第五步：单击OK，得输出结果。

所以，以上两种检验结论是一致的。也就是说在两地种植的同一种西瓜地重量没有显著差异。

参考文献

[1]杜志渊.常用统计分析方法―SPSS应用[M].山东人民出版社,2011.

[2]刘宁元.运用SPSS对高职专业课程成绩进行相关分析[J].电脑与电信,2007(3).

[3]井海立.SPSS在数学试卷统计分析中的应用[J].科技信息(学术版),2006(10).

试谈SPSS软件在考试数据统计分析中的应用

摘要： SPSS软件是数据统计分析的一个重要的工具。本文作者利用SPSS软件对考试数据的相关性、检验假设进行了统计分析，介绍了使用SPSS进行统计分析的一般方法和步骤，文中的方法对考试研究人员具有一定的指导意义。

关键词： SPSS软件考试数据统计分析操作步骤

1. 引言

一份好的试卷须有好的测量指标来表明它的优良程度，试题有难度和区分度指标，试卷有效度和信度指标，这些是评价考试最主要的测量指标，但是仅有这些指标不足以反映一份试卷的实际测量效果，考试研究人员希望从考生的试卷统计分析中获取更多的信息来评价一份试卷。在计算机未普及的年代，考试成绩统计主要依靠人工阅卷，考试数据无法电子化存储，对考试数据分析统计难以实现。随着计算机的普及和信息化的推广，各种分析数据的软件应运而生，这些软件中汇集了统计学和测量学的分析工具，使得应用电子信息技术分析统计考试成绩数据成为可能，这些统计信息可以为教研部门、考试行政部门进行行政决策等提供非常重要的帮助。在众多的统计分析软件当中，SPSS是应用最多、影响最广泛的分析工具之一。在本文中，我们以SPSS软件为工具，对教育招生考试成绩的数据进行统计分析，分析主要着重于考试数据的相关性、假设检验等几个方面。

2. SPSS分析软件简介

“SPSS统计分析软件”的英文名称为“Statistical Package for the Social Science”，中文名称为“社会科学统计软件包”，它是世界著名的统计分析软件之一，在自然科学、社会科学的各个领域均有非常广泛的应用。SPSS是一个组合式软件包，它集数据整理、分析于一身，主要功能包括数据管理、统计分析、图表分析、输出管理等，该软件的统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类。

下面我们利用SPSS软件对考试数据的相关性、检验假设进行统计分析，介绍使用SPSS进行统计分析的一般方法和步骤。

3. 相关性分析

教育考试中，考试结果的信度，试题的区分度，每个题目得分与试卷总分的关系，以及题目之间的关系，等等，都是考试研究的重要内容，最主要的研究方法就是数据的相关性分析。在众多的教育考试数据的相关性分析方法中，Pearson相关系数法、Spearman相关系数法和Cronbach α信度系数法是比较常用的几种方法。

Pearson相关系数法计算公式：

式中x为第i个考生第j题的得分，y为第i个考生第k题的得分，为第j题的平均分，为第k题的平均分，n为测试样本量。该公式既可以计算两个连续变量之间的相关性，又可以计算一个双歧变量与一个连续变量之间的相关性。

Spearman相关系数法计算公式：

r=1-(2)

式中D为两个变量的秩序之差，n为样本容量。

Cronbach a信度系数法计算公式：

α= 1-(3)

式中n为试题数，s为第i题的标准差，s为总分的标准差。该公式实际上就是将考试中所有试题间相关系数的平均值(又称内部一致性)作为α信度系数。

对于给定的一组考生成绩数据，利用SPSS统计分析软件可以非常容易地定量分析考生某学科试卷总分和该学科某道题的相关性，以及各个题目之间的相关性。我们以Pearson相关系数分析为例，利用SPSS软件进行统计分析。

数据统计分析的对象是某省高考数学6道解答题的得分情况(不是整张试卷)，数据源于该省的高考数据成绩。研究的目的是测量6道解答题每两个题目之间的相关性。

我们以SPSS 13.0版本的软件为例，介绍利用SPSS进行数据统计分析的步骤(以Pearson相关系数法为例)：

(1)将考试数据导入SPSS软件，在SPSS数据窗口中，顺序点击【Analyze】→【Correlate】→【Bivariate...】，系统弹出变量相关系数设置对话框。

(2)在该对话框中，将待计算的变量从左侧的变量列表中导入到右侧的“Variables”变量列表中，在本例中导入t1、t2、t3、t4、t5、t6共6个变量(t1―t6是6道解答题的变量名称)。在“Correlation Coefficients”相关系数选项中，选取“Pearson”复选框。

(3)在该对话框的“Test of Significance”设置区域，可以点选“Two-tailed”选项或者“One-tailed”，我们采用系统默认值。

(4)对话框中的其它选项取软件系统的默认值，点击【OK】，开始相关系数计算，系统弹出新的窗体输出运算的结果。本次输出的情况如下：

上表的统计结果可用于题目之间相关性的分析。表中的大部分题目的相关系数都比较适中，但题目T4和题目T5之间的相关程度远高于其它几个题目，我们可以确信这两者之间一定存在着比其他题目之间更紧密的关系，这是我们通过分析获取的重要信息，该信息表明这两个题目之间的相关性高于其他几个题目之间的相关性，这在大规模考试中是不应该出现的，需要在以后的命题考试中加以改进。

Spearman相关系数分析方法和上述分析方法类似，只需要在上述SPSS操作的第二个骤中选取“Pearson”复选框，程序就会按Pearson相关系数法进行统计分析，如果同时选中“Spearman”和“Pearson”复选框，程序将会同时计算按两种分析方法统计分析的数据，并会以不同的图表进行显示，而Cronbach a信度系数法计算方法与上述方法略有不同，其操作步骤如下：

(1)在SPSS数据窗口中，顺序点击【Analyze】→【Scale】→【Reliability Analysis...】，系统弹出“Reliability Analysis”信度分析设置对话框。

(2)将待计算的变量从左列的变量列表中导入到右侧的“items”变量中，在左下列的“model”选择项的下拉列表中确保选中“Alpha”(信度系数)，点击“Statistics”选择项可以进行更为详细的参数设置，我们采用系统的默认值即可。

(3)参数设置完毕之后，点击【OK】，软件开始相关系数计算并输出运算结果。

4. 选择题的选项分析

在目前的教育招生考试中选择题是一种较常见的题型，考试研究人员关注较多的是对选择题基本特征、测量功能及其优缺点的理论探讨[1][2]，对选择题干扰项的设计及其施测后的实际效果关注甚少，事实上施测后对题目各选项的有效性作出判断可为评价试题质量提供重要参考依据。我们利用统计中χ检验假设，对试卷中常见的选择题选择项进行统计分析。

教育考试的单项选择项一般设置为4个，其中仅有1个选择项是正确的。命题人员在设计选择项时，应当也必然对每道题目所有的选择项(正确选择项和干扰选择项)的考生作答情况作出预测，对考生作答的分布情况作出预估。考试结束后，研究人员应该对实测的情况与命题教师预测的情况进行对比分析，以检验考试效果是否达到了预测的目标。这和χ拟合度检验的思想具有一致性，因此可以尝试使用χ检验假设进行分析。

我们依据文献[3][4]的方法来介绍χ检验假设在考试数据分析中应用的基本原理，设变量E是命题者对某道试题的期望值，E=nP，n为样本容量，P为期望的相对频率，引入以下统计量：∑(O-E)/E，其中O为观察频数。

本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文

我们需要进行的假设检验是：零假设H：选项的实测分布与期望分布相同;非零假设H：选项的实测分布与期望分布不同。

检验假设的思想：拟合度检验的统计量在确定的某种显著性水平下如果零假设是真，则检验统计量∑(O-E)/E呈近似χ分布，其自由度为研究变量的可能值减1;如果实测分布与期望的分布相当吻合，就不排除零假设，否则就排除零假设;最后对检验假设的结果进行解释。

数据分析的目的是判断考生实际的应答结果(实测数据)与命题期望的选择概率(期望数据)是否一致。我们随机抽取某省5542个高考考生的数学有效数据构成分析样本，利用SPSS进行统计分析。

SPSS数据统计分析的步骤如下：

(1)将考试数据导入SPSS软件，依次点击【Analyze】→【Nonparametric Tests】→【Chi-Square...】，弹出“Chi-Square Tests”对话框。

(2)将变量列表中待分析的题目序号导入到“Test Variables List”(检验变量列表)中，本例中题目的序号为t7。

(3)将对选择试题的每个选项的期望值依次输入到“Expected Values”所属的方框，具体操作方法是选中单选框“Values”，输入具体的期望数值，点击“Add”按钮，依次重复上述的步骤直至所有的选项的期望值输入完毕。

(4)点击【OK】，输出软件运算结果。

我们需要进行的假设检验，H：选项的实测分布与期望分布相同;H：选项的实测分布与期望分布不同。

假设检验的显著性水平为α=0.05，χ=∑(O-E)/E，自由度为df=4-1=3，查χ分布表或利用相关软件可得P=0.0626，由于P>α，因此不能拒绝零假设，即选项的实测分布与期望分布相同。因此，检验结果在0.05显著性水平时，没有足够的证据拒绝零假设，即可认为本题选项的实测分布与期望分布相同，也就是说本题的实际测试效果与命题教师预测的效果是一致的，命题教师准确地估计了考生的实际水平，这是分析获得的很重要的结论。

5. 结语

SPSS软件在考试数据统计分析中应用广泛，但大部分是集中在试题难度、均值、方差统计、考试数据的图表显示等几个方面，本文从一个新的角度利用SPSS软件对考试数据的相关性、检验假设等几个方面进行了尝试性统计分析，介绍了使用SPSS进行统计分析的一般方法和步骤。从上述分析来看，软件操作步骤和统计分析过程十分简单、快捷，对于测量学和统计学基础不太好的数据分析统计人员来说，只要遵循一定的操作步骤，就可以进行分析。

参考文献：

[1]王孝玲.教育测量(修订版)[M].上海：华东师范大学出版社，2006.

[2]雷新勇.大规模教育考试：命题与评价[M].上海：华东师范大学出版社，2006.

[3]李伟明，冯伯麟，余仁胜.考试的统计分析方法[M].北京：高等教育出版社，1990.

[4]雷新勇.考试数据的统计分析和解释[M].上海：华东师范大学出版社，2007.

干货 | 利用SPSS进行高级统计分析第二期

Hello，

这里是行上行下，我是喵君姐姐 ~

在上一期中，我们为大家带来了利用SPSS软件进行高级统计分析的实操教程第一期，内容包括：描述性统计表格模板、卡方&T检验、相关&回归分析等。

在本期中，我们继续为大家介绍如何利用SPSS进行：中介、多重中介、链式中介、调节分析、有中介的调节分析等。

PS：后台回复关键词 “高级统计” 即可获得所述的PDF原文啦！

一、中介【报告B，SE，t（df），p），置信区间，画中介效应图】

1.回归方程法

1.1 算三个回归方程

1) 自—因

2) 自—中

3) 自、中—因

1.2 数据分析

2. Process插件法：Model4

部分标准化

效应量/Y的标准差

完全标准化

所有变量的标准化

3. 报告【B、SE、t(df)、P、置信区间+图（标准化系数）】

本研究采用软件SPSS 24.0 中文版进行采集录入和统计分析实验数据。中介效应检验：参照Preacher 和Hayes (2004)提出的Bootstrap 方法进行中介效应检验(模型4)，样本量选择5000，在95%置信区间下。

为了探讨MIL和FCI的关系中是否存在PA的中介作用，本研究以MIL得分为自变量，FCI得分为因变量，PA得分为中介变量进行中介效应检验。结果表明，PA在MIL和FCI之间起着中介作用。

MIL对PA有显著的预测作用（B=0.24，SE=0.07，t（98）=3.55，p < 0.001），置信区间（LLCT = 0.10，ULCT =0.37）不包含0；中介检验的结果不包含0（ LLCT = 0.07 , ULCT = 0.37），表明 P A 的中介效应显著（中介效应大小为0.22，S E =0.08），中介效应如图所示。

参考文献：Preacher, K. J. , & Hayes, A. F. . (2004). Spss and sas procedures for estimating indirect effects in simple mediation models. Behavior Research Methods, Instruments & Computers, 36 (4), p.717-731.

二、多重中介

1. Process插件法：model4

三、链式中介

1. Process插件法：model6

中心化：原始数据-均值

拆分文件：spilt

四、调节【报告B、SE、t、β、p、95%CI、Δ+画回归表、交互作用图】

1. 线性回归法

1.1 S pss操作

1）算z分数

2）算交互项

3）算回归方程

1.2 S pss结果解读

1.3 画交互作用图：对调节变量做高低分组

高分组：平均值+标准差=6.12

低分组：平均值—标准差=3.68

1.4 拆分文件，做回归

1.5 再做一次回归，画图

2. Process插件法：model1

2.1 S pss操作

2.2 S pss结果解读

2.3 报告

利用Process model 1 (Hayes，2018)探讨生命意义感P、社会支持以及二者的交互作用与工作倦怠的关系。

结果表明，生命意义感P (B = -0.46， t = -1.35， p = 0.18 )、社会支持 (B = -0.19， t = -0.55， p =0.58 )以及二者交互作用(B = 0.05， t = 0.83， p =0.41 ) 对工作倦怠的作用均不显著（如表3所示），简单斜率分析图如图2所示。

图 2简单斜率效应分析图

五、有调节的中介【报告B、SE、β、p、95%CI+画回归表+交互作用图】

1.线性回归法

1.1 算两组交互项自*调中*调

1) 自、调、自*调—因

2) 自、调、自*调—中

3) 自、调、自*调、中、中*调—因

1.2 报告

接下来验证有调节的中介作用，以压力为自变量，生命意义感P为调节变量，自我效能感为中介变量，深层劳动为因变量为例。

根据温忠麟和叶宝娟(2014)的观点，检验有调节的中介模型需要对三个回归方程的参数进行检验：(1)方程1 估计调节变量(生命意义感P)对自变量(压力)与因变量(深层劳动)之间关系的调节效应; (2)方程2 估计调节变量(生命意义感P)对自变量(压力)与中介变量(自我效能感)之间关系的调节效应; (3)方程3 估计调节变量(生命意义感P)对中介变量(自我效能感)与因变量(深层劳动)之间关系的调节效应以及自变量(压力)对因变量(深层劳动)残余效应的调节效应。

根据Muller, Judd 和Yzerbyt (2005)的观点, 如果模型满足以下两个条件则说明有调节的中介效应存在：(1)方程1 中, 压力的总效应显著, 且该效应的大小不取决于生命意义感P; (2)方程2 和方程3 中, 压力对自我效能感的效应显著, 生命意义感P与自我效能感对深层劳动的交互效应显著, 和/或压力与生命意义感P对自我效能感的交互效应显著, 自我效能感对深层劳动的效应显著，本研究中有调节的中介模型检验结果见表2、图3。

由表2、图1可见，方程1 中压力负向预测深层劳动（β=-0.37，p<0.001），压力与生命意义感P的交互项对深层劳动的预测作用显著（β=-0.23，p<0.001）。

方程2 和方程3 中，压力与生命意义感P的交互项对自我效能感的预测效应显著（β=-0.18，p<0.01）；压力与生命意义感P的交互项对深层劳动的预测作用显著（β=-0.18，p<0.01）；同时自我效能感对深层劳动的预测效应显著（β=0.53，p<0.001）。

这表明，压力、生命意义感P、自我效能感和深层劳动四者之间构成了有调节的中介效应模型，自我效能感在压力与深层劳动之间具有中介作用，生命意义感P 在压力与深层劳动、压力与自我效能感间起调节作用。

表2 压力对深层劳动有调节的中介效应检验（以生命意义感P为调节变量、自我效能感为中介变量）

图 3压力对深层劳动有调节的中介效应图（中介变量为自我效能感，调节变量为生命意义感P）

参考文献：

温忠麟, & 叶宝娟. (2014). 中介效应分析:方法和模型发展. 心理科学进展, 022 (005), 731-745.

由于生命意义感P在压力与深层劳动、压力与自我效能感间起调节作用，因此需要进一步检验简单效应以明确生命意义感P调节作用。

首先将生命意义感P按照正负一个标准差分成高、低组, 采用简单斜率检验考察在生命意义感P不同水平上压力对深层劳动、压力对自我效能感的影响，相应的简单效应分析见图5、图6。

图5结果表明，对于生命意义感P 较高的个体来说，压力能负向预测深层劳动（ B= -0.44， SE = 0.13， p <0.01 ）；而对于生命意义感P较低的个体来说，压力不能显著预测深层劳动（B =0.09, SE = 0.11,p = 0.45），即比起低压力情景，高生命意义感P的个体在高压情景下，会有更少的深层劳动。

图 5生命意义感P对压力与深层劳动之间的关系调节作用

图6结果表明，对于生命意义感P较低的个体来说，压力不能预测自我效能感（B = -0.19，SE =0.13，p =0.17）；而对于生命意义感P较高的个体来说，压力能负向预测深层劳动（ B =-0.45 ， SE = 0.13 ， p <0.01）；即比起低压力情景时，高生命意义感P的个体在高压情景下自我效能感更低。

图 6生命意义感P对压力与自我效能感之间的关系调节作用

2. Process插件法

2.1 调节前半路径：model7

1)Spss操作

2) Spss结果解读

2.2 调节后半路径：model14

1) Spss操作

2)Spss结果解读

2.3 探索前后：model57

2.4 报告

使用Hayes (2019)的SPSS 宏程序PROCESS（Model7），分析自我效能感在压力与深层劳动之间的中介作用（前半段）是否受生命意义感P的调节。

结果表明（如表4所示）：自我效能感显著正向预测深层劳动（B= 0.37 ，S E =0.0 4 ，p< 0.001 ）；压力与生命意义感P的交互项能显著负向预测自我效能感（B=-0.02，S E =0.01，p< 0.01 ）。

表4：生命意义感P调节自我效能感在压力与深层劳动之间中介作用的回归分析

在生命意义感P得分为平均数减一个标准差、平均数以及平均数加一个标准差三个水平时，自我效能感在压力与深层劳动之间的中介效应值及其95%Bootstrap 置信区间如表5所示。

综合以上结果，本研究提出的有调节的中介模型得到了支持。自我效能感在压力与深层劳动之间起中介作用，而且该中介作用前半段受到生命意义感P的调节。

表5：不同生命意义感P水平时压力与自我效能感之间的关系

生命意义感P水平中介效应值Boot标准误Bootstrap下限Bootstrap上限

M-SD-0.09 *** 0.03-0.16-0.04

M-0.13 *** 0.03-0.19-0.08

M+SD-0.17 *** 0.03-0.24-0.11

注： *** p<0.001

进一步采用简单斜率检验来分析生命意义感P在压力与自我效能感关系中的调节作用。按生命意义感P的平均分加减一个标准差将被试分为高生命意义感P水平组(高于平均数加一个标准差的被试)、低生命意义感P水平组(低于平均数减一个标准差的被试)与中生命意义感P水平组（介于两组之间的被试）三组，采用分组回归的方式考察压力与自我效能感的关系，结果如图所示：随着生命意义感P水平的升高 , 压力对自我效能感的负向预测作用逐渐变强 (由B=-0.09 , p < 0.001 减弱为B=-0.17,p < 0.001)。

干货 | 利用SPSS进行高级统计分析第三期（更新）

Hello，

这里是行上行下，我是喵君姐姐~

在第一期中，我们主要介绍了如何对数据进行描述、卡方&T检验、独立样本t检验、相关样本t检验、回归分析；

第二期中，我们介绍了如何进行中介、调节分析，以及方差分析。

在这一期中，我们主要介绍 EFA、CFA分析以及结构方程模型。

一、EFA

1. Spss操作

EFA是降维，也就是将多个变量变成几个维度/因子，常用于量表编制中——将某几道题目聚成一个维度。一方面，需要极强的理论支撑；另一方面，研究者的个人理解、方法选择都会影响结果。

勾选KMO和球形检验

KMO: Keiser-Meyer-OlkinMeasure of sample adaquacy ：体现观测变量间的偏相关性，比较简单相关系数和偏相关系数的大小，0-1之间，需要超过0.6，越大越好。

Bartlett’s test of sphericity(球形检验 ) ，一般相关矩阵中的相关系数必须显著高于0。

提取因子的方式有很多，请参考前人文献进行选择。

因子分析中是否需要旋转，根据假设/理论模型中的因子间是否有相关关系进行选择。

2. 图表解读

确认KMO和巴特利特检验后，看总方差解释。

总方差解释主要关注— 特征根/特征值：所有变量的因素载荷平方和，针对给定因素的特定值。

对于未旋转的情况，各因子的载荷量及总载荷量均有体现，如下图中，前六个因子共解释了57.64%。

当旋转后，仅有各因子的载荷量，并无总体载荷量。

接下来是碎石图，主要看拐点，即从某个点开始，斜率出现显著变化。一般要根据前人研究、假设、总方差解释等共同推断。

接下来是成分矩阵，体现了每个题目与每个因子的相关关系。

若选择了最大方差法旋转，则需要关注【旋转后的成分矩阵】

若选择了直接斜交法旋转，则需要关注【模式矩阵】

对于斜交旋转来说，还可以计算旋转的θ角

3. EFA小结

本部分的个人倾向较重，相同的数据不同人会得出不同的结果，因此一定要慎重。

在删减题目时，要考虑题目本身的意义，题目在数据上的体现（是否有双重载荷、是否毫无区分度、题总相关是否过低）等等进行删减。

此外，在结果报告时，一定要说明选择的提取方法及旋转方法，方便他人理解。

二、CFA

1. Lisrel操作

使用Lisrel进行数据分析前，需要对数据文件格式进行改变，通过lisrel打开数据文件，另存为psf格式

DA NI= 9 NO= 428 【DA NI= 变量数 NO= 被试数】

RAW= MIL.psf 【RAW= 数据文件的名字】

MO NX= 9 NK= 2 【MO NX= 题目数 NK= 维度数】

FR LX 2 1 LX 4 1 LX 7 1 LX 8 1 LX 9 1 LX 1 2 LX 3 2 LX 5 2 LX 6 2 【哪个题目对应哪个维度，如LX 2 1 的意思是，第2题，对应第一个维度】

LK【命名维度】

LK1 LK2

PD【输出】

OU SS MI

或者

DA NI= 20 NO= 1321 【DA NI=变量数 NO=被试数】

RAW= RRESAQ.psf 【RAW=数据文件是哪个？需要另存】

MO NX= 20 NK= 5 【MO NX=题目数 NK=维度数】

PA LX 【哪个题目对应哪个维度，如1（0，0，0，0，1）代表了第一题在第五个维度上】

1(0,0,0,0,1)

1(0,1,0,0,0)

2(0,0,0,0,1)

2(1,0,0,0,0)

1(0,0,0,1,0)

1(0,1,0,0,0)

1(1,0,0,0,0)

1(0,0,0,1,0)

2(1,0,0,0,0)

1(0,0,0,0,1)

1(0,0,0,1,0)

1(1,0,0,0,0)

3(0,0,1,0,0)

2(0,1,0,0,0)

LK 【命名维度】

LX1 LX2 LX3 LX4 LX5

PD【输出】

OU SS MI

2. Lisrel输出

运行后的输出文件直接全选粘贴进word文档，对如下参数进行查找及报告：/df、GFI、RMSEA、CFI、AGFI；

要求：

/df < 5

Goodness of Fit Index （GFI）> 0.90

Root Mean Square Error of Approximation 平均残差（RMSEA）< 0.08

Comparative Fit Index (CFI) > 0.90

Adjusted Goodness of Fit Index (AGFI) >0.80

或：同时满足：CFI > 0.95；RMSEA < 0.05；/df<3

参考文献：Hu, Li‐tze, & Bentler, P. M. . (1999). Cutoff criteria for fit indexes in covariance structure analysis: conventional criteria versus new alternatives. Structural Equation Modeling, 6(1), 1-55.

三、结构方程模型

有一个自变量和一个因变量的

DA NI= 6 NO= 200

ROW= DATA

SE

【SE代表选取里面用哪几个变量】

1 4 5 6/

【斜杠要加，先写Y的指标，再写X的指标】

MO NX= 3 NK= 1 NY= 1 NE= 1 T E=Ze ro ( default= DI ，F R)

【MO=model，模型NX=X变量的因子数，NK=几个x变量，NY=Y变量的因子数,NE=几个y变量，TE=ZERO：单因子的Y变量的测量误差（x为TE）】

FR LX 1 1 LX 2 1 LX 3 1 LY 1 1

【说明潜变量与显变量的关系，LX11的意思是，第一个显自变量对应对第一个潜自变量】

LK

【命名左边X】

XXXX

【X的左边名字】

LE

【命名右边Y】

YYYY

【Y的右边名字】

PD

【输出】

OU AL

一个X，多个Y（中介）

DA NI=9NO=200

【数据情况介绍】

LA

【对所有变量命名】

Y1 Y2 Y3 Z1 Z2 Z3 X1 X2 X3

ROW=DATA.dsf

【数据文件提取】

SE

SE

1 2 3 4 5 6 7 8 9/

【选取变量】

MO NY= 6 NE= 2 NX= 3 NK= 1 BE=FU

【模型：前六个变量（1-6）对应Y，共产生两个Y；接下来三个（7-9）对应X，产生一个X；BE=FU（BE=SD）：两个Y之间有相关】

FR LX 1 1 LX 2 1 LX 3 1 LY 1 1 LY 2 1 LY 3 1 LY 4 2 LY 5 2 LY 6 2 GA 1 1 【第一个X指向第一个Y】

GA 2 1 【第一个X指向第二个Y】

BE 2 1 【算谁与谁之间的相关】

【模型情况：LX 11—LY 6 2 表示了显变量与潜变量的关系，1-3个显x变量表达了第一个潜x变量；1-3个显y变量表达了第一个潜y变量；4-6显y变量表达了第二个潜y变量

GA 代表了潜变量间的关系； GA 2 1 代表第一个潜x变量指向第二个潜y变量

BE 表达的是潜y变量间的关系，BE 2 1 代表第一个潜y变量指向第二个潜y变量】

FI LX 1 1 LY 1 1 LY 4 2

【规定固定参数，LX 1 1将第一个显x变量对第一个潜x变量的负荷固定；LY 1 1将第一个显y变量对第一个潜y变量的负荷固定；LY 4 2将第四个显y变量对第二个潜y变量的负荷固定】

VA 1 LX 1 1 LY 1 1 LY 4 2

【固定负荷为1，LX 1 1将第一个显x变量对第一个潜x变量的负荷固定；LY 1 1将第一个显y变量对第一个潜y变量的负荷固定；LY 4 2将第四个显y变量对第二个潜y变量的负荷固定】

LK【为潜x变量命名】

XXXX

LE【为潜y变量命名】

YYY1 YYY2

PD

【输出模型图】

OU AL

【OU 结果输出】

本期的内容就到此结束啦！

在本期中，我们为大家介绍了EFA、CFA分析以及结构方程模型。

分享完毕，希望有所帮助。

排版：华华

校对：喵君姐姐

干货 | 利用SPSS进行高级统计第二期（更新）

Hello，

这里是行上行下，我是喵君姐姐~

在上一期中，我们主要介绍了如何对数据进行描述、卡方&T检验、独立样本t检验、相关样本t检验、回归分析。

在这一期中，我们主要为大家介绍如何利用SPSS进行中介、调节分析以及方差分析。

一、多个变量间关系：中介

（一）回归方程法

1.算三个回归方程

1）自—因

2）自—中

3）自、中—因

2.数据分析

第一个回归，分析的是自变量对因变量的总体效应。

第二个回归，是自变量对中介变量的效应

第三个回归，是自变量、中介变量对因变量的效应

本研究以性格特征为自变量，政治社会现状评价为因变量，时政类信息兴趣程度为中介变量进行中介效应检验。

结果表明，时政类信息兴趣程度在性格特征和政治社会现状评价之间起着中介作用，如图所示。性格特征通过时政类信息兴趣程度的中介作用能够显著正向预测政治社会现状评价，B=0.013，SE=0.002，β=0.123，p<0.001。

参考文献：

温忠麟, & 叶宝娟. (2014). 中介效应分析:方法和模型发展. 心理科学进展 , 022 (005), 731-745.

3.画图注意事项

1）可以在ppt里面画，这样图会更好看也更好编辑~

2）一般都标注标准化系数，同时需要在图中注明

3）一般来说，显著的用实线，不显著的用虚线

（二）Process插件法：Model4

1. 首先是对模型的一个介绍

使用的是model4

因变量、自变量、中介变量分别对应的是什么

样本量多少

2. 以中介变量为被预测变量，自变量为预测变量的回归方程，模型概要（model summary），看R F df p；模型（model），coeff是B，se是标准误，p，LLCI和ULCI是置信区间（置信区间不含零为显著）标准化系数（Standardizedcoefficients）是β

3. 以因变量为被预测变量，自变量及中介变量为预测变量的回归方程，模型概要（model summary），看R F df p；模型（model），coeff是B，se是标准误，p，LLCI和ULCI是置信区间（置信区间不含零为显著），标准化系数（Standardizedcoefficients）是β

4.总体效应

以因变量为被预测变量，自变量及中介变量为预测变量的回归方程，模型概要（model summary），看R F df p；模型（model），coeff是B，se是标准误，p，LLCI和ULCI是置信区间（置信区间不含零为显著），标准化系数（Standardizedcoefficients）是β

5. 接下来是自变量对因变量的总体、直接和间接效应

自变量对因变量的总体效应=自变量为预测变量，因变量为被预测变量回归方程的系数；

自变量对因变量的直接效应=自变量、中介变量为预测变量，因变量为被预测变量回归方程的系数；

自变量对因变量的间接效应=总体效应-直接效应

部分标准化：效应量/Y的标准差

完全标准化：所有变量的标准化

6. 最后是模型及误差的简介

置信区间及bootstrap抽样情况

结果：参照Preacher 和Hayes (2004)提出的Bootstrap 方法进行中介效应检验(模型4)，样本量选择5000，在95%置信区间下，其余如上。

参考文献：Preacher, K. J. ,& Hayes, A. F. . (2004). Spss and sas procedures for estimating indirecteffects in simple mediation models. Behavior Research Methods, Instruments & Computers, 36 (4), p.717-731.

二、多重中介

（一）Process插件法：model4

结果解读与一般中介一致。

多重中介的图大概如下：

图x 多重中介效应分析图（上述均为标准化后系数）

三、链式中介

（一）Process插件法：model6

四、调节作用

中心化：原始数据-均值

拆分文件：spilt

（一）线性回归法

1.Spss操作

1）算自变量、调节变量z分数

2）计算自变量与调节变量z分数的交互项（乘积）

3）算回归方程

以因变量为被预测变量，以自变量、调节变量为第一层预测变量，两者交互项为第二层预测变量。

2.Spss结果解读

以性格特征为自变量，谈论频率为调节变量，政治社会现状满意程度为因变量进行调节作用分析，发现性格特征能够显著正向预测政治社会现状满意程度（B=0.02，SE=0.002，β=0.14，p=0.000）；谈论频率能显著负向预测政治社会现状满意程度（B=-0.05，SE=0.026，β=-0.04，p=0.043）；两者交互项不能显著预测政治社会现状满意程度（B=-0.03，SE=0.016，β=-0.05，p=0.825），故性别的调节作用不存在。

3.画交互作用图：对调节变量做高低分组

高分组：平均值+一个标准差

低分组：平均值-一个标准差

高分组：平均值+标准差=3.51

低分组：平均值—标准差=2.02

拆分文件，做回归

再做一次回归，画图即可

Y=常数项+Bx*X+B调节变量*调节变量+B交互项*交互项

（二）Process插件法：model1

1.Spss操作

2.Spss结果解读

模型介绍：

模型：模型一，因变量、自变量、调节变量

样本数量

结果：

基本模型概要：R²、F、p

模型：B、SE、t、p、置信区间

加入交互项的模型概要：ΔR²（R2-chng）、F、p

画图使用的数据：

Q19 Q17 Q8

自变量调节变量因变量

将标灰色这段复制，粘贴进语法中，运行，出现spss自己画的图，仅供参考。

仍然建议将原始数据放入excel中，自行画图。

五、有调节的中介

（一）线性回归法

算两组交互项自*调中*调

1.自、调、自*调—因

2.自、调、自*调—中

3.自、调、自*调、中、中*调—因

（二）Process插件法

操作方式及结果解读与调节、中介一致~

六、方差分析

（一）单因素方差分析【组间实验+单一因变量；进行差异检验】

1.差异检验

1) Spss操作

2) Spss结果

方差齐性结果为显著，说明方差不齐，事后检验看邓肯尼T3的结果；

方差齐性结果为不显著，说明方差齐性，事后检验看其他结果。

对不同来源的问卷进行政治社会满意度的差异检验，结果发现，不同来源的政治社会满意度存在显著差异，F（5，2373）【（组内，组间）】=47.43，p<0.0001，

，具体表现为问卷网（M=3.69，SD=0.81）显著高于新浪微博（M=2.57，SD=1.103）……

2.组间实验

1) Spss操作

为了进行交互作用的事后比较，勾选后选择粘贴，在语法中添加事后比较。

但由于本数据两自变量均为二分变量，因此无法进行事后比较，在此仅进行操作展示

方差不齐，选择修正模型

性别的主效应：结果发现，男性的满意度（M，SD）显著低于女性的满意度（M，SD），F，p，

政治面貌的主效应：与性别一样：结果发现，党员的满意度（M，SD）显著高于非党员的满意度（M，SD），F，p，

交互作用分析：结果发现，对于党员群体来说，男性（M，SD）女性（M，SD）的满意度无显著差异，F，p，

；对于非党员群体来说，男性的满意度（M，SD）显著低于女性（M，SD），F，p，

。

七、多因素方差分析

1. Spss操作

2. spss结果

解读与单因素方差分析一致。

八、重复测量方差分析

1. Spss操作

2. Spss结果

重复测量方差分析的解读与单因素方差分析解读基本一致，但需要注意：

球形检验：显著看多变量检验（multivariatetest），不显著看主体内效应（withinsubject）

九、方差分析小结

方差分析是实验法进行数据分析的重要分析方法，需要根据实验设计及变量情况选择单因素、多变量、重复测量方差分析；最简单的选择方式即为：多个因变量的用多变量；含组内变量的一律选择重复测量方差分析。

在进行数据分析时一定要注意：方差齐性检验、球形检验。

此外，当进行数据解读时，若主效应、交互作用不显著，一般无需进行事后比较。

除了语言描述的方式，直方图是方差分析的常用表达方式，也有简单效应的表达方式（尤其是体现交互作用）

本期的内容就到此结束啦！

本期我们介绍了如何利用SPSS进行中介、调节分析以及方差分析。

在下一期中，我们将继续介绍如何进行EFA分析和CFA分析。

分享完毕，希望有所帮助。

排版：华华

校对：喵君姐姐

我需要SPSS统计分析实例，是要写500字左右论文的

运用逐步回归法
分析影响上海银行存款的因素

1.目的和意义
在现代商品经济社会中，人们的工作与生活已经离不开货币。在生活中人们所需的各种商品，都需要用货币去购买；人们所需的各种服务，也需要支付货币来获得；人们劳动工作的所获得的报酬——工资，也是用货币支付的；人们为了种种目的，要积累财富，保存财富，采用的主要方式是积攒货币、到银行储蓄。除个人外，企业、行政事业部门的日常运行同样也离不开货币。财政收支也都是用货币进行的。可见，货币已经融入了并影响这经济运行和人们的生活。作为经营“货币”这种商品的银行的功能是办理各种存款（也称为负债业务）、放款和汇兑业务，其中商业银行所吸收的各种存款（活期、定期、储蓄）约占银行资金来源的70%～80%，为银行提供了绝大部分的资金来源，并为实现银行各职能活动提供了基础。所以说，银行存款对银行本身的生存和发展有着重要意义，除此之外，银行存款也能反映出一个特定时期人们的生活水平以及经济发展的水平。因此对上海的银行存款的分析是非常重要且必要的。本文将介绍运用SPSS11.5统计分析软件中的逐步回归法对影响上海银行存款的因素进行分析研究并建立模型，为相关专业人士的决策提供一定参考。

2.影响银行存款的因素分析
存款作为银行吸收资金来源的主要业务，其之影响因素非常的多。从中我选取了10个主要因素的（1951年至2000年）数据运用SPSS的逐步回归法分析和研究它们对上海银行存款的影响程度。这10个因素分别是全市居民储蓄（亿元）、从业人数（万人）、全市居民消费水平（元/人）、全市银行贷款（亿元）、全社会固定资产投资总额（亿元）、职工工资总额（亿元）、职工劳保福利费用（万元）、社会消费品零售总额（亿元）、外贸出口商品总额（亿美元）、全市财政收入（亿元）。上海全市银行存款及影响其的10个因素的1951年至2000年的数据见下表2.1。

表2.1上海全市银行存款数据（1951年～2000年）
年份全市银行存款（亿元）全市居民储蓄（亿元）从业人数（万人）全市居民消费水平（元/人）全市银行贷款（亿元）全社会固定资产投资总额（亿元）职工工资总额（亿元）职工劳保福利费用（万元）社会消费品零售总额（亿元）全市财政收入（亿元）外贸出口商品总额（亿美元）
1964 33.29 8.64 438.31 270 45.27 7.22 19.40 33117 26.55 73.35 6.52
1965 37.66 9.98 460.76 276 49.77 7.75 20.07 33819 27.13 83.18 7.65
1966 40.18 10.68 462.62 298 62.52 7.23 19.74 34536 28.72 92.49 8.74
1967 43.58 10.60 478.39 300 71.82 4.61 20.22 35268 30.78 73.97 8.42
1968 50.25 10.56 516.44 293 85.32 4.58 19.75 36016 29.94 83.98 8.49
1969 57.42 10.18 536.70 309 82.12 7.45 21.06 36780 32.57 102.30 8.76
1970 142.41 10.47 540.87 304 76.05 10.90 20.63 37560 31.85 114.02 8.67
1971 155.28 11.29 560.29 318 88.74 11.36 21.14 38356 32.91 123.53 9.81
1972 167.81 12.51 576.74 334 99.41 13.23 22.08 39169 36.15 129.11 13.30
1973 175.86 13.13 589.52 357 112.66 16.24 22.37 39999 39.79 138.18 23.16
1974 178.21 13.85 610.16 380 125.13 22.43 22.80 40847 44.06 143.04 24.39
1975 185.09 14.66 646.88 397 129.61 32.53 23.49 41737 47.71 147.11 22.20
1976 182.60 15.37 669.56 408 133.97 23.96 24.79 46531 49.98 144.42 19.78
1977 205.30 16.00 679.65 411 143.19 18.00 24.97 49797 49.28 159.91 22.21
1978 242.93 18.18 698.32 442 153.37 27.91 28.12 57424 54.10 190.67 28.93
1979 267.92 24.88 712.59 527 165.16 35.58 32.73 81664 68.28 192.75 36.75
1980 291.06 30.20 730.77 582 200.98 45.43 38.10 94004 80.43 198.85 42.66
1981 148.85 32.92 750.22 638 221.98 54.60 39.59 102061 88.73 204.52 38.07
1982 170.56 37.94 764.03 640 227.77 71.34 41.34 113909 89.80 200.69 36.05
1983 190.73 45.97 768.90 688 239.50 75.95 42.91 127679 100.68 204.34 36.48
1984 222.51 56.10 769.79 789 245.35 91.72 53.72 152282 123.72 215.79 35.87
1985 261.09 70.09 775.53 1030 306.27 118.56 68.99 190217 173.39 263.86 33.61
1986 324.81 90.95 782.99 1190 427.66 146.93 83.35 233574 196.84 257.72 35.82
1987 396.38 120.33 788.12 1298 523.35 186.30 94.78 286323 225.25 241.36 41.60
1988 419.68 141.21 792.13 1680 576.11 245.27 114.47 391974 295.83 261.69 46.05
1989 473.73 193.47 784.96 1928 698.71 214.76 131.10 437789 331.38 297.25 50.32
1990 613.86 252.16 787.72 2009 857.76 227.08 146.78 533797 333.86 284.36 53.21
1991 769.95 328.22 798.13 2421 1008.82 258.30 172.84 670676 382.06 324.66 57.40
1992 1051.45 413.09 806.91 2842 1213.32 357.38 217.21 804903 464.82 340.13 65.55
1993 1495.06 578.39 787.25 4162 1605.57 653.91 279.33 1038701 624.30 439.53 73.82
1994 2247.56 975.95 786.04 5343 1966.96 1123.29 357.89 1241344 770.74 615.91 90.77
1995 3056.76 1396.13 794.19 6712 2387.33 1601.79 440.75 1496034 970.04 702.46 115.77
1996 3870.98 1868.34 851.21 7742 2852.66 1952.05 492.70 .30 873.76 132.38
1997 5560.65 2729.57 847.25 8699 3722.30 1977.59 510.10 .21 1070.95 147.24
1998 5595.43 2372.94 836.21 9202 4259.71 1964.83 510.35 .03 1146.00 159.56
1999 6270.91 2597.12 812.09 10328 4862.03 1856.72 583.54 2095239 1590.38 1390.58 187.85
2000 6925.99 2524.05 828.35 11546 5415.71 2015.76 614.53 2521553 1722.27 1752.70 253.54
注：该表数据来源：《上海统计年鉴》

2.1全市居民储蓄（亿元）
个人货币收入是用来供个人消费的，积蓄是准备用作远期消费或不可预测的需要，它们都不是资本，金额也比较小。由于现代银行制度的发展，举办储蓄，并支付利息，小额的货币收入就可以转化为资本，从而扩大了社会资本总量，加速经济的发展。由表2.1可看到，随着社会经济的发展和人们收入的不断提高，全市居民储蓄从1951年的1.01亿元增加至2000年的2524.05亿元，特别是1985年之后呈快速增长趋势。可见社会公众的储蓄增长会提高银行盈利资产的规模，一定程度上使商业银行获得更多的收益。所以，全市居民储蓄对银行存款有着直接而深远的影响。

2.2从业人数（万人）
从业人数是指在全市各行各业的企事业单位中从事工作人数的总和，其包括了国有、集体、合资、独资等其他单位的从业人员，城镇个体劳动者，农村集体和个体劳动者以及其他劳动者。从表2.1可知，从业人数是呈稳定增长趋势的，这与全市人口的增加有着极大的关系。上海近十几年经济的飞速发展和国际大都市的形象，吸引了大批的外来人口（外地和外国）来沪居住、创业以及工作。随着全市企业数量的不断增加，从业人数也在不断的增加。从业人数的多少与银行存款有着紧密的联系，因为每个从业人员都会有自己的收入，不管收入的多与寡，他们每个人都会在银行拥有一个以上的帐户并利用存折、借计卡来取工资或办理各种活期、定期的储蓄或取款；利用信用卡刷卡消费或提款。

2.3全市居民消费水平（元/人）
居民消费水平是指居民在物质产品和劳务的消费过程中，对满足人们生存、发展和享受需要方面所达到的程度。通过消费的物质产品和劳务的数量和质量反映出来。反映居民消费水平的主要指标有：
(1)平均实物消费量指标：平均每人全年主要有消费品的消费量、平均每百户耐用消费品拥有量、人均居住面积、平均每人生活用水量、平均每人生活用电量等；
(2)现代化生活设施的普及程度指标：自来水普及率、煤气普及率、平均每百户主要家用电器拥有量、电话普及率等；
(3)反映消费水平的消费结构指标：居民生活消费支出中食品的比例、居民生活消费支出中文化生活服务支出比例、不同质量消费品的消费比例等；
(4)平均消费量的价值指标：平均每人消费基金、平均每人生活消费额、平均每人用于各项生活消费的支出等。
从表2.1中可以看到1990年以后的居民消费水平有了大大的提升，可见人们的生活质量随着改革开放的步伐的加快也越来越好。

2.4全市银行贷款（亿元）
贷款，又称放款，是银行将其所吸收的资金，按一定的利率贷给客户并约定归还期限的业务。虽然银行运用资金的方式不止贷款一种，但是贷款是商业银行在其资产业务中的比重一般占首位。通过贷款联系，银行可密切与工商企业往来联系，有利于拓宽业务领域，获得更多的利润。银行贷款的种类按不同的标注至少又以下几类：按期限分为短期贷款、中期贷款和长期贷款；按用途可分为投资贷款、商业贷款、消费贷款和农业贷款；按贷款是否有抵押品分为：抵押贷款和无抵押贷款；按换款的方式分为：一次偿还贷款和分期偿还贷款。从表2.1可知，银行贷款不断的大幅度增加，表明了经济的快速发展和人们消费理念的变化。

2.5全社会固定资产投资总额（亿元）
固定资产投资总额是以货币表现的建造和购置固定资产活动的工作量，它是反映固定资产投资规模、速度、比例关系和使用方向的综合性指标。全社会固定资产投资包括基本建设投资、更新改造投资、国有单位其他固定资产投资、房地产开发投资、城镇集体固定资产投资、联营经济、股份制经济、外商投资经济、港澳台投资经济及其他经济类型的固定资产投资，农村集体5万元以上固定资产投资，城镇工矿区私人建房投资和国防、人防基本建设投资。
全社会固定资产投资按经济类型可分为国有、集体、个体、联营、股份制、外商、港澳台商、其他等。按照管理渠道，全社会固定资产投资总额分为基本建设、更新改造、房地产开发投资和其他固定资产投资四个部分。
是社会固定资产再生产的主要手段。通过建造和购置固定资产的活动，国民经济不断采用先进技术装备，建立新兴部门，进一步调整经济结构和生产力的地区分布，增强经济实力，为改善人民物质文化生活创造物质条件。这对我国的社会主义现代化建设具有重要意义。
从表2.1可知，固定资产投资的总额是呈不固定态势来增长的，2000年的固定资产投资总额比1900年的增长8.8倍，非常真实地反映了上海在上世纪90年代经济的腾飞。

2.6职工工资总额（亿元）
职工工资总额是指各单位在一定时期内直接支付给本单位全部职工的劳动报酬的总和，包括奖金、津贴、补贴、加班工资和其他工资（附加工资、保留工资以及调整工资补发的上年工资等）。职工工资从某种程度上来说是市民收入的主要来源。而收入比较高的话，居民用于消费和储蓄的金额也会有相应的提高，所以职工工资直接影响着银行存款。

2.7职工劳保福利费用（万元）
劳保福利是指劳动保险和福利。为了保护工人职工的健康，减轻其生活中的困难，我国对劳动保险制定了相应的法律条文。福利指员工与工人福利之总称，亦指以企业员工为对象而实施的福利措施，包括法定的福利，企业主与工会所实施的提高职工生活水准的各种措施。由表2.1可知，2000年，单位支付职工劳保福利费用的总额已经达到2521553万元，并且其比例每年以3％～8％的速度增长，已高达67.9％，这一数据说明人们的基本生活标准可以得到保障，从而有更多的钱用于其它的消费和用于储蓄存款或其他金融投资。

2.8社会消费品零售总额（亿元）
社会消费品零售总额是指各种经济类型的批发零售贸易业、餐饮业、制造业和其他行业对城乡居民和社会集团的消费品零售额和农民对非农业居民零售额的总和。包括售给城乡居民用于生活消费的商品(不包括住房)和售给机关、团体、部队、学校、企业、事业单位和城市街道居民委员会、农村村民委员会用公款购买的用作非生产、非经营使用的消费品。这个指标反映通过各种商品流通渠道向居民和社会集团供应生活消费品来满足他们生活需要的情况，是研究人民生活、社会消费品购买力、货币流通等问题的重要指标。

2.9全市财政收入（亿元）
财政既然要提供公共物品来满足公共需要，就要从国内总收入（GDI——与生产指标GDP相对应的收入指标）中集中一部分收入，从这个意义上来理解，财政收入是指一定量的货币收入，即国家占有的以货币表现的一定量的国内总收入；财政收入又可以理解为一个分配过程，这一过程是财政运行的第一个阶段或第一个环节，在其中形成特定的分配关系或利益关系。财政收入按其形式分为税收、收费、债务收入、铸币税和通货膨胀税。财政运行是国民经济的运行的一个部分，国民经济的运行决定了财政的运行，而财政的运行也反过来影响国民经济的运行，直接影响投资、消费和进出口，影响GDP的增长和结构，影响收入分配和各阶层之间的收入差距，影响经济的稳定和可持续发展。

2.10外贸出口商品总额（亿美元）
对外出口贸易一直以来是上海经济发展的重要环节及体现，也是赚取外汇，达到国际收支平衡和增加国际储备的前提条件。随着中国加入WTO，上海的对外贸易也越来越频繁且出口的商品数量和金额也大大的提高。目前国际货物买卖合同中买卖双方就支付条款的订立大多都通过银行采用现汇结算的方式。在国际货物买卖中使用的结算工具主要是货币和票据，而银行作为买卖双方的结算中介为其办理汇兑业务、信用证业务、承兑业务。前两者是银行存款业务衍生出来的结算业务，而承兑业务是以银行的信用来确保客户的信用。到2000年底，一般贸易出口增幅继续高于加工贸易，而出口产品结构调整也随之加快，高新技术产品和机电产品出口快速增长。

3.回归方法与模型建立
3.1研究方法与原理
运用多元线性逐步回归方法研究预测影响上海的银行存款的因素。逐步回归是按自变量对因变量的作用程度从大到小逐个引入回归方程，每引入一个变量同时检验方程中各个自变量的显著性，合格保留、不显著剔除，反复进行直到再没有显著的变量可以引入为止。回归分析是根据自变量的最有组合建立回归方程（模型）预测因变量的未来发展趋势。
该方法的运用条件是有大量的观测统计数据，适用研究没有确定关系形式的因素对象，运用工具为SPSS统计软件。

3.2模型的建立及求解
因为银行存款与大部分变量呈指数关系，所以把表2.1的各个原始变量的50年数据进行对数变换（LN10()），并且把转换后的样本数据倒退8年后来建模。
设多元线性回归的模型为：
lnY=β0+β1X1+β2X2+β3X3+…+β9X9+β10X10
其中：
Y：全市银行存款（亿元）
X1 ——全市居民储蓄（亿元） X6 ——职工工资总额（亿元）
X2 ——从业人数（万人） X7 ——职工劳保福利费用（万元）
X3 ——全市居民消费水平（元/人） X8 ——社会消费品零售总额（亿元）
X4 ——全市银行贷款（亿元） X9 ——全市财政收入（亿元）
X5 ——全社会固定资产投资总额（亿元） X10 —— 外贸出口商品总额（亿美元）

注：模型中倒退的年数用（t－n）表示，其中n表示倒退几年。（t－n）不参与任何计算，它只做标识之用。
利用SPSS11.5对样本数据进行统计分析，运行后的输出的结果如表3.2.1所示。

表3.2.1 逐步回归统计分析结果 Coefficients
Model Unstandardized Coefficients Standardized Coefficients t Sig.
B Std. Error Beta
18 (Constant) -.994 1.012 -.982 .334
居储7 .692 .146 .595 4.741 .000
从人1 1.386 .604 .216 2.294 .029
固投6 -.285 .046 -.280 -6.246 .000
财政4 -.634 .146 -.289 -4.358 .000
银贷4 1.007 .100 .813 10.057 .000
劳福2 -1.396 .189 -1.221 -7.380 .000
工资1 1.053 .232 .754 4.531 .000
财政3 -.670 .134 -.311 -5.005 .000
从人8 -2.413 .336 -.485 -7.184 .000
从人2 2.954 .670 .479 4.406 .000
银贷2 .520 .110 .440 4.703 .000
劳福6 .418 .193 .305 2.168 .039

即回归模型为：
lnY＝0.595X1（t－7）＋0.216X2（t－1）－0.28X5(t－6) －0.289X9（t-4）＋0.813X4（t－4）－
1.221X7（t-2）＋0.754X6(t-1) －0.311X9(t-3) －0.485X2(t-8) ＋0.479X2(t-2) +
0.44X4(t-2) ＋0.305X7(t-6)
所以，在倒退8年的50年数据样本中，银行存款的增长与前7年的全市居民储蓄，前1年、前8年、前2年的从业人数，前6年的全社会固定资产投资总额，前4年和前3年的全市财政收入，前4年和前2年的银行贷款，前2年和前6年的职工劳保福利费用，前1年的职工工资总额等因素之间有显著意义的相关关系。

4.结论和评价
4.1模型评价
4.1.1进入因素的分析

表4.1.1.1 Variables Entered/Removed(a)

Model Variables Entered Variables Removed Method
1 居储7 . Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).
2 工资7 . Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).
3 固投8 . Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).
4 从人1 . Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).
5 . 工资7 Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).
由于SPSS11.5软件通过特定程序对上海市相关数据进行整体的统计运算，所以具有更强的客观性和公证性。从上表中可以看出，按自变量对因变量的作用程度从大到小首先引入的是前7年的居民储蓄，等到第五步时把之前进入的前7年的职工工资给剔除了，再后面的第14和第17步中把前8年的固定投资和前3年的银行贷款给剔除了。这3个被剔除的变量在引入变量越来越多的情况下被检验出其显著性不合格。除此之外，在10个自变量中，诸如全市居民消费水平、社会消费品零售总额、外贸出口商品总额没有进入模型。因为的外贸出口商品总额涨幅没有达到足以进入方程的显著性，所以被剔除了。不过，随着贸易全球化和中国国际地位的提高，上海的外贸出口总额也会不断的增加，在不久的将来会对银行存款起明显的作用。
我们可以从表3.2.1看到，在进入的因素中全社会固定资产投资总额、财政收入、前2年的职工劳保福利费用、前8年的从业人员与银行存款是负相关，即随着它们的增加加快，银行存款的增长会减慢，其中前2年的职工劳保福利费用影响最强，其系数为-1.221。前8年的从业人员、财政收入、全社会固定资产投资总额的影响顺次递减。比如说，全社会固定资产投资总额增加，表明了国有、集体、个体、联营、股份制、外商、港澳台商提供了对基本建设、更新改造、房地产开发投资和其他固定资产投资额，那么他们必须从银行拿出自己的存款，有时还需要向银行进行贷款来完成投资，所以银行的存款量会增加缓慢是可以想象的。又比如说财政收入，政府的财政收入是通过税收、收费等途径获得，如果国家对个人、企业所征取的税越多的话，个人与企业的支出就会增加，净收入也就变少了，而如果其用于消费的指出不变或提高的话，那么其用于银行存款的货币就会相应减少，从而导致全市银行存款的递增缓慢。
而居民储蓄、银行贷款、职工的工资、前1年和前2年的从业人员、前6年的职工劳保福利费用与银行存款呈正相关，即随着它们的增加加快，银行存款的增长也会加快，其中前四年的银行贷款的影响最强，其系数为0.813，其次是居民储蓄等等。比如说，职工工资的增加会使得人们的收入上升，收入上升后虽然有一部分会被用来支付消费，但绝大部分人们还是会把钱存入银行，用于各种类型的投资，这种行为使得银行存款的增加加快。又如：居民储蓄的增加，当然会直接影响银行存款量的增加，这是勿庸置疑的，因为居民储蓄是银行存款业务的主要内容，它是银行吸收资金的主要方式。再如：经济的发展会使得银行贷款量上升，银行想要通过贷款给个人或企业客户来获得更多利润，那么银行就会运用各种手段来增加吸引资金量。在这种情况下，社会上的闲置资金由于较高的收益而会流向银行，使得银行存款增加速度加快。

从表4.1.2.1中我们可以看到，随着进入的变量越多，F值由大变小，然后再由小变大，使得最后一步的F值达到1191.379，表明回归模型包括12个变量，且拟合度较高。

4.1.3自相关问题的诊断
DW值一般要求1.5～2.5时，残差与自变量互为独立。从表4.1.3.1可见回归模型的DW值为2.342，说明该模型无自相关的问题，此模型可以被使用。
表4.1.3.1 Model Summary(s)
Model R R Square Adjusted R Square Std. Error of the

4.1.4样本检验
表4.1.4.1
年份取对数值（y1）取对预测值（y2）相对误差（％）
2001 3.93 4.05 3.05
2002 3.98 4.17 4.77
2003 4.09 4.32 5.62
以上的样本检验的相对误差的计算方法是用2001年～2003年各个取对预测值减去对应的取对数值之后再除以取对数值后得到的。其公式：
相对误差＝(y2-y1)/y1×100%
样本检验的相对误差需不大于10%，表示所建立的模型是可以使用的。表4.1.4.1中的所计算的相对误差的都小于10%，说明模型建立的较好。

4.1.5残差正态性检验

图4.1.5.1 银行存款对数的标准化残差直方图
图4.1.5.1表明：标准化残差的正态曲线的均值为0，标准差为0.84，接近标准正态曲线，基本满足随机误差项正态分布的假设理论，模型拟合效果比较好。

4.1.6银行存款对数的正态概率图和残差散点图

图4.1.6.1 正态概率图

图4.1.6.2 散点图
图4.1.6.1表明：代表样本残差的数据点基本处在表示指定正态分布的直线上或周围，因此基本符合残差正态分布的假设理论。
图4.1.6.2表明：残差散点的分布随机均匀，且大多落在水平直线－2和2之间，所以可以判断残差与因变量之间相互独立性较高，基本满足残差独立的假设理论，模型的拟合效果比较好。

4.2结论
综上所述，商业银行的存款不断的增加，可以反映上海居民的收入在不断地增加、生活品质也在不断的提高，更可以从侧面反映上海金融的飞速发展和经济的繁荣。我国加入世贸组织后，金融对外开放程度加深，国内各银行之间、外资银行与中资银行之间的竞争越来越激烈，而存款是竞争的重要领域。随着我国国民物质生活的丰富，消费观念的变化，投资渠道的增多，这些因素将深刻地影响客户存款需求的特性。目前我国商业银行负债以存款为主，负债结构单一，缺乏稳定性；同时银行特别是国有商业银行由于历史和体制的原因，存在资产质量差，不良贷款率高，资本金不足等问题，使得我国银行业积聚了大量的风险。因此，我国商业银行的存款产品必须进行契约设计的改进，完善其中的激励与约束对等的机制设计，创新存款产品种类，满足不同客户的个性化需求；同时要提高存款的稳定性。上海作为全国的金融中心，应该顺应时代的进步建立一个合理的金融体系并完善其制度，而商业银行作为金融的重要环节应不断地对自身进行改革和创新更好地为个人和企业客户服务，这对于上海人民的生活水平的提高和经济的稳定发展具有重要的意义和作用。

参考文献
[2]黄达.金融学[M].北京：中国人民大学出版社，2004
[3]郑道平.货币银行学原理[M].北京：中国金融出版社，2005
[4]陈共.财政学[M].北京：中国人们大学出版社，2004
[6]彼得·K·奥本海姆，官青译.跨国银行业务[M].北京：中国计划出版社.2001
[6]上海统计年鉴.