首页

毕业论文

首页 毕业论文 问题

stata回归分析毕业论文

发布时间:

stata回归分析毕业论文

我看了,这是一个关于软件的问题,我也不太懂这种方面的问题,也不好和你乱回答,只能是提醒你一下,你可以找这一方面相关的专家,或者是老师去问一问

(1)由于F检验的P值为0,模型总体是统计显著的,模型较好(2)R方接近80%,说明模型的拟合度很高,模型较好(3)教育年限变量和工资具有统计显著的正相关关系(原因:t检验的P值为0),其他因素不变,教育年限每增加1年,工资平均增长990元。(4)工作起薪变量和工资具有统计显著的正相关关系(原因:t检验的P值为0),其他因素不变,工作起薪每增加1元,工资平均增长元。(5)性别变量和工资在5%的显著性下相关(我不知道你性别变量怎么设的,一般是男=1,女=0,我按这个写的,如果不是请告知),男性比女性在其他因素不变的情况下平均多1593元工资。

电脑:WIN10

软件:免费

软件:Stata

1、首先,在Stata中输入代码(ssc install asdoc, replace)安装外部命令asdoc。

2、安装完成后,打开我们的数据,小编这里以Stata自带的数据auto为例。

3、下面,小编做一个mpg和weight变量对price变量的回归分析,并把结果直接导出到Word里。输入命令:asdoc reg price mpg weight 。如图所示,Stata会自动生成一个名为“”的文件。

4、点击打开文件,可以看到,我们想要的回归分析结果已经导出到该Word文档里了。

5、之后我们只需要调整下格式即可,是不是很方便呢?

上面左侧的表是用来计算下面数据的,分析过程中基本不用提到

右侧从上往下

of obs 是样本容量

是模型的F检验值,用来计算下面的P>F

>F是模型F检验落在小概率事件区间的概率,你的模型置信水平是,也就是说P>F值如果大于,那么模型就有足够高的概率落在F函数的小概率区间,简单的说,如果这个值大于你这个模型设定有就问题,要重新设定模型

也就是模型的R²值,拟合优度,这个数越大你的模型和实际值的拟合度就越高,模型越好

.R-squard 这个是调整过的R²,跟上面R²差不多,关注一个就行了

mse 是残差标准差,值越大残差波动越大,模型越不稳定(这个值我分析的时候一般不太关注)

下侧表格

然后分析就选取你有用的参数做了,我学经济的,一般最有用的参数就是P>F,coef,P>t,se等等,还有BIC,VIF这些,在简单回归里这些是不会计算的,需要其他命令

本科毕业论文回归stata

你得看人家杂志上的要求。话说只要是国际上承认的统计软件,只要数据符合要求,你想用什么软件就用什么吧。

如果你是做问卷调查类(发放问卷,收集数据<通常学营销的人会这样做>)的,那么就根据你的题项设置变量,并录入数据(通常是用SPSS分析,也有用其他工具比如说Eviews的)。然后做数据的信度和效度检验(此处KMO值是比较重要的),再做基本的描述性统计分析,然后是主成份提取(即因子分析),从多个变量中提取几大因子,结果主要看旋转成分矩阵,然后用几个因子跟因变量做回归,得出影响关系的回归方程。举个例子说,你的问卷中有30个题项(前提是你已经做过小规模问卷测试以验证题项设置的合理性),则对应30个变量X1,X2,......,X29,X30,录入这30个变量的数据,如果你收集了500份问卷,其中420份是有效问卷的话,则你有420条针对30个变量的有效数据。然后做信度效度检验,描述性统计分析,因子分析,假设通过因子分析提取出4个主成份(因子),分别为F1,F2,F3,F4,这个时候对因子命名并将其生成新的变量,然后再将F1,F2,F3,F4和Y做回归分析,得到回归方程,通过R方和系数检验表来判断方程和系数的有效性。这个时候你就能得到影响消费者态度的是哪些因素了。PS:你这里的因变量消费者态度需要量化,在设计问卷的时候要考虑如何量化才有利于后续的分析。

数据可以找找,非得要弄问卷调查吗

研究方法通常可以分为三大类,分别是差异关系,相关关系和其它关系。

参考资料:

毕业论文stata回归不显著

木有一个变量是显著的……所有变量的p值都好大的说~整个模型的p值也很大……结论就是这个模型本身统计不显著,各个变量也不显著。看回归分析结果,你先看右上角那个prob> F,那个是对整个模型的检验,如果这个值比大,就是不显著的。下面那些变量,你就看那个P>|t|的值,如果比大,也是不显著的。其他还有,但你这个结果一看这俩都不行,就不用往下看了。

变量都是代表什么东西,还有数据都是什么。还有你的no. of obs太少了,所以一眼看过去就知道没有一个变量是significant的,数据太少了

一般相关只是单独地分析两个变量之间的相关,它不会去控制其他变量的影响。回归的话如果放入多个自变量做回归,那么看到的某一个自变量的回归系数其实代表的是控制了其自变量(也就是减去了其他自变量对因变量的效应)后的回归,也就是说,并不代表该变量单独对因变量的影响。差别就在于是否控制了所关注变量外的其他变量

一数据缩尾二加控制变量三更换估计方法四替换指标五尊重客观事实

毕业论文回归分析用

毕单是指毕业论文,双变量回归是其中一种常用的统计分析方法。关于双变量回归是否简单,可以从以下四个角度进行解答。首先,从统计学角度来看,双变量回归是一种相对简单的分析方法。在统计学中,回归分析是一种常用的数据分析方法,而双变量回归是其中最简单的一种。相比其他回归分析方法,双变量回归只涉及两个变量之间的关系,分析起来相对容易理解和应用。其次,从数据处理角度来看,双变量回归也是一种相对简单的方法。对于双变量回归的数据处理过程,需要进行数据清洗、变量选取、数据转换等一系列操作,但相比其他回归分析方法,双变量回归的数据处理难度较低,不需要进行特别复杂的处理操作。第三,从数学角度来看,双变量回归是一种基础的数学方法,也比较容易理解。双变量回归的理论基础是数学中的线性回归模型,相对于其他数学模型而言,双变量回归是一种基础的数学方法,不需要特别高深的数学知识,也比较容易理解。最后,从实践应用角度来看,双变量回归也是一种实用性较高的方法。在实际应用中,双变量回归常常用于研究两个变量之间的关系,如销售额和广告投放量之间的关系,或者学习成绩和学生出勤率之间的关系等。这些分析通常不需要进行太复杂的数据处理和数学计算,比较容易实现。综上所述,从统计学、数据处理、数学和实践应用等多个角度来看,双变量回归是一种相对简单的分析方法,适合于初学者进行学习和应用。

回归分析是一种非常常用的统计分析方法,可以用来研究自变量和因变量之间的关系。下面是一般回归分析的步骤:

1.明确研究对象和问题:需要确认要研究的自变量和因变量,并明确研究的目的。

2.收集数据:需要搜集并整理数据,确保数据的质量和一致性。

3.数据描述和探索:对数据进行初步探索,包括描述性统计、散点图等分析方法,了解数据的分布情况。

4.模型建立:根据研究问题选取合适的模型,比如线性回归模型(简单线性回归和多元线性回归)等,利用计算机软件进行模型拟合和检验。

5.模型诊断:对模型进行诊断,验证模型是否符合回归分析的基本假设,如无自相关性、正态性、同方差性等。

6.结果解释和分析:根据分析结果,解释模型中每个自变量对因变量的影响,同时探讨可能的解释和实际意义。

7.

结论和应用:根据分析结果,得出结论或建议,并应用到实际问题中。同时,需要对结论及应用进行审慎的评估和解释, 以提高回归分析的可靠性和可行性。

需要注意的是,回归分析的具体步骤可能因为不同的问题而有所变化,但基本的思路是相似的。同时,回归分析本身也有很多变体和扩展,可以根据具体的问题选择合适的方法或者工具。

双变量回归是一种常见的统计方法,用于研究两个变量之间的关系。在毕业论文中,双变量回归可以用于探究两个变量之间的影响关系,从而得出结论和提出建议。双变量回归通常需要进行数据预处理、模型构建、模型评估等步骤,需要一定的统计学知识和技能。因此,对于不具备相关专业背景的毕业生来说,可能会感到简单困难。但是,如果掌握了相关的统计学知识和技能,双变量回归的分析过程是可以比较简单地进行的。此外,在进行双变量回归分析时,需要注意数据的质量、变量的选择和模型的合理性等问题,这些都需要进行认真的思考和分析。综上所述,毕业论文双变量回归并不简单,但如果掌握了相关的统计学知识和技能,并且认真分析数据和模型,就可以比较顺利地进行。

你在excel中点 工具 ,里面的加载宏,勾上分析工具库,加载好后,工具里面会有一个数据分析,里面就有回归分析的,希望对你有帮助

岭回归分析毕业论文

matlab里面没有直接调用的partial least squares(PLS).你可能要自己根据运算编啊.不过你还有一个方法,你可以去下载一个叫chemometrics toolbox的工具装在MATLAB的TOOLBOX.那个TOOLBOX有直接调用的PLS. 偏最小二乘法 最小二乘法是一种数学优化技术,它通过最小化误差的平方和找到一组数据的最佳函数匹配。 用最简的方法求得一些绝对不可知的真值,而令误差平方之和为最小。 通常用于曲线拟合。很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。 偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析 与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1)能够在自变量存在严重多重相关性的条件下进行回归建模;(2)允许在样本点个数少于变量个数的条件下进行回归建模;(3)偏最小二乘回归在最终模型中将包含原有的所有自变量;(4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。 在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取1/(n-1);如果不是随机抽取的,这个系数可取1/n。 多重相关性的诊断 1 经验式诊断方法 1、在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。 2、回归系数的代数符号与专业知识或一般经验相反;或者,它同该自变量与y的简单相关系数符号相反。 3、对重要自变量的回归系数进行t检验,其结果不显著。 特别典型的是,当F检验能在高精度下通过,测定系数R2的值亦很大,但自变量的t检验却全都不显著,这时,多重相关性的可能性将很大。 4、如果增加(或删除)一个变量,或者增加(或删除)一个观测值,回归系数的估计值发生了很大的变化。 5、重要自变量的回归系数置信区间明显过大。 6、在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。 7、对于一般的观测数据,如果样本点的个数过少,样本数据中的多重相关性是经常存在的。 但是,采用经验式方法诊断自变量系统中是否确实存在多重相关性,并不十分可靠,另一种较正规的方法是利用统计检验(回归分析),检查每一个自变量相对其它自变量是否存在线性关系。 2 方差膨胀因子 最常用的多重相关性的正规诊断方法是使用方差膨胀因子。自变量xj的方差膨胀因子记为(VIF)j,它的计算方法为 (4-5) (VIF)j =(1-R j2)-1 式中,R j2是以xj为因变量时对其它自变量回归的复测定系数。 所有xj变量中最大的(VIF)j通常被用来作为测量多重相关性的指标。一般认为,如果最大的(VIF)j超过10,常常表示多重相关性将严重影响最小二乘的估计值。 (VIF)j被称为方差膨胀因子的原因,是由于它还可以度量回归系数的估计方差与自变量线性无关时相比,增加了多少。 不妨假设x1,x2,…,xp均是标准化变量。采用最小二乘法得到回归系数向量B,它的精度是用它的方差来测量的。B的协方差矩阵为 Cov(B)= σ2 (X'X)-1 式中,σ2是误差项方差。所以,对于回归系数b j,有 Var(b j)= σ2cjj cjj是(X'X)-1矩阵中第j个对角元素。可以证明, cjj =(VIF)j 岭回归分析 1 岭回归估计量 岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计,并且回归系数的标准差也比最小二乘估计的要小。 根据高斯——马尔科夫定理,多重相关性并不影响最小二乘估计量的无偏性和最小方差性。但是,虽然最小二乘估计量在所有线性无偏估计量中是方差最小的,但是这个方差却不一定小。于是可以找一个有偏估计量,这个估计量虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。 在应用岭回归分析时,它的计算大多从标准化数据出发。对于标准化变量,最小二乘的正规方程为 rXXb=ryX 式中,rXX是X的相关系数矩阵,ryX是y与所有自变量的相关系数向量。 岭回归估计量是通过在正规方程中引入有偏常数c(c≥0)而求得的。它的正规方程为+ (4-8) (rXX+ cI) bR=ryX 所以,在岭回归分析中,标准化回归系数为 (4-9) bR =(rXX+ cI)-1 ryX 2 岭回归估计量的性质 (1)岭回归系数是一般最小二乘准则下回归系数的线性组合,即 (4-10) bR =(I+ crXX-1)-1b (2)记β是总体参数的理论值。当β≠0时,可以证明一定存在一个正数c0,使得当0< c< c0时,一致地有 (4-11) E|| bR -β||2≤ E|| b -β||2 (3)岭回归估计量的绝对值常比普通最小二乘估计量的绝对值小,即 (4-12) || bR ||<|| b || 岭回归估计量的质量取决于偏倚系数c的选取。c的选取不宜过大,因为 E(bR)=(I+ crXX-1)-1 E (b)=(I+ crXX-1)-1β 关于偏倚系数c的选取尚没有正规的决策准则,目前主要以岭迹和方差膨胀因子为依据。岭迹是指p-1个岭回归系数估计量对不同的c值所描绘的曲线(c值一般在0~1之间)。在通过检查岭迹和方差膨胀因子来选择c值时,其判断方法是选择一个尽可能小的c值,在这个较小的c值上,岭迹中的回归系数已变得比较稳定,并且方差膨胀因子也变得足够小。 从理论上,最佳的c值是存在的,它可以使估计量的偏差和方差的组合效应达到一个最佳水准。然而,困难却在于c的最优值对不同的应用而有所不同,对其选择还只能凭经验判断。 其他补救方法简介 最常见的一种思路是设法去掉不太重要的相关性变量。由于变量间多重相关性的形式十分复杂,而且还缺乏十分可靠的检验方法,删除部分多重相关变量的做法常导致增大模型的解释误差,将本应保留的系统信息舍弃,使得接受一个错误结论的可能和做出错误决策的风险都不断增长。另一方面,在一些经济模型中,从经济理论上要求一些重要的解释变量必须被包括在模型中,而这些变量又存在多重相关性。这时采用剔除部分相关变量的做法就不符合实际工作的要求。 另一种补救的办法是增加样本容量。然而,在实际工作中,由于时间、经费以及客观条件的限制,增大样本容量的方法常常是不可行的。 此外,还可以采用变量转换的方式,来削弱多重相关性的严重性。一阶差分回归模型有可能减少多重相关性的严重性。然而,一阶差分变换又带来了一些其它问题。差分后的误差项可能不满足总体模型中关于误差项不是序列相关的假定。事实上,在大部分情形下,在原来的误差项是不自相关的条件下,一阶差分所得到的误差项将会是序列相关的。而且,由于差分方法损失了一个观察值,这在小样本的情况下是极不可取的。另外,一阶差分方法在截面样本中是不宜利用的。 1 主成分分析 主成分分析的计算结果必然受到重叠信息的影响。因此,当人为地采用一些无益的相关变量时,无论从方向上还是从数量上,都会扭曲客观结论。在主成分分析之前,对变量系统的确定必须是慎之又慎的。 2 特异点的发现 第i个样本点(样本量为n)对第h主成分的贡献率是 (5-32) CTR(i)=Fh2(i)/(nλh) (若远超过1/n,为特异点) 3 典型相关分析 从某种意义上说,多元回归分析、判别分析或对应分析等许多重要的数据分析方法,都可以归结为典型相关分析的一种特例,同时它还是偏最小二乘回归分析的理论基石。 典型相关分析,是从变量组X中提取一个典型成分F=Xa,再从变量组Y中提取一个成分G=Yb,在提取过程中,要求F与G的相关程度达到最大。 在典型相关分析中,采用下述原则寻优,即 max=aX'Yb a'X'Xa=1, b'Y'Yb=1 其结果为,a是对应于矩阵V11-1 V12 V22-1 V21最大特征值的特征向量,而b是对应于矩阵V22-1 V21V11-1 V12最大特征值的特征向量,这两个最大特征值相同。其中, V11=X'X,V12=X'Y,V22=Y'Y。 F与G之间存在着明显的换算关系。 有时只有一个典型成分还不够,还可以考虑第二个典型成分。 多因变量的偏最小二乘回归模型 1 工作目标 偏最小二乘回归分析的建模方法 设有q个因变量和p个自变量。为了研究因变量与自变量的统计关系,观测了n个样本点,由此构成了自变量与因变量的数据表X和Y。偏最小二乘回归分别在X与Y中提取出t和u,要求:(1)t和u应尽可能大地携带它们各自数据表中的变异信息;(2)t和u的相关程度能够达到最大。在第一个成分被提取后,偏最小二乘回归分别实施X对t的回归以及Y对t的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用X被t解释后的残余信息以及Y被t解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对X共提取了多个成分,偏最小二乘回归将通过施行yk对X的这些成分的回归,然后再表达成yk关于原自变量的回归方程。 2 计算方法 首先将数据做标准化处理。X经标准化处理后的数据矩阵记为E0=( E01,…,E0p)n×p,Y的相应矩阵记为F0=( F01,…,F0q)n×q。 第一步 记t 1是E0的第一个成分,t 1= E0w1,w1是E0的第一个轴,它是一个单位向量,即|| w1||=1。 记u 1是F0的第一个成分,u 1= F0c1,c1是F0的第一个轴,并且|| c1||=1。 于是,要求解下列优化问题,即 (7-1) 记θ1= w1'E0'F0c1,即正是优化问题的目标函数值。 采用拉格朗日算法,可得 (7-8) E0'F0F0'E0w1=θ12 w1 (7-9) F0'E0E0'F0c1=θ12 c1 所以,w1是对应于E0'F0F0'E0矩阵最大特征值的单位特征向量,而c1是对应于F0'E0E0'F0矩阵最大特征值θ12的单位特征向量。 求得轴w1和c1后,即可得到成分 t 1= E0w1 u 1= F0c1 然后,分别求E0和F0对t 1的回归方程 (7-10) E0= t 1 p1'+ E1 (7-12) F0= t 1r1'+ F1 式中,回归系数向量是 (7-13) p1= E0' t 1/|| t 1||2 (7-15) r1= F0' t 1/|| t 1||2 而E1和F1分别是两个方程的残差矩阵。 第二步 用残差矩阵E1和F1取代E0和F0,然后,求第二个轴w2和c2以及第二个成分t2,u2,有 t 2= E1w2 u 2= F1c2 θ2=< t2, u2>= w2'E1'F1c2 w2是对应于E1'F1F1'E1矩阵最大特征值的单位特征向量,而c2是对应于F1'E1E1'F1矩阵最大特征值θ22的单位特征向量。计算回归系数 p2= E1' t 2/|| t 2||2 r2= F1' t 2/|| t2||2 因此,有回归方程 E1= t 2 p2'+ E2 F1= t 2r2'+ F2 如此计算下去,如果X的秩是A,则会有 (7-16) E0= t 1 p1'+…+t A pA' (7-17) F0= t 1r1'+ …+t A rA'+ FA 由于t1,…,t A均可以表示成E01,…,E0p的线性组合,因此,式(7-17)还可以还原成yk*= F0k关于xj*= E0j的回归方程形式,即 yk*=αk1 x1*+…+αkp xp*+ FAk, k=1,2,…,q FAk是残差矩阵FA的第k列。 3 交叉有效性 如果多一个成分而少一个样本的预测误差平方和(所有因变量和预测样本相加)除以少一个成分的误差平方和(所有的因变量和样本相加)小于,则多一个成分是值得的。 4 一种更简洁的计算方法 用下述原则提取自变量中的成分t 1,是与原则式(7-1)的结果完全等价的,即 (7-24) (1)求矩阵E0'F0F0'E0最大特征值所对应的单位特征向量w1,求成分t 1,得 t 1= E0w1 E1= E0-t 1 p1' 式中, p1= E0' t 1/|| t 1||2 (2)求矩阵E1'F0F0'E1最大特征值所对应的单位特征向量w2,求成分t2,得 t 2= E1w2 E2= E1-t 2 p2' 式中, p2= E1' t 2/|| t2||2 …… (m)至第m步,求成分tm= Em-1wm,wm是矩阵Em-1'F0F0'Em-1最大特征值所对应的单位特征向量. 如果根据交叉有效性,确定共抽取m个成分t1,…,tm可以得到一个满意的观测模型,则求F0在t1,…,tm上的普通最小二乘回归方程为 F0= t 1r1'+ …+t mrm'+ Fm 偏最小二乘回归的辅助分析技术 1 精度分析 定义自变量成分th的各种解释能力如下 (1)th对某自变量xj的解释能力 (8-1) Rd(xj; th)=r2(xj, th) (2)th对X的解释能力 (8-2) Rd(X; th)=[r2(x1, th) + …+ r2(xp, th)]/p (3)t1,…,tm对X的累计解释能力 (8-3) Rd(X; t1,…,tm)= Rd(X; t1) + …+ Rd(X; tm) (4)t1,…,tm对某自变量xj的累计解释能力 (8-4) Rd(xj; t1,…,tm)= Rd(xj; t1) + …+ Rd(xj; tm) (5)th对某因变量yk的解释能力 (8-5) Rd(yk; th)=r2(yk, th) (6)th对Y的解释能力 (8-6) Rd(Y; th)=[r2(y1, th) + …+ r2(yq, th)]/q (7)t1,…,tm对Y的累计解释能力 (8-7) Rd(Y; t1,…,tm)= Rd(Y; t1) + …+ Rd(Y; tm) (8)t1,…,tm对某因变量yk的累计解释能力 (8-8) Rd(yk; t1,…,tm)= Rd(yk; t1) + …+ Rd(yk; tm) 2 自变量x j在解释因变量集合Y的作用 x j在解释Y时作用的重要性,可以用变量投影重要性指标VIP j来测度 VIP j 2=p[Rd(Y; t1) w1j2+ …+ Rd(Y; tm) wmj2]/[Rd(Y; t1) + …+ Rd(Y; tm)] 式中,whj是轴wh的第j个分量。注意 VIP1 2+ …+ VIP p2=p 3 特异点的发现 定义第i个样本点对第h成分th的贡献率Thi2,用它来发现样本点集合中的特异点,即 (8-10) Thi2=thi2/((n-1)s h2) 式中,s h2是成分th的方差。 由此,还可以测算样本点i对成分t1,…,tm的累计贡献率 (8-11) Ti2= T1i2+ …+ Tmi2 当 Ti2≥m(n2-1)(m,n-m)/(n2 (n-m)) 时,可以认为在95%的检验水平上,样本点i对成分t1,…,tm的贡献过大。 单因变量的偏最小二乘回归模型 1 简化算法 第一步 已知数据E0,F0,由于u 1= F0,可得 w1= E0'F0/|| E0'F0|| t 1= E0w1 p1= E0' t 1/|| t 1||2 E1= E0-t 1 p1' 检验交叉有效性。若有效,继续计算;否则只提取一个成分t 1。 第h步(h=2,…,m) 已知数据Eh-1,F0,有 wh= Eh-1'F0/|| Eh-1'F0|| t h= Eh-1wh ph= Eh-1' t h/|| t h||2 Eh= Eh-1-th ph' 检验交叉有效性。若有效,继续计算h+1步;否则停止求成分的计算。 这时,得到m个成分t1,…,t m,实施F0在t1,…,t m上的回归,得 F0^= r1t 1+ …+ rmt m 由于t1,…,t m均是E0的线性组合,即 t h= Eh-1wh= E0wh* 所以F0^可写成E0的线性组合形式,即 F0^= r1 E0w1*+ …+ rm E0wm*= E0[r1 w1*+ …+ rm wm*] 最后,也可以变换成y对x1,…,x p的回归方程 y^= α0+α1x1+ …+αp xp

回归分析的认识及简单运用

回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,分为回归和多重回归分析;按照自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多重线性回归分析。

定义

回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律,并可用于预报、控制等问题。

方差齐性

线性关系

效应累加

变量无测量误差

变量服从多元正态分布

观察独立

模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)

误差项独立且服从(0,1)正态分布。

现实数据常常不能完全符合上述假定。因此,统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。

研究一个或多个随机变量Y1 ,Y2 ,…,Yi与另一些变量X1、X2,…,Xk之间的关系的统计方法,又称多重回归分析。通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量。回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ^2与X的值无关。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的情形,它有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由于自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型。当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。

回归分析的主要内容为:

①从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。

②对这些关系式的可信程度进行检验。

③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。

④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。

在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一类变量称为自变量,用X来表示。

回归分析研究的主要问题是:

(1)确定Y与X间的定量关系表达式,这种表达式称为回归方程;

(2)对求得的回归方程的可信度进行检验;

(3)判断自变量X对因变量Y有无影响;

(4)利用所求得的回归方程进行预测和控制。

回归分析可以说是统计学中内容最丰富、应用最广泛的分支。这一点几乎不带夸张。包括最简单的t检验、方差分析也都可以归到线性回归的类别。而卡方检验也完全可以用logistic回归代替。

众多回归的名称张口即来的就有一大片,线性回归、logistic回归、cox回归、poission回归、probit回归等等等等,可以一直说的你头晕。为了让大家对众多回归有一个清醒的认识,这里简单地做一下总结:

1、线性回归,这是我们学习统计学时最早接触的回归,就算其它的你都不明白,最起码你一定要知道,线性回归的因变量是连续变量,自变量可以是连续变量,也可以是分类变量。如果只有一个自变量,且只有两类,那这个回归就等同于t检验。如果只有一个自变量,且有三类或更多类,那这个回归就等同于方差分析。如果有2个自变量,一个是连续变量,一个是分类变量,那这个回归就等同于协方差分析。所以线性回归一定要认准一点,因变量一定要是连续变量。

2、logistic回归,与线性回归并成为两大回归,应用范围一点不亚于线性回归,甚至有青出于蓝之势。因为logistic回归太好用了,而且太有实际意义了。解释起来直接就可以说,如果具有某个危险因素,发病风险增加倍,听起来多么地让人通俗易懂。线性回归相比之下其实际意义就弱了。logistic回归与线性回归恰好相反,因变量一定要是分类变量,不可能是连续变量。分类变量既可以是二分类,也可以是多分类,多分类中既可以是有序,也可以是无序。二分类logistic回归有时候根据研究目的又分为条件logistic回归和非条件logistic回归。条件logistic回归用于配对资料的分析,非条件logistic回归用于非配对资料的分析,也就是直接随机抽样的资料。无序多分类logistic回归有时候也成为多项logit模型,有序logistic回归有时也称为累积比数logit模型。

3、cox回归,cox回归的因变量就有些特殊,因为他的因变量必须同时有2个,一个代表状态,必须是分类变量,一个代表时间,应该是连续变量。只有同时具有这两个变量,才能用cox回归分析。cox回归主要用于生存资料的分析,生存资料至少有两个结局变量,一是死亡状态,是活着还是死亡?二是死亡时间,如果死亡,什么时间死亡?如果活着,从开始观察到结束时有多久了?所以有了这两个变量,就可以考虑用cox回归分析。

4、poisson回归,poisson回归相比就不如前三个用的广泛了。但实际上,如果你能用logistic回归,通常也可以用poission回归,poisson回归的因变量是个数,也就是观察一段时间后,发病了多少人?或者死亡了多少人?等等。其实跟logistic回归差不多,因为logistic回归的结局是是否发病,是否死亡,也需要用到发病例数、死亡例数。大家仔细想想,其实跟发病多少人,死亡多少人一个道理。只是poission回归名气不如logistic回归大,所以用的人也不如logistic回归多。但不要因此就觉得poisson回归没有用。

5、probit回归,在医学里真的是不大用,最关键的问题就是probit这个词太难理解了,通常翻译为概率单位。probit函数其实跟logistic函数十分接近,二者分析结果也十分接近。可惜的是,probit回归的实际含义真的不如logistic回归容易理解,由此导致了它的默默无名,但据说在社会学领域用的似乎更多一些。

6、负二项回归。所谓负二项指的是一种分布,其实跟poission回归、logistic回归有点类似,poission回归用于服从poission分布的资料,logistic回归用于服从二项分布的资料,负二项回归用于服从负二项分布的资料。说起这些分布,大家就不愿意听了,多么抽象的名词,我也很头疼。如果简单点理解,二项分布你可以认为就是二分类数据,poission分布你可以认为是计数资料,也就是个数,而不是像身高等可能有小数点,个数是不可能有小数点的。负二项分布呢,也是个数,只不过比poission分布更苛刻,如果你的结局是个数,而且结局可能具有聚集性,那可能就是负二项分布。简单举例,如果调查流感的影响因素,结局当然是流感的例数,如果调查的人有的在同一个家庭里,由于流感具有传染性,那么同一个家里如果一个人得流感,那其他人可能也被传染,因此也得了流感,那这就是具有聚集性,这样的数据尽管结果是个数,但由于具有聚集性,因此用poission回归不一定合适,就可以考虑用负二项回归。既然提到这个例子,用于logistic回归的数据通常也能用poission回归,就像上面案例,我们可以把结局作为二分类,每个人都有两个状态,得流感或者不得流感,这是个二分类结局,那就可以用logistic回归。但是这里的数据存在聚集性怎么办呢,幸亏logistic回归之外又有了更多的扩展,你可以用多水平logistic回归模型,也可以考虑广义估计方程。这两种方法都可以处理具有层次性或重复测量资料的二分类因变量。

7、weibull回归,有时中文音译为威布尔回归。weibull回归估计你可能就没大听说过了,其实这个名字只不过是个噱头,吓唬人而已。上一篇说过了,生存资料的分析常用的是cox回归,这种回归几乎统治了整个生存分析。但其实夹缝中还有几个方法在顽强生存着,而且其实很有生命力,只是国内大多不愿用而已。weibull回归就是其中之一。cox回归为什么受欢迎呢,因为它简单,用的时候不用考虑条件(除了等比例条件之外),大多数生存数据都可以用。而weibull回归则有条件限制,用的时候数据必须符合weibull分布。怎么,又是分布?!估计大家头又大了,是不是想直接不往下看了,还是用cox回归吧。不过我还是建议看下去。为什么呢?相信大家都知道参数检验和非参数检验,而且可能更喜欢用参数检验,如t检验,而不喜欢用非参数检验,如秩和检验。那这里的weibull回归和cox回归基本上可以说是分别对应参数检验和非参数检验。参数检验和非参数检验的优缺点我也在前面文章里通俗介绍了,如果数据符合weibull分布,那么直接套用weibull回归当然是最理想的选择,他可以给出你最合理的估计。如果数据不符合weibull分布,那如果还用weibull回归,那就套用错误,肯定结果也不会真实到哪儿去。所以说,如果你能判断出你的数据是否符合weibull分布,那当然最好的使用参数回归,也就是weibull回归。但是如果你实在没什么信心去判断数据分布,那也可以老老实实地用cox回归。cox回归可以看作是非参数的,无论数据什么分布都能用,但正因为它什么数据都能用,所以不可避免地有个缺点,每个数据用的都不是恰到好处。weibull回归就像是量体裁衣,把体形看做数据,衣服看做模型,weibull回归就是根据你的体形做衣服,做出来的肯定对你正合身,对别人就不一定合身了。cox回归呢,就像是到商场去买衣服,衣服对很多人都合适,但是对每个人都不是正合适,只能说是大致合适。至于到底是选择麻烦的方式量体裁衣,还是图简单到商场直接去买现成的,那就根据你的喜好了,也根据你对自己体形的了解程度,如果非常熟悉,当然就量体裁衣了。如果不大了解,那就直接去商场买大众化衣服吧。

8、主成分回归。主成分回归是一种合成的方法,相当于主成分分析与线性回归的合成。主要用于解决自变量之间存在高度相关的情况。这在现实中不算少见。比如你要分析的自变量中同时有血压值和血糖值,这两个指标可能有一定的相关性,如果同时放入模型,会影响模型的稳定,有时也会造成严重后果,比如结果跟实际严重不符。当然解决方法很多,最简单的就是剔除掉其中一个,但如果你实在舍不得,毕竟这是辛辛苦苦调查上来的,删了太可惜了。如果舍不得,那就可以考虑用主成分回归,相当于把这两个变量所包含的信息用一个变量来表示,这个变量我们称它叫主成分,所以就叫主成分回归。当然,用一个变量代替两个变量,肯定不可能完全包含他们的信息,能包含80%或90%就不错了。但有时候我们必须做出抉择,你是要100%的信息,但是变量非常多的模型?还是要90%的信息,但是只有1个或2个变量的模型?打个比方,你要诊断感冒,是不是必须把所有跟感冒有关的症状以及检查结果都做完?还是简单根据几个症状就大致判断呢?我想根据几个症状大致能能确定90%是感冒了。不用非得100%的信息不是吗?模型也是一样,模型是用于实际的,不是空中楼阁。既然要用于实际,那就要做到简单。对于一种疾病,如果30个指标能够100%确诊,而3个指标可以诊断80%,我想大家会选择3个指标的模型。这就是主成分回归存在的基础,用几个简单的变量把多个指标的信息综合一下,这样几个简单的主成分可能就包含了原来很多自变量的大部分信息。这就是主成分回归的原理。

9、岭回归。岭回归的名称由来我也没有查过,可能是因为它的图形有点像岭。不要纠结于名称。岭回归也是用于处理自变量之间高度相关的情形。只是跟主成分回归的具体估计方法不同。线性回归的计算用的是最小二乘估计法,当自变量之间高度相关时,最小二乘回归估计的参数估计值会不稳定,这时如果在公式里加点东西,让它变得稳定,那就解决了这一问题了。岭回归就是这个思想,把最小二乘估计里加个k,改变它的估计值,使估计结果变稳定。至于k应该多大呢?可以根据岭迹图来判断,估计这就是岭回归名称的由来。你可以选非常多的k值,可以做出一个岭迹图,看看这个图在取哪个值的时候变稳定了,那就确定k值了,然后整个参数估计不稳定的问题就解决了。

10、偏最小二乘回归。偏最小二乘回归也可以用于解决自变量之间高度相关的问题。但比主成分回归和岭回归更好的一个优点是,偏最小二乘回归可以用于例数很少的情形,甚至例数比自变量个数还少的情形。听起来有点不可思议,不是说例数最好是自变量个数的10倍以上吗?怎么可能例数比自变量还少,这还怎么计算?可惜的是,偏最小二乘回归真的就有这么令人发指的优点。所以,如果你的自变量之间高度相关、例数又特别少、而自变量又很多(这么多无奈的毛病),那就现在不用发愁了,用偏最小二乘回归就可以了。它的原理其实跟主成分回归有点像,也是提取自变量的部分信息,损失一定的精度,但保证模型更符合实际。因此这种方法不是直接用因变量和自变量分析,而是用反映因变量和自变量部分信息的新的综合变量来分析,所以它不需要例数一定比自变量多。偏最小二乘回归还有一个很大的优点,那就是可以用于多个因变量的情形,普通的线性回归都是只有一个因变量,而偏最小二乘回归可用于多个因变量和多个自变量之间的分析。因为它的原理就是同时提取多个因变量和多个自变量的信息重新组成新的变量重新分析,所以多个因变量对它来说无所谓。

看了以上的讲解,希望能对大家理解回归分析的运用有些帮助。

以上是小编为大家分享的关于回归分析的认识及简单运用的相关内容,更多信息可以关注环球青藤分享更多干货

已发送到你的QQ 请查收

相关百科

热门百科

首页
发表服务