您当前的位置:首页 > 发表论文>论文发表

数字经济因子分析论文

2023-12-12 11:36 来源:学术参考网 作者:未知

数字经济因子分析论文

数字经济时代是农业经济、工业经济之后的一种新的经济社会发展形态,农业经济的基础要素是土地,工业经济的基础要素是机器,而数字经济的基础要素就是大数据。

大数据作为一种基础性和战略性资源,是提升民众生活品质、国家治理能力的“富矿”。国家高度重视的“新基建”战略布局中,大数据中心的建立,也是希望助力牢固信息化“地基”建设,推动数据要素参与到更多价值的创造和分配,保障高质量的社会发展。

网络零售有更低的运营成本和更高的运行效率,对一个零售企业来说,库存周转天数和账期是衡量一个企业运行效率的最重要的2个指标,网络零售商在这2个指标上的的表现远远高于线下零售店。网络零售有线下实体店难以比拟的优势,如海量的货柜,不受物理空间的限制等。

数字化品类发展,经历从标准化商品到非标准化产品的发展路径。早期网络零售多数是以标准化商品起步,如图书、酒水,但是非标准化商品、个性化商品有很大的机会,如生鲜电商,标准化很低,流通的损耗很大,同时生鲜是一个高频的消费,有非常好的发展前景。

但目前,我国大数据管理尚无针对公共数据管理规范的诸多现实痛点。

例如:l多个政务部门、行业企业之间数据标准不统一,数据接口错综复杂,导致公共数据共享开放仍未深入展开,涉及公共服务、城市管理信息的共享,更是难以实现。

l我国大数据信息的社会化共享水平还有待提高,共享开放管理尚未形成闭环,政企、行业和民众之间,信息公开仍有很多壁垒,阻碍了社会服务效率的提升和数据经济的深化发展。

进一步推动大数据信息社会化共享,是发展高效便捷的社会生活,把握更多数字经济发展机遇的关键举措。鉴于上述问题和痛点,苏宁董事长张近东在2020年两会上建议从以下几方面推动公共数据的社会化共享:

一、成立数据治理委员会,推动大数据共享体系建设

二、建立“公共数据社会化共享”管理平台

三、完善技术和管理规范,保障数据共享的安全可控

四、界定明确的数据共享属性和共享权益,实现数据确权流通

五、建立公共数据社会化共享的通识教育

随着科技革命的高速发展,数字经济已经进入从技术探索到产业应用的阶段,数字经济强调培养学员的复合能力,是经济学、数据科学、管理学等学科门类的结合,是一种跨界培养,是“思辨+管理+赋能”相结合的具体实践。

UCA—DDE项目旨在缔造数字科技独角兽,成就数字经济领军者,培养拥有商业资源同时具有影响力的业界翘楚,提高企业的决策能力和管理水平。

入学标准

#未具备以上条件的管理工作经验者,请想考项目办公室提交补充附加材料特殊申请

如果您对DDE项目感兴趣,欢迎私信了解获取更多详情~~~~

请问谁有关于统计的论文,具体要求是使用多元统计分析方法分析数据,还有如下:

1. 因子分析模型

因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

因子分析的基本思想:
把每个研究变量分解为几个影响因素变量,将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子

因子分析模型描述如下:

(1)X = (x1,x2,…,xp)¢是可观测随机向量,均值向量E(X)=0,协方差阵Cov(X)=∑,且协方差阵∑与相关矩阵R相等(只要将变量标准化即可实现)。

(2)F = (F1,F2,…,Fm)¢ (m<p)是不可测的向量,其均值向量E(F)=0,协方差矩阵Cov(F) =I,即向量的各分量是相互独立的。

(3)e = (e1,e2,…,ep)¢与F相互独立,且E(e)=0, e的协方差阵∑是对角阵,即各分量e之间是相互独立的,则模型:

x1 = a11F1+ a12F2 +…+a1mFm + e1

x2 = a21F1+a22F2 +…+a2mFm + e2

………

xp = ap1F1+ ap2F2 +…+apmFm + ep

称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型。

其矩阵形式为: x =AF + e .

其中:

x=,A=,F=,e=

这里,

(1)m £ p;

(2)Cov(F,e)=0,即F和e是不相关的;

(3)D(F) = Im ,即F1,F2,…,Fm不相关且方差均为1;

D(e)=,即e1,e2,…,ep不相关,且方差不同。

我们把F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e 称为X的特殊因子。

A = (aij),aij为因子载荷。数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。

2. 模型的统计意义

模型中F1,F2,…,Fm叫做主因子或公共因子,它们是在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量。公共因子的含义,必须结合具体问题的实际意义而定。e1,e2,…,ep叫做特殊因子,是向量x的分量xi(i=1,2,…,p)所特有的因子,各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的。模型中载荷矩阵A中的元素(aij)是为因子载荷。因子载荷aij是xi与Fj的协方差,也是xi与Fj的相关系数,它表示xi依赖Fj的程度。可将aij看作第i个变量在第j公共因子上的权,aij的绝对值越大(|aij|£1),表明xi与Fj的相依程度越大,或称公共因子Fj对于xi的载荷量越大。为了得到因子分析结果的经济解释,因子载荷矩阵A中有两个统计量十分重要,即变量共同度和公共因子的方差贡献。

因子载荷矩阵A中第i行元素之平方和记为hi2,称为变量xi的共同度。它是全部公共因子对xi的方差所做出的贡献,反映了全部公共因子对变量xi的影响。hi2大表明x的第i个分量xi对于F的每一分量F1,F2,…,Fm的共同依赖程度大。

将因子载荷矩阵A的第j列( j =1,2,…,m)的各元素的平方和记为gj2,称为公共因子Fj对x的方差贡献。gj2就表示第j个公共因子Fj对于x的每一分量xi(i= 1,2,…,p)所提供方差的总和,它是衡量公共因子相对重要性的指标。gj2越大,表明公共因子Fj对x的贡献越大,或者说对x的影响和作用就越大。如果将因子载荷矩阵A的所有gj2 ( j =1,2,…,m)都计算出来,使其按照大小排序,就可以依此提炼出最有影响力的公共因子。

3. 因子旋转

建立因子分析模型的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以便对实际问题进行分析。如果求出主因子解后,各个主因子的典型代表变量不很突出,还需要进行因子旋转,通过适当的旋转得到比较满意的主因子。

旋转的方法有很多,正交旋转(orthogonal rotation)和斜交旋转(oblique rotation)是因子旋转的两类方法。最常用的方法是最大方差正交旋转法(Varimax)。进行因子旋转,就是要使因子载荷矩阵中因子载荷的平方值向0和1两个方向分化,使大的载荷更大,小的载荷更小。因子旋转过程中,如果因子对应轴相互正交,则称为正交旋转;如果因子对应轴相互间不是正交的,则称为斜交旋转。常用的斜交旋转方法有Promax法等。

4.因子得分

因子分析模型建立后,还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位,即进行综合评价。例如地区经济发展的因子分析模型建立后,我们希望知道每个地区经济发展的情况,把区域经济划分归类,哪些地区发展较快,哪些中等发达,哪些较慢等。这时需要将公共因子用变量的线性组合来表示,也即由地区经济的各项指标值来估计它的因子得分。

设公共因子F由变量x表示的线性组合为:

Fj = uj1 xj1+ uj2 xj2+…+ujpxjp j=1,2,…,m

该式称为因子得分函数,由它来计算每个样品的公共因子得分。若取m=2,则将每个样品的p个变量代入上式即可算出每个样品的因子得分F1和F2,并将其在平面上做因子得分散点图,进而对样品进行分类或对原始数据进行更深入的研究。

但因子得分函数中方程的个数m小于变量的个数p,所以并不能精确计算出因子得分,只能对因子得分进行估计。估计因子得分的方法较多,常用的有回归估计法,Bartlett估计法,Thomson估计法。

(1)回归估计法

F = X b = X (X ¢X)-1A¢ = XR-1A¢ (这里R为相关阵,且R = X ¢X )。

(2)Bartlett估计法

Bartlett估计因子得分可由最小二乘法或极大似然法导出。

F = [(W-1/2A)¢ W-1/2A]-1(W-1/2A)¢ W-1/2X = (A¢W-1A)-1A¢W-1X

(3)Thomson估计法

在回归估计法中,实际上是忽略特殊因子的作用,取R = X ¢X,若考虑特殊因子的作用,此时R = X ¢X+W,于是有:

F = XR-1A¢ = X (X ¢X+W)-1A¢

这就是Thomson估计的因子得分,使用矩阵求逆算法(参考线性代数文献)可以将其转换为:

F = XR-1A¢ = X (I+A¢W-1A)-1W-1A¢

5. 因子分析的步骤

因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。

(i)因子分析常常有以下四个基本步骤:

(1)确认待分析的原变量是否适合作因子分析。

(2)构造因子变量。

(3)利用旋转方法使因子变量更具有可解释性。

(4)计算因子变量得分。

(ii)因子分析的计算过程:

(1)将原始数据标准化,以消除变量间在数量级和量纲上的不同。

(2)求标准化数据的相关矩阵;

(3)求相关矩阵的特征值和特征向量;

(4)计算方差贡献率与累积方差贡献率;

(5)确定因子:

设F1,F2,…, Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原评价指标;

(6)因子旋转:

若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。

(7)用原指标的线性组合来求各因子得分:

采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。

(8)综合得分

以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。

F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )

此处wi为旋转前或旋转后因子的方差贡献率。

(9)得分排序:利用综合得分可以得到得分名次。

在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究以下几个方面的问题:

· 简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。

· 构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。

· 进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。

如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。
Rotated Component Matrix,就是经转轴后的因子负荷矩阵,
当你设置了因子转轴后,便会产生这结果。
转轴的是要得到清晰的负荷形式,以便研究者进行因子解释及命名。

SPSS的Factor Analysis对话框中,有个Rotation钮,点击便会弹出Rotation对话框,
其中有5种因子旋转方法可选择:

1.最大变异法(Varimax):使负荷量的变异数在因子内最大,亦即,使每个因子上具有最高载荷的变量数最少。

2.四次方最大值法(Quartimax):使负荷量的变异数在变项内最大,亦即,使每个变量中需要解释的因子数最少。

3.相等最大值法(Equamax):综合前两者,使负荷量的变异数在因素内与变项内同时最大。

4.直接斜交转轴法(Direct Oblimin):使因素负荷量的差积(cross-products)最小化。

5.Promax 转轴法:将直交转轴(varimax)的结果再进行有相关的斜交转轴。因子负荷量取2,4,6次方以产生接近0但不为0的值,藉以找出因子间的相关,但仍保有最简化因素的特性。

上述前三者属於「直交(正交)转轴法」(Orthogonal Rotations),在直交转轴法中,因子与因子之间没有相关,因子轴之间的夹角等於90 度。后两者属於「斜交转轴」(oblique rotations),表示因子与因子之间彼此有某种程度的相关,因素轴之间的夹角不是90度。

直交转轴法的优点是因子之间提供的讯息不会重叠,受访者在某一个因子的分數与在其他因子的分數,彼此独立互不相关;缺点是研究迫使因素之间不相关,但这种情况在实际的情境中往往并不常存在。至於使用何种转轴方式,须视乎研究题材、研究目的及相关理论,由研究者自行设定。

在根据结果解释因子时,除了要看因子负荷矩阵中,因子对哪些变量呈高负荷,对哪些变量呈低负荷,还须留意之前所用的转轴法代表的意义。

2,主成分分析(principal component analysis)

将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
(1)主成分分析的原理及基本思想。
原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。
基本思想:主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
(2)步骤
Fp=a1mZX1+a2mZX2+……+apmZXp
其中a1i, a2i, ……,api(i=1,……,m)为X的协方差阵∑的特征值多对应的特征向量,ZX1, ZX2, ……, ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:本文指的数据标准化是指Z标准化]。
A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0 。
进行主成分分析主要步骤如下:
1. 指标数据标准化(SPSS软件自动执行);
2. 指标之间的相关性判定;
3. 确定主成分个数m;
4. 主成分Fi表达式;
5. 主成分Fi命名;

选用以上两种方法时的注意事项如下:
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。

2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。

3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。

4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。

5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。

总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。

在算法上,主成分分析和因子分析很类似,不过,在因子分析中所采用的协方差矩阵的对角元素不在是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。

(1)了解如何通过SPSS因子分析得出主成分分析结果。首先,选择SPSS中Analyze-Data Reduction-Factor…,在Extraction…对话框中选择主成分方法提取因子,选择好因子提取个数标准后点确定完成因子分析。打开输出结果窗口后找到Total Variance Explained表和Component Matrix表。将Component Matrix表中第一列数据分别除以Total Variance Explained表中第一特征根值的开方得到第一主成分表达式系数,用类似方法得到其它主成分表达式。打开数据窗口,点击菜单项的Analyze-Descriptive Statistics-Descriptives…,在打开的新窗口下方构选Save standardized values as variables,选定左边要分析的变量。点击Options,只构选Means,点确定后既得待分析变量的标准化新变量。

选择菜单项Transform-Compute…,在Target Variable中输入:Z1(主成分变量名,可以自己定义),在Numeric Expression中输入例如:0.412(刚才主成分表达式中的系数)*Z人口数(标准化过的新变量名)+0.212*Z第一产业产值+…,点确定即得到主成分得分。通过对主成分得分的排序即可进行各个个案的综合评价。很显然,这里的过程分为四个步骤:

Ⅰ.选主成分方法提取因子进行因子分析。

Ⅱ.计算主成分表达式系数。

Ⅲ.标准化数据。

Ⅳ.计算主成分得分。

我们的程序也将依该思路展开开发。

(2)对为何要将Component Matrix表数据除以特征根开方的解释

我们学过主成分分析和因子分析后不难发现,原来因子分析时的因子载荷矩阵就是主成分分析特征向量矩阵乘以对应特征根开方值的对角阵。而Component Matrix表输出的恰是因子载荷矩阵,所以求主成分特征向量自然是上面描述的逆运算。

成功启动程序后选定分析变量和主成分提取方法即可在数据窗口输出得分和在OUTPUT窗口输出主成分表达式。

3,聚类分析(Cluster Analysis)

聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术 。

在市场研究领域,聚类分析主要应用方面是帮助我们寻找目标消费群体,运用这项研究技术,我们可以划分出产品的细分市场,并且可以描述出各细分市场的人群特征,以便于客户可以有针对性的对目标消费群体施加影响,合理地开展工作。

4.判别分析(Discriminatory Analysis)

判别分析(Discriminatory Analysis)的任务是根据已掌握的1批分类明确的样品,建立较好的判别函数,使产生错判的事例最少,进而对给定的1个新样品,判断它来自哪个总体。根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别方法。

费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。

距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。

5.对应分析(Correspondence Analysis)

对应分析是一种用来研究变量与变量之间联系紧密程度的研究技术。

运用这种研究技术,我们可以获取有关消费者对产品品牌定位方面的图形,从而帮助您及时调整营销策略,以便使产品品牌在消费者中能树立起正确的形象。

这种研究技术还可以用于检验广告或市场推广活动的效果,我们可以通过对比广告播出前或市场推广活动前与广告播出后或市场推广活动后消费者对产品的不同认知图来看出广告或市场推广活动是否成功的向消费者传达了需要传达的信息。

16种常用的数据分析方法-因子分析

因子分析法是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。

是一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法

基本思想

根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构一即公共因子。

为什么做因子分析

举例说明:在实际门店问题中,往往我们会选择潜力最大的门店作为领航店,以此为样板,实现业绩和利润的突破及未来新店的标杆。选择领航店过程中我们要注重很多因素,比如:

↘所在小区的房价

↘总面积

↘户主年龄分布

↘小区户数

↘门店面积

↘2公里范围内竞争门店数量等

收集到所有的这些数据虽然能够全面、精准的确定领航店的入选标准,但实际建模时这些变量未必能够发挥出预期的作用。主要体现两方面:计算量的问题;变量间的相关性问题。

这时,最简单直接的方案就是削减变量个数,确定主要变量,因子分析以最少的信息丢失为前提,将众多的原有变量综合成少数的综合指标。

因子分析特点

因子个数远小于变量个数;

能够反应原变量的绝大数信息;

因子之间的线性关系不显著;

因子具有命名解释性

因子分析步骤

1.原有变量是否能够进行因子分析;

2.提取因子;

3.因子的命名解释;

4.计算因子得分;五、综合评价

因子与主成分分析的区别

相同:都能够起到处理多个原始变量内在结构关系的作用

不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法

因子分析可以看做是优化后的主成分分析,两种方法有很多共通的地方,但应用方面各有侧重。

因子分析应用场景

因子分析方法主要用于三种场景,分别是:

l 信息浓缩 :将多个分析项浓缩成几个关键概括性指标。比如将多个问卷题浓缩成几个指标。如果偏重信息浓缩且关注指标与分析项对应关系,使用因子分析更为适合。

l 权重计算 :利用方差解释率值计算各概括性指标的权重。在信息浓缩的基础上,可进一步计算每个主成分/因子的权重,构建指标权重体系。

l 综合竞争力 :利用成分得分和方差解释率这两项指标,计算得到综合得分,用于综合竞争力对比(综合得分值越高意味着竞争力越强)。此类应用常见于经济、管理类研究,比如上市公司的竞争实力对比。

因子分析案例

现在有 12 个地区的 5 个经济指标调查数据(总人口、学校校龄、总雇员、专业服务、中等房价),为对这 12 个地区进行综合评价,请确定出这 12 个地区的综合评价指标。( 综合竞争力应用场景 )

同一指标在不同地区是不同的,用单一某一个指标难以对12个地区进行准确的评价,单一指标只能反映地区的某一方面。所以,有必要确定综合评价指标,便于对比。因子分析方法就可以应用在这个案例中。

5 个指标即为我们分析的对象,我们希望从这5个可观测指标中寻找出潜在的因素,用这些具有综合信息的因素对各地区进行评价。

下图spss因子分析的操作界面主要包括5方面的选项,变量区只能选择数值型变量,分类型变量不能进入该模型。

spss软件为了消除不同变量间量纲和数量级对结果的影响,在该过程中默认自动进行标准化处理,因此不需要对这些变量提前进行标准化处理。

描述统计选项卡

希望看到各变量的描述统计信息,要对比因子提取前后的方差变化,选定“单变量描述性”和“原始分析结果”;

现在是基于相关矩阵提取因子,所以,选定相关矩阵的“系数和显著性水平“,

另外,比较重要的还有 KMO 和球形检验,通过KMO值,我们可以初步判断该数据集是否适合采用因子分析方法,kmo结果有时并不会出现,这主要与变量个数和样本量大小有关。

抽取选项卡:在该选项卡中设置如何提取因子

提取因子的方法有很多,最常用的就是主成分法。

因为参与分析的变量测度单位不同,所以选择“相关矩阵”,如果参与分析的变量测度单位相同,则考虑选用协方差矩阵。

经常用到碎石图对于判断因子的个数很有帮助,一般都会选择该项。关于特征值,一般spss默认只提取特征值大于1的因子。收敛次数比较重要,可以从首次结果反馈的信息进行调整。

因子旋转选项卡

因子分析要求对因子给予命名和解释,是否对因子旋转取决于因子的解释。

旋转就是坐标变换,使得因子系数向1 和 0 靠近,对公因子的命名和解释更加容易。旋转方法一般采用”最大方差法“即可,输出旋转后的因子矩阵和载荷图,对于结果的解释非常有帮助。

如果不经旋转因子已经很好解释,那么没有必要旋转,否则,应该旋转。

保存因子得分

要计算因子得分就要先写出因子的表达式。因子是不能直接观察到的,是潜在的。但是可以通过可观测到的变量获得。

因子分析模型是原始变量为因子的线性组合,现在我们可以根据回归的方法将模型倒过来,用原始变量也就是参与分析的变量来表示因子。从而得到因子得分。因子得分作为变量保存,对于以后深入分析很有用处。

结果解读:验证数据是否适合做因子分析

参考kmo结果,一般认为大于0.5,即可接受。同时还可以参考相关系数,一般认为分析变量的相关系数多数大于 0.3,则适合做因子分析;

KMO=0.575 检验来看,不是特别适合因子分析,基本可以通过。

结果解读:因子方差表

提取因子后因子方差的值均很高,表明提取的因子能很好的描述这 5 个指标。

方差分解表表明,默认提取的前两个因子能够解释 5 个指标的 93.4%。碎石图表明,从第三个因子开始,特征值差异很小。综上,提取前两个因子。

结果解读:因子矩阵

旋转因子矩阵可以看出,经旋转后,因子便于命名和解释。

因子 1主要解释的是中等房价、专业服务项目、中等校平均校龄,可以命名为社会福利因子;

因子 2 主要解释的是其余两个指标,总人口和总雇员。可以命名为人口因子。

因子分析要求最后得到的因子之间相互独立,没有相关性,而因子转换矩阵显示,两个因子相关性较低。可见,对因子进行旋转是完全有必要的。

结果解读:因子系数

因子得分就是根据这个系数和标准化后的分析变量得到的。在数据视图中可以看到因子得分变量。

结论

经过因子分析实现了目的,找到了两个综合评价指标,人口因子和福利因子。

从原来的 5 个指标挖掘出 2 个潜在的综合因子。可以对12 个地区给出客观评价。

可以根据因子1或因子2得分,对这12个地区进行从大到小排序,得分高者被认为在这个维度上有较好表现。

相关文章
学术参考网 · 手机版
https://m.lw881.com/
首页