3.2.1.1 技术原理
因子分析是研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。R型因子分析研究变量(指标)之间的相关关系,通过对变量的相关阵或协方差阵内部结构的研究,找出控制所有变量的几个公共因子(或称主因子、潜因子),用以对变量或样品进行分类;Q型因子分析研究样品之间的相关关系,通过对样品的相似矩阵内部结构的研究找出控制所有样品的几个主要因素(或称主因子)这两种因子分析的处理方法一样,只是出发点不同。R型从变量的相关阵出发,Q型从样品的相似矩阵出发。对一批观测数据,可以根据实际问题的需要来决定采用哪一种类型的因子分析。
对多变量的平面数据进行最佳综合和简化,即在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理。可以通过下面的数学模型来表示:
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
式中:x1,x2,…,xi是p个原有变量,是均值为零、标准差为1的标准化变量,经过降维处理,p个变量可以综合成m个新指标 F1,F2,…,Fm,且 x 可由 Fm线性表示出,即:x=AF+ε,其中矩阵A=(αij)p×m,为因子载荷矩阵,aij统计学中称为“权重”。
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
式中:A是第i个原有变量在第j个因子变量上的负荷,公共因子矩阵F=(F1,F2,…,Fm),特殊因子矩阵ε=(ε1,ε2,…,εi)T,表示了原有变量不能被因子变量所解释的部分,相当于多元回归分析中的残差部分。
因子载荷矩阵A中各行元素的平方和,称为变量共同度,是全部公共因子对变量Xi的总方差所作出的贡献,称为公因子方差,表明xi对公共因子F1,F2,…,Fm的共同依赖程度。
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
因子载荷矩阵A中各列元素的平方和,记为 :
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
式中: 的统计意义与 恰好相反, 表示第j个公共因子Fj对X的所有分量x1,…,xp的总影响,称为第j个公共因子Fj对x的贡献,它是衡量第j个公共因子相对重要性的指标。目前用于估计A的方法主要有主因成分法、主因子解和极大似然法。
3.2.1.2 技术流程
(1)数据合理性检验
因子分析的应用要求原始变量之间有较强的相关关系,因此,在分析之前,首先需要对数据进行相关性分析,最简单的方法就是计算变量之间的相关系数矩阵。如果相关系数矩阵在进行统计检验中,大部分都小于0.3,那么这些变量就不适合进行因子分析。SPSS常用的统计检验方法有巴特利特球形检验、反映像相关矩阵检验和KMO检验。
巴特利特球形检验(Bartlett Test of Sphericity),若检验统计量较大,则认为原始数据间存在相关性,适合进行因子分析,否则不适合。
反映像相关矩阵检验(Anti-image Correlation Matrix),反映像相关矩阵中元素的绝对值比较大,那么说明这些变量不适合做因子分析。
KMO(Kaiser Meyer Olkin)检验如表3.1。
表3.1 KMO检验标准表
(2)构造因子变量
构造因子变量的方法有很多种,如基于主成分模型的主成分分析法和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。
(3)利用旋转使得因子变量更具有可解释性
载荷矩阵A中某一行可能有多个aij比较大,说明某个原有变量可能同时与几个因子有比较大的相关关系;同时载荷矩阵A中某一列中也可能有多个aij较大,说明某个因子变量可能解释多个原变量的信息,但它只能解释某个变量一小部分信息,不是任何一个变量的典型代表,会使某个因子变量的含义模糊不清。在实际分析中,希望对因子变量的含义有比较清楚的认识,这时,可以通过因子矩阵的旋转来进行。旋转的方式有正交旋转、斜交旋转、方差极大法,其中最常用的是方差极大法。
(4)计算因子变量的得分
计算因子得分首先将因子变量表示为原有变量的线性组合,即:
Fm=βm1x1+βm2x2+…+βmixi (3.5)
估计因子得分的方法有回归法、Bar-tlette法、Anderson-Rubin 法等。默认取特征值大于1的公因子或累计贡献率大于85%(70%或90%)的最小正整数的因子(图3.2)。
图3.2 技术流程图
3.2.1.3 适用范围
因子分析是研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。FA法使用简单,不需要研究地区优先源的监测数据,在缺乏污染源成分谱的情况下仍可解析,并可广泛使用统计软件处理数据。其不足之处在于需要输入大量数据,而且只能得到各类元素对主因子的相对贡献百分比。