什么是熵权法
德国物理学家holtman和Clausius在1864年共同研究出热力学并合作编写了《热之唯动说》,一个与物理量有关的新术语是 “熵”,主要是用于描述系统状态。之后,美国数学家Shannon发现熵能够体现不确定性,对以往“熵”研究进行了拓展。熵理论不仅可以应用于力学,还被用于其他领域。目前信息熵已经是计算“不确定性”的最好方法。
熵权法是熵理论的一个组成部分,利用熵对制造企业转型和技术能力评价指标体系的所有定量信息中的随机变量进行度量。我们根据熵中的信息量获得每个度量的权重。熵值越大,信息量越小,指标对整体的影响越小。对比熵法和主观分配法,可以看出这种方法独立于个体意识,是一种更准确判断特定变量对整体影响程度的方法。研究人员可以根据指标影响程度的结果进一步优化指标体系。熵权法可以在任何需要确定权重的过程中单独使用,也可以与其他数学方法结合使用。因此,熵权加权法常用于对一个公司的能力或业绩进行综合评价。
熵权法的基本原理
根据信息论基本原理的解释,信息是系统有序度的度量,熵是系统扰动程度的度量。根据信息熵的定义,给定指标,熵值可以用来评价给定指标的方差程度。如果所有指标值都相同,则该指标对整体评价没有影响。因此,可以利用信息熵工具计算各个指标的权重,为综合评价多个指标提供依据。
熵权法的基本思路是根据指标变异性的大小来确定客观权重。一般来说,若某个指标的信息熵Ej越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵越大,表明指标值得变异程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小。
熵权法赋权步骤
1. 数据标准化
将各个指标的数据进行标准化处理。
假设给定了k个指标X1,X2,……,Xk,其中:
假设对各指标数据标准化后的值为Y1,Y2,Y3...YK:,那么
2. 求各指标的信息熵
根据信息论中信息熵的定义,一组数据的信息熵
其中:
如果:
则:
3. 确定各指标权重
根据信息熵的计算公式,计算出各个指标的信息熵为E1,E2,E3...EK,通过信息熵计算各指标的权重:
综上所述,熵值法的优点是可以为能力进行一种客观的权重赋能方法,它深刻地反映了一个指标的内在力量,比监督者的权重具有更高的可靠性和准确性。该算法虽然简单,但存在诸多不足,如不够智能,未考虑指标及其影响,像是相关性、层级关系等。在缺乏业务指导经验的情况下,权重依赖于失真的样本。如果样本不断变化,权重会有一定的波动。因此,在考虑选择熵权加权方法进行分析研究时,需要考虑方法的适用范围。反之,如果权重失真频繁发生,则需要结合专家评分和判断,以最大限度地发挥熵方法的优势。同时,在确定权重之前,需要了解指标对目标得分的影响方向,并对非线性指标进行预处理或去除。
不能。但随着社会的发展、科学的进步及我们研究问题的复杂性越来越高,传统的熵值法已经不能完全满足研究论文的需要,需要进行其他探讨。
正巧我导师的课题用到熵值法。
熵值法属于一种客观评价方法。何为“评价方法”呢?即对所研究的变量的重要性进行赋值并排序,从而评价不同指标对所研究对象可能的影响大小。何为“客观”呢?即熵值法是通过特定数学步骤得到数据的有序性(计算其熵值),不因人的主观意愿而改变。与此相对应的自然有“主观评价方法”,例如专家打分法就是很明显的主观评价方法,是由专家组成打分小组来减少对数据重要性的偏见。我们通常在论文中所见“绩效评价”、“XX能力评价”、“XX水平评价”的研究很可能会遇到这些评价方法。
那么什么是计量经济学方法呢。最简单的OLS普通最小二乘是计量经济学方法的典型,也是基本方法。它通过定义变量和回归模型、经由数学假设和论证来得到不同变量间的关联方式,如:技术发展能力,可能受到经济因素、文化因素、技术交流程度等影响,选择合适指标对这些变量进行赋值(如可以用人均受教育年限表示文化因素),将各指标数据带入OLS计算步骤,假设得到的结果为:
技术发展能力=a经济因素+b文化因素+c技术交流程度+d
我们可以说,其他变量不变时,当经济指标上升1%,可以引起技术发展能力提高a%。
换句话说,计量经济学方法研究某一些变量对另一变量的影响,要求同时具备自变量、因变量和其他数学前提。熵值法研究某一体系下所选定的一系列变量重要性的排序(权重),且是相对排序,不要求因变量的存在,在同一体系下任意删、增、改变某变量就可能引起变量权重的变化。
两种方法不矛盾、也不互相包含,两者发挥的作用不同,可以在一篇论文中同时使用。我们可以用熵值法评价某一体系的得分,再用该得分去求取一个OLS方程中该体系受影响的程度。以上回答只是粗略解释了两种方法的基本含义,但要实际用到论文中还需题主深入学习。
论文是一个汉语词语,拼音是lùn wén,古典文学常见论文一词,谓交谈辞章或交流思想,那么论文数据分析方法有哪些?
1、 多选题研究:多选题分析可分为四种类型包括:多选题、单选-多选、多选-单选、多选-多选。
2、 聚类分析:聚类分析以多个研究标题作为基准,对样本对象进行分类。如果是按样本聚类,则使用SPSSAU的进阶方法模块中的“聚类”功能,系统会自动识别出应该使用K-means聚类算法还是K-prototype聚类算法。
3、 权重研究:权重研究是用于分析各因素或指标在综合体系中的重要程度,最终构建出权重体系。权重研究有多种方法包括:因子分析、熵值法、AHP层次分析法、TOPSIS、模糊综合评价、灰色关联等。
关于论文数据分析方法有哪些内容的介绍就到这了。
指标权重计算确定的困惑
相信很多写过或者正在写指标处理类论文的朋友都曾对如何计算指标权重充满困惑,到底是用熵值法,还是主成分分析法?或者其他各种看起来奥妙无穷却难以上手操作的神奇方法?好不容易确定要选用主成分分析法时又开始发愁要如何实现呢?
听说过要可以用SPPS,可是又如何使用SPSS操作呢?用SPSS进行主成分分析之后又要如何得到最终的权重呢?接下来笔者将以一个实际的案例,带领大家一步步从SPSS入手,进行主成分分析,并利用主成分分析的结果最终得到各指标的权重值。
2
利用SPSS实现主成分分析
1. 数据标准化
(1)为什么要对数据进行标准化处理
在对数据进行主成分分析前,首先要对数据进行标准化,之所以要对数据进行标准化,是因为各种类别的数据间的度量不同,比如计算经济的指标,我们通常会选取地区GDP生产总值和第三产业产值在GDP中的比重,GDP产值以亿为单位,通常以千计或万计,而第三产业产值在GDP中的比重的取值范围在0~1之间,如何能够相提并论呢?能够因为前者的数据远远大于后者,而得出前者的指标更为重要的结论吗?显然是不行的,所以要进行主成分分析,首先要对数据进行标准化。
(2)数据标准化的方法
为什么要关心数据处理的方法呢?在实际操作中,笔者曾经遇到一个问题。笔者利用SPSS自带的数据标准化方法对数据进行了标准化处理,但在权重的计算过程中不断出现负值,后来笔者几次重新调整指标类别,终于得出了均为正值的权重。但笔者最终的目的是要进行耦合协调度,这时候出现了大量的负值,而耦合度及耦合协调度的取值范围应该在0~1之间,因此笔者开始从头探索出错的原因。终于,笔者找到了原因,那就是数据标准化的方法选取的不正确,因此笔者重新选择了极差法对数据重新进行标准化,并最终顺利得到了后续的结果。