毕业论文模糊聚类分析

数学专业毕业论文选题方向

1动态规划及其应用问题。

2计算方法中关于误差的分析。

3微分中值定理的应用。

4模糊聚类分析在学生素质评定中的应用。

5关于古典概型的几点思考。

6浅谈数形结合在数学解题中的应用。

7高校毕业生就业竞争力分析。

8最大模原理及其推广和应用。

9 最大公因式求解算法。

10行列式的计算。

聚类分析算法论文

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。下面是我分享给大家的聚类分析算法论文，欢迎阅读。

一、引言

聚类分析算法是给定m维空间R中的n个向量，把每个向量归属到k个聚类中的某一个，使得每一个向量与其聚类中心的距离最小。聚类可以理解为：类内的相关性尽量大，类间相关性尽量小。聚类问题作为一种无指导的学习问题，目的在于通过把原来的对象集合分成相似的组或簇，来获得某种内在的数据规律。聚类分析的基本思想是：采用多变量的统计值，定量地确定相互之间的亲疏关系，考虑对象多因素的联系和主导作用，按它们亲疏差异程度，归入不同的分类中一元，使分类更具客观实际并能反映事物的内在必然联系。也就是说，聚类分析是把研究对象视作多维空间中的许多点，并合理地分成若干类，因此它是一种根据变量域之间的相似性而逐步归群成类的方法，它能客观地反映这些变量或区域之间的内在组合关系。盐矿区系统是一个多层次、复杂的大系统,涉及诸多模糊、不确定的因素。平顶山市盐矿区的经济分类是以整个平顶山市的所有盐矿区为研究对象,以各盐矿区为基本单元,以经济为中心,以发展战略和合理布局为目标进行经济类型区划。其基本原则是：平顶山市的盐矿区资源开发、利用的相对一致性；自然、经济、社会条件的一致性；保持一定行政地域单元的相对稳定性。现行的平顶山市盐矿区行政划分不能反映出各个盐矿区的共同点,有必要通过模糊聚类分析将那些经济实际状况相似的铁矿区归类，剖析、发现各况矿区的差异,对症下药，为制定发展对策提供依据。

二、建立指标体系

1、确定分类指标进行经济区划分，应考虑的指标因素是多种多样的。既要以岩盐矿资源储量为主，又要适当考虑岩盐质量和勘察阶段和开发利用状况；既要有直接指标，又要有间接指标；既要考虑矿区发展的现状，又要考虑矿区发展的过程和矿区发展的未来方向。参考有关资料，结合专家意见，我们确定了对平顶山市盐矿区进行经济区划分的指标。如表1所示。表中列举了具体指标及各指标的原始数据（数据来源于河南省2006年矿产资源储量简表）。表1盐矿区经济划分指标体系及指标数据注：表中N表示缺失数据，勘察阶段1、2、3分别表示：初步勘探、详细普查、详细勘探，利用状况1~7分别表示：近期不宜进一步工作、可供进一步工作、近期难以利用、推荐近期利用、计划近期利用、基建矿区、开采矿区。

2、转换指标数据由于不同变量之间存在不同量纲由于不同变量之间存在不同量纲、不同数量级，为使各个变量更具有可比性，有必要对数据进行转换。目前进行数据处理的方法大致有三种，即标准化、极差标准化和正规化。为便于更直观的比较各市之间同一指标的数值大小，我们采用了正规化转换方式。其计算公式为:为了方便叙述，做如下设定：设Xi(i=1，2，3，…，21)为具体指标层中第i个评价指标的值，Pi(i=1，2，3，…，21)为第i个指标正规化后的值，0≤Pi≤1，Xs,i(Xs,i=Xmax-Xmin)，为第i个评价指标的标准值，Xmax为最大值，Xmin为最小值。（1）对于越高越好的`指标①Xi≥Xmax，则Pi=1；②Xi≤Xmin，则Pi=0；③Xmin

三、聚类分析

1、聚类步骤(Stage).从1~3表示聚类的先后顺序。

2、个案合并(ClusterCombined)。表示在某步中合并的个案，如第一步中个案1叶县田庄盐矿段和个案2叶县马庄盐矿段合并，合并以后用第一项的个案号表示生成的新类。

3、相似系数(Coefficients).据聚类分析的基本原理，个案之间亲密程度最高即相似系数最接近于1的，最先合并。因此该列中的系数与第一列的聚类步骤相对应，系数值从小到大排列。

4、新类首次出现的步骤(StageClusterFirstAppears)。对应于各聚类步骤参与合并的两项中，如果有一个是新生成的类(即由两个或两个以上个案合并成的类)，则在对应列中显示出该新类在哪一步第一次生成。如第三步中该栏第一列显示值为1，表示进行合并的两项中第一项是在第一步第一次生成的新类。如果值为O，则表示对应项还是个案(不是新类)。

5、新类下次出现步骤(NextStage)。表示对应步骤生成的新类将在第几步与其他个案或新类合并。如第一行的值是11，表示第一步聚类生成的新类将在第11步与其他个案或新类合并。

6、解析图DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombine聚类树状图（方法：组间平均连接法）图清晰的显示了聚类的全过程。他将实际距离按比例调整到0~25之间，用逐级连线的方式连接性质相近的个案或新类，直至并未一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值，然后垂直标尺划线，该垂线将与水平连线相交，则相交的交点数即为分类的类别数，相交水平连线所对应的个案聚成一类。例如，选标尺值为5，则聚为3类：叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段为一类，叶县姚寨盐矿为一类。若选标尺值为10，则聚为2类：叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。

四、结论

对平顶山市5个盐矿区进行经济区划分，究竟划分为几个区合适，既不是越多越好，也不是越少越好。划分经济区的目的，就是要根据各盐矿经济区资源特点、勘察、开发的不同，分类指导经济活动，使人们的经济活动更加符合当地的实际，使各经济区能充分发挥各自的优势，做到扬长避短，趋利避害，达到投人少、产出多，创造良好的经济效益和社会效益之目的。分区太多，就失去了分区的意义，分区太少，则分类指导很难做到有的放矢。综合以上聚类分析结果，我们可以得出三个方案。其中两个方案比较合适,可供选择。方案一：（当比例尺为5时，分为3类）叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段为一类，叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案一。方案二：(当比例尺为10时，分为2类）叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案二。平顶山市盐矿区分类图方案2聚类分析的原理就是将矿石质量、资源储量、勘查阶段、利用状况相近或相类似的矿区聚合在一起，其分析结果也是直观易见的。在此结合平顶山市实际行政区划以及矿山企业特征我们对铁矿区划分做一个调整使其理论与实际能够结合的更紧密使其更好的指导实践。

1、叶县田庄盐段、叶县马庄盐矿段为一类，这一类属于矿床规模相当，资源储量接近，勘查开发阶段接近，利用程度相当，故，可以分为一类。

2、叶县娄庄盐矿、叶县五里堡盐矿段为一类，这一类属于勘查开发阶段处于同一阶段。

3、叶县姚寨盐矿为一类，这一类属于储量较高，盐矿品位较高，故其勘察开采规划有别于其它两类。总的说来，运用聚类分析是基本成功的，大部分的分类是符合实际的。综合以上论述盐矿区划分如下表所示：当然聚类分析有其优点也有其缺点：(1)优点：聚类分析模型的优点就是直观，结论形式简明。(2)缺点：在样本量较大时，要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试问内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。

模糊聚类分析是聚类分析的一种。聚类分析按照不同的分类标准可以进行不同的分类。就好像人按照性别可以分成男人和女人，按照年龄可以分为老中青一样。聚类分析如果按照隶属度的取值范围可以分为两类，一类叫硬聚类算法，另一类就是模糊聚类算法。隶属度的概念是从模糊集理论里引申出来的。传统硬聚类算法隶属度只有两个值 0 和 1。也就是说一个样本只能完全属于某一个类或者完全不属于某一个类。举个例子，把温度分为两类，大于10度为热，小于或者等于10度为冷，这就是典型的“硬隶属度”概念。那么不论是5度还是负100度都属于冷这个类，而不属于热这个类的。而模糊集里的隶属度是一个取值在[0 1]区间内的数。一个样本同时属于所有的类，但是通过隶属度的大小来区分其差异。比如5度，可能属于冷这类的隶属度值为,而属于热这个类的值为。这样做就比较合理，硬聚类也可以看做模糊聚类的一个特例。你说的动态模糊分析法我在文献里很少见到好像并不主流，似乎没有专门的这样一种典型聚类算法，可能是个别人根据自己需要设计并命名的一种针对模糊聚类的改进方法，这个不好说了就。我见过有把每个不同样本加权的，权值自己确定，这样就冠以“动态"二字，这都是作者自己起的。也有别的也叫”动态“的，可能也不一样，似乎都是个别人自己提出的。至于文献，你可以到中国知网搜索博士或者硕士毕业论文，有关模糊聚类为题目的，在第一章引言里面必然会有详细的介绍，或者联系我，我就是做这方面的。希望能对你有所帮助，给点分吧，打的挺累的。

模糊聚类分析论文参考文献

聚类分析算法论文

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。下面是我分享给大家的聚类分析算法论文，欢迎阅读。

一、引言

聚类分析算法是给定m维空间R中的n个向量，把每个向量归属到k个聚类中的某一个，使得每一个向量与其聚类中心的距离最小。聚类可以理解为：类内的相关性尽量大，类间相关性尽量小。聚类问题作为一种无指导的学习问题，目的在于通过把原来的对象集合分成相似的组或簇，来获得某种内在的数据规律。聚类分析的基本思想是：采用多变量的统计值，定量地确定相互之间的亲疏关系，考虑对象多因素的联系和主导作用，按它们亲疏差异程度，归入不同的分类中一元，使分类更具客观实际并能反映事物的内在必然联系。也就是说，聚类分析是把研究对象视作多维空间中的许多点，并合理地分成若干类，因此它是一种根据变量域之间的相似性而逐步归群成类的方法，它能客观地反映这些变量或区域之间的内在组合关系。盐矿区系统是一个多层次、复杂的大系统,涉及诸多模糊、不确定的因素。平顶山市盐矿区的经济分类是以整个平顶山市的所有盐矿区为研究对象,以各盐矿区为基本单元,以经济为中心,以发展战略和合理布局为目标进行经济类型区划。其基本原则是：平顶山市的盐矿区资源开发、利用的相对一致性；自然、经济、社会条件的一致性；保持一定行政地域单元的相对稳定性。现行的平顶山市盐矿区行政划分不能反映出各个盐矿区的共同点,有必要通过模糊聚类分析将那些经济实际状况相似的铁矿区归类，剖析、发现各况矿区的差异,对症下药，为制定发展对策提供依据。

二、建立指标体系

1、确定分类指标进行经济区划分，应考虑的指标因素是多种多样的。既要以岩盐矿资源储量为主，又要适当考虑岩盐质量和勘察阶段和开发利用状况；既要有直接指标，又要有间接指标；既要考虑矿区发展的现状，又要考虑矿区发展的过程和矿区发展的未来方向。参考有关资料，结合专家意见，我们确定了对平顶山市盐矿区进行经济区划分的指标。如表1所示。表中列举了具体指标及各指标的原始数据（数据来源于河南省2006年矿产资源储量简表）。表1盐矿区经济划分指标体系及指标数据注：表中N表示缺失数据，勘察阶段1、2、3分别表示：初步勘探、详细普查、详细勘探，利用状况1~7分别表示：近期不宜进一步工作、可供进一步工作、近期难以利用、推荐近期利用、计划近期利用、基建矿区、开采矿区。

2、转换指标数据由于不同变量之间存在不同量纲由于不同变量之间存在不同量纲、不同数量级，为使各个变量更具有可比性，有必要对数据进行转换。目前进行数据处理的方法大致有三种，即标准化、极差标准化和正规化。为便于更直观的比较各市之间同一指标的数值大小，我们采用了正规化转换方式。其计算公式为:为了方便叙述，做如下设定：设Xi(i=1，2，3，…，21)为具体指标层中第i个评价指标的值，Pi(i=1，2，3，…，21)为第i个指标正规化后的值，0≤Pi≤1，Xs,i(Xs,i=Xmax-Xmin)，为第i个评价指标的标准值，Xmax为最大值，Xmin为最小值。（1）对于越高越好的`指标①Xi≥Xmax，则Pi=1；②Xi≤Xmin，则Pi=0；③Xmin

三、聚类分析

1、聚类步骤(Stage).从1~3表示聚类的先后顺序。

2、个案合并(ClusterCombined)。表示在某步中合并的个案，如第一步中个案1叶县田庄盐矿段和个案2叶县马庄盐矿段合并，合并以后用第一项的个案号表示生成的新类。

3、相似系数(Coefficients).据聚类分析的基本原理，个案之间亲密程度最高即相似系数最接近于1的，最先合并。因此该列中的系数与第一列的聚类步骤相对应，系数值从小到大排列。

4、新类首次出现的步骤(StageClusterFirstAppears)。对应于各聚类步骤参与合并的两项中，如果有一个是新生成的类(即由两个或两个以上个案合并成的类)，则在对应列中显示出该新类在哪一步第一次生成。如第三步中该栏第一列显示值为1，表示进行合并的两项中第一项是在第一步第一次生成的新类。如果值为O，则表示对应项还是个案(不是新类)。

5、新类下次出现步骤(NextStage)。表示对应步骤生成的新类将在第几步与其他个案或新类合并。如第一行的值是11，表示第一步聚类生成的新类将在第11步与其他个案或新类合并。

6、解析图DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombine聚类树状图（方法：组间平均连接法）图清晰的显示了聚类的全过程。他将实际距离按比例调整到0~25之间，用逐级连线的方式连接性质相近的个案或新类，直至并未一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值，然后垂直标尺划线，该垂线将与水平连线相交，则相交的交点数即为分类的类别数，相交水平连线所对应的个案聚成一类。例如，选标尺值为5，则聚为3类：叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段为一类，叶县姚寨盐矿为一类。若选标尺值为10，则聚为2类：叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。

四、结论

对平顶山市5个盐矿区进行经济区划分，究竟划分为几个区合适，既不是越多越好，也不是越少越好。划分经济区的目的，就是要根据各盐矿经济区资源特点、勘察、开发的不同，分类指导经济活动，使人们的经济活动更加符合当地的实际，使各经济区能充分发挥各自的优势，做到扬长避短，趋利避害，达到投人少、产出多，创造良好的经济效益和社会效益之目的。分区太多，就失去了分区的意义，分区太少，则分类指导很难做到有的放矢。综合以上聚类分析结果，我们可以得出三个方案。其中两个方案比较合适,可供选择。方案一：（当比例尺为5时，分为3类）叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段为一类，叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案一。方案二：(当比例尺为10时，分为2类）叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案二。平顶山市盐矿区分类图方案2聚类分析的原理就是将矿石质量、资源储量、勘查阶段、利用状况相近或相类似的矿区聚合在一起，其分析结果也是直观易见的。在此结合平顶山市实际行政区划以及矿山企业特征我们对铁矿区划分做一个调整使其理论与实际能够结合的更紧密使其更好的指导实践。

1、叶县田庄盐段、叶县马庄盐矿段为一类，这一类属于矿床规模相当，资源储量接近，勘查开发阶段接近，利用程度相当，故，可以分为一类。

2、叶县娄庄盐矿、叶县五里堡盐矿段为一类，这一类属于勘查开发阶段处于同一阶段。

3、叶县姚寨盐矿为一类，这一类属于储量较高，盐矿品位较高，故其勘察开采规划有别于其它两类。总的说来，运用聚类分析是基本成功的，大部分的分类是符合实际的。综合以上论述盐矿区划分如下表所示：当然聚类分析有其优点也有其缺点：(1)优点：聚类分析模型的优点就是直观，结论形式简明。(2)缺点：在样本量较大时，要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试问内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。

［1］李贤彬，李后强，丁晶.人地协同论的理论框架［J］.大自然探索，1996，15(56):23～28

［2］李后强，艾南山，汪富泉.人地协同论:可持续发展模型构建的基础［J］.中国人口·资源与环境，1998，8(3):48～53

［3］魏宏森，曾国屏.试论系统的层次性原理［J］，系统辩证学学报.1995，3(1):42～47

［4］张鲜化，陈金泉.多目标突变论在城市空间发展方向决策中的应用［J］.南方冶金学院学报，2005，26(3):51～55

［5］侯敏，张有坤.多目标突变论在城市用地发展方向决策中的应用———以抚顺市为例［J］.特区经济，2008，24(1):54～56

［6］徐恒力.环境地质学，北京:地质出版社，2009

［7］邵桂华.渐变与突变的整合:突变论的体育教学启示［J］.西安体育学院学报，2006，23(2):104～108

［8］吴效军.城市地质安全战略与城市地质灾害防治规划［J］.规划师论坛，2002，18(1):14～16

［9］陈华文.城市可持续发展中地质环境的经济学分析———以上海城市地质环境为例［D］.上海，复旦大学，2004

［10］韦仕川.土地利用规划的地质环境分析及研究应用:以东莞市为例［D］.浙江:浙江大学，2008

［11］金浩，数量经济学的内涵及前沿问题［J］，河北工业大学学报.2004，33(2):116～120

［12］张屹山，金成晓.数量经济学的特定内涵与学科定位，数量经济技术经济研究［J］，2002，19(11):5～8

［13］周惠成，陈守煌.有模糊约束的多阶段多目标系统模糊优化理论与模型［J］.水利学报，1992，22(2):29～36

［14］唐加福，汪定伟.模糊优化理论与方法的研究综述［J］.控制理论与应用，2000，17(2):160 ～ 164

［15］吴龙军，陈华平，田智慧 . 模糊优化理论在多目标多阶段决策系统中的应用［J］. 价值工程，2004，23 (3): 110 ～ 112

［16］杨庆，栾茂田 . 地下水易污性评价方法———DRASTIC 指标体系［J］. 水文地质工程地质，1999，26(2): 4 ～ 9

［17］孙才志，潘俊 . 地下水脆弱性的概念、评价方法与研究前景 . 水科学进展，2000，10 (4):444 ～ 449

［18］蔡鹤生，周爱国等，地质环境评价理论与应用 . 中国地质大学出版社，1998

［19］ Adams B，Foster SSD Land-surface zoning for groundwater protection. Institution of Water and Environment Managemengt，1992，6: 312 ～ 320

［20］ El Naqa Ali. Aquifer vulnerability assessment using the DRASTIC model at Russeifa landfill，northeast Jordan. Environmental Geology，2004，47 (1): 51 ～ 62

［21］ Thirunalaivasan D，Karmeqam M，Venuqopal K. AHP-DRASTIC: Software for specific aquifer vulnerability assessment using DRASTIC model and GIS. Environmental Modelling and Software，2003，18 (7): 645 ～656

［22］ Al-Zabet T. Evaluation of aquifer vulnerability to contamination potential using the DRASTIC Geology，2002，43 (1): 203 ～ 208

［23］ Lasserre F，Razack M Banton Q. A GIS-linked model for the assessment of nitrate contamination in groundwater. Journal of Hydrology. 1999，224: 81 ～ 90

［24］ AllerI，Bennet T，Lehr J H et al. DRASTIC: a standardized system for evaluating groundwater pollution potential using hydrogeologic settings ［R］. U. S. EPA Report，1987

［25］陈守煜 . 工程水文水资源系统模糊集分析理论与实践［M］. 大连: 大连理工大学出版社，1998

［26］陈守煜 . 含水层脆弱性模糊分析模型与方法［J］. 水利学报，2002，(7): 16 ～ 19

［27］付雁鹏，高嘉瑞 . 模糊数学在水质评价中的应用［M］. 武汉: 华中工学院出版社，1986

［28］ Aller L，Bennett T，Lehr J H et al. DRASTIC: A Standardized system for evaluating groundwater potential using hydrogeological settings ［A］. ROBERT S K. US EPA Report ［R］. Environmental Research Laboratory，Ada Oklahoma，1985

［29］孙才志，潘俊 . 地下水脆弱性的概念、评价方法与研究前景 . 水科学进展，2000，10 (4):444 ～ 449

［30］姜志群 . 地下水污染敏感性评价中 DRASTIC 法的应用 . 河海大学学报，2001，29 (2): 100 ～ 103

［31］杨庆，栾茂田 . 地下水易污性评价方法———DRASTIC 指标体系［J］. 水文地质工程地质，1999，26(2): 4 ～ 9

［32］姜志群 . 地下水污染敏感性评价中 DRASTIC 法的应用 . 河海大学学报，2001，29 (2): 100 ～ 103

［33］杨晓婷，王文科等 . 关中盆地地下水脆弱性评价指标体系的探讨 . 西安工程学院学报，2001，23(2): 46 ～ 49

［34］李玉，彭晓峰，陈慧青 . 统计软件 SPSS 在应用统计学教学中的应用［J］. 金融教学与研究，2009，25 (3): 71 ～ 72

［35］张春月，李晓奇 . 基于 SPSS 的模糊聚类分析［J］. 见: 第七届中国不确定系统年会论文集 . 2009:99 ～ 103

［36］胡应平 . 群决策中模糊偏好集结的软技术［J］. 系统工程理论与实践，1999，19 (5): 105 ～ 109

［37］孙培善等 . 城市地质工作概论［M］. 北京: 地质出版社，2004

［38］戴福初，李军，张晓晖 . 城市建设用地与地质环境协调性评价的 GIS 方法及其应用［J］. 地球科学—中国地质大学学报，2000，25 (2): 210 ～214

［39］王思敬 . 典型人类工程活动与地质环境相互作用研究［M］. 北京: 地质出版社，1995

［40］许树柏 . 层次分析法原理［M］. 天津: 天津大学出版社，1988

［41］张卫民，安景文，韩朝 . 嫡值法在城市可持续发展评价问题中的应用［J］，数量经济技术经济研究 . 2003，20 (6): 115 ～118

［42］孟凡永 . 区间数、三角模糊数及其判断矩阵排序理论研究［D］. 广西大学，2008

［43］宋光兴 . 多属性决策理论、方法及其在矿业中的应用研究［D］. 昆明理工大学，2001

［44］吴恒 . 城市用地的影响因素分析及其评价系统［J］. 地理研究，1995，14 (4): 69 ～ 77

［45］徐泽水 . 三角模糊数互补判断矩阵排序的一种排序方法［J］. 模糊系统与数学，2002，16 (1):47 ～ 50

［46］ Buckley J. J. Ranking Alternatives Using Fuzzy Numbers ［J］，Fuzzy Sets and Systems，1985，15 (1):21 ～ 31

［47］关冲，李汉铃 . 模糊 AHP 决策方法［J］. 管理工程学报，2001，15 (1): 63 ～ 64

［48］胡艳欣，任茂昆 . 地质环境质量的模糊评价［J］. 西部探矿工程，2003，15 (10): 169 ～ 170

［49］蔡鹤生，唐朝晖，周爱国 . 地质环境质量综合评价中的敏感因子模型［J］. 地质科技情报，1998，17 (2): 72 ～ 76

［50］周爱国，梁和成等 . 城市地质环境评价方法专题研究报告，2004

［51］ Shu-Jen J. Chen，Hwang C. L. Fuzzy Multiple Attribute Decision Making: Methods and Applications［M］. New York，Springer-Verlag，1992

［52］刘树林，邱莞华 . 多属性决策基础理论研究［J］. 系统工程理论与实践，1998，18 (1): 38 ～ 43

［53］张梅荣，姜玉英 . 多属性决策方法及其应用［J］. 北京印刷学院学报，2007，15 (2): 72 ～ 75

［54］宋光兴 . 多属性决策理论、方法及其在矿业中的应用研究［D］. 昆明理工大学，2001

［55］谭春桥，张强 . 模糊多属性决策的直觉模糊集方法［J］. 模糊系统与数学，2006，20 (5): 71 ～ 76

［56］周宏安 . 模糊多属性决策方法研究［D］. 西安电子科技大学，2007

［57］张全，樊治平，潘德惠 . 区间数多属性决策中一种带有可能度的排序方法［J］. 控制与决策，1999，14 (6): 703 ～ 707

［58］潘晖 . 多级模糊模式识别模型在地质环境评价中的应用［J］. 西部探矿工程，2007，19 (8):83 ～ 85

［59］谭周地 . 城市工程地质环境质量评价与区划［M］. 北京: 地质出版社，1988

［60］王东祥 . 搞好主题功能区划优化区域开发格局［J］. 浙江经济，2006，23 (16): 4 7

［61］孟昭福，薛澄泽，张增强，等 . 土壤中重金属复合污染的表征［J］. 农业环境保护，1999，18(2): 87 ～ 91

［62］夏立江，王宏康 . 土壤污染及其防治［M］. 上海: 华东理工大学出版社，2001

［63］阮俊华，张志剑，陈英旭，等 . 受污染土壤的农业损失评估法初探［J］. 农业环境保护，2002，21(20): 163 ～ 165

［64］郑昭佩，刘作新 . 土壤质量及其评价［J］. 应用生态学报，2003，14 (1): 131 ～ 134

［65］舒冬妮 . 用模糊数学综合评判土壤中重金属污染程度的探讨［J］. 农业环境保护，1989，8 (5):30 ～ 32

［66］王金生 . 灰色聚类法在土壤污染综合评价中的应用［J］. 农业环境保护，1991，10 (4):169 ～ 172

［67］张松滨 . 共斜率灰色聚类法与土壤环境质量评价［J］. 农业环境保护，1991，10 (2): 80 ～ 83

［68］ DEFRA，EA (The Environment Agency). Assessment of risks to human health from land contamination:an overview of the development of soil guideline values and related research ［M］. London，Environmental Agency，2002: 12 ～ 85

［69］ EA (The Environment Agency)，DEFRA (Department of Environment，Food and Rural Affairs)，Contaminated land Exposure Assessment (CLEA )Model: Technical Basis and Algorithms (include errata)［M］. London，The Environment Agency，2002: 12 ～ 97

［70］罗启仕，李小平 . 上海建设用地土壤指导限值研究［J］. 上海环境学，2007，26 (2): 77 ～ 82

［71］施烈焰，曹云者 . RBCA 和 CLEA 模型在某重金属污染场地环境风险评价中的应用比较［J］. 环境科学研究，2009，22 (2): 241 ～247

［72］ C Paul Nathanail. ，Paul Bardos. Reclamation of Contaminated Land ［M］. New York，John Wiley and sons，2004: 60 ～ 83

［73］周杰，裴宗平，靳晓燕等 . 浅论土壤环境容量［J］. 环境科学与管理，2006，31 (2): 74 ～ 76

［74］叶嗣宗 . 土壤环境背景值在容量计算和环境质量评价中的应用［J］. 中国环境监测，1993，9 (3):52 ～ 54

［75］中国水网 . http: / /www. urumqi. gov. cn/lsshwjg/zilaishui/qysh. htm.

［76］陈梦筱 . 我国水资源现状与管理对策［J］. 市场经纬，2006: 61 ～ 62

［77］唐克旺 . 中国水资源可持续利用战略 . 国家环保总局网站 . 2006

［78］王瑗，盛连喜，李科等 . 中国水资源现状分析与可持续发展对策研究［J］. 水资源与水工程学报，2008，19 (3): 10 ～ 14

［79］董辅祥 . 城市与工业节约用水理论［M］. 北京: 中国建筑工业出版社，2000

［80］中国科学技术协会主编，中国城市承载力及其危机管理研究报告，2008

［81］贾生华，张宏斌，金星 . 城市土地储备制度: 模式、效果、问题和对策［J］. 现代城市研究，2001，(3): 44 ～ 47

模糊聚类的时候,要计算2个数据之间的相似度（或相异度）。定量属性就用距离来算就行了。定性属性又分2种，一种是没有序的关系的。比如颜色，性别等等。一种是有序的关系的。比如一等品，二等品等等。定性属性没有序的关系时，相异度可以用相同属性的个数与定性属性的总数之间的比值来衡量。【还有很多其他方法。。】定性属性有序的关系时，相异度可以把定性属性当成量化后的定量属性来衡量【直接计算距离】。个人觉得没有必要用等级划分的方法来统一这些属性指标。【因为，你在等级划分的时候可能会丢失掉一些有用的信息。而丢掉的这些信息也许会对最后的结果有影响。也就是说，如果你的聚类结果和等级划分方法相关，那么，聚类结果的说服力就会下降。】如果一定要这样，等级划分就相当于做量化处理。如果均匀分组【等宽】，要决定组距，组数，野点的处理等等。不均匀分组【等深，或其他准则】，要决定组深，组数等等。总之，分组的时候，既要尽量保留原有数据之间的关联，又要尽量将数据区分开。俺觉得，等级划分的困难和确定定性属性之间的相异度相比，并不低。要等级划分，可以找量化，数据分组等方面的参考文献。要确定定性属性之间的相异度，可以找相异度，特别是混合数据类型之间的相异度方面的文献。

毕业论文做聚类分析

这个题目的确是有点超出本科生能力，因为数据聚类算法很多，都不是很容易实现，更不用说在效果，效率上的分析，而且绝大多数算法的优缺点早就总结过了，也很难创新，我专业是数据挖掘，我在研究生期间都不做这样的论文

一、聚类 1.准备工作（1）研究目的聚类分析是根据事物本身的特性研究个体分类的方法，聚类分析的原则是同一类别的个体有较大相似性，不同类别的个体差异比较大。（2）数据类型 1）定量：数字有比较意义，比如数字越大代表满意度越高，量表为典型定量数据。 2）定类：数字无比较意义，比如性别，1代表男，2代表女。 PS： SPSSAU会根据数据类型自动选择聚类方法。 K-modes聚类：数据类型仅定类时。 2.上传数据到SPSSAU 登录账号后进入SPSSAU页面，点击右上角“上传数据”，将处理好的数据进行“点击上传文件”上传即可。操作（1）拖拽分析项 1） SPSSAU进阶方法→聚类。 2）检查检查分析项是否都在左侧分析框中。 3）进行拖拽（2）选择参数聚类个数：聚类个数设置为几类主要以研究者的研究思路为标准，如果不进行设置，SPSSAU默认聚类个数为3，通常情况下，建议设置聚类数量介于3~6个之间。标准化：聚类算法是根据距离进行判断类别，因此一般需要在聚类之前进行标准化处理，SPSSAU默认是选中进行标准化处理。数据标准化之后，数据的相对大小意义还在（比如数字越大GDP越高），但是实际意义消失了。保存类别：分析选择保存‘保存类别’，SPSSAU会生成新标题用于标识，也可以右上角“我的数据”处查看到分析后的“聚类类别”。新标题类似如下：Cluster_********。分析（1）聚类类别基本情况汇总分析使用聚类分析对样本进行分类，使用Kmeans聚类分析方法，从上表可以看出：最终聚类得到4类群体，此4类群体的占比分别是, , , 。整体来看， 4类人群分布较为均匀，整体说明聚类效果较好。（2）聚类类别汇总图分析上图可以直观的看到各个类别所占百分比，4类群体的占比分别是, , , 。（3）聚类类别方差分析差异对比使用方差分析去探索各个类别的差异特征，从上表可知：聚类类别群体对于所有研究项均呈现出显著性(p<),意味着聚类分析得到的4类群体，他们在研究项上的特征具有明显的差异性，具体差异性可通过平均值进行对比，并且最终结合实际情况，对聚类类别进行命名处理。（4）聚类项重要性对比从上述结果看，所有研究项均呈现出显著性，说明不同类别之间的特征有明显的区别，聚类的效果较好。（5）聚类中心 5.其它说明（1）聚类中心是什么？聚类中心是聚类类别的中心点情况，比如某类别时年龄对应的聚类中心为20，意味着该类别群体年龄基本在20岁左右。初始聚类中心基本无意义，它是聚类算法随机选择的聚类点，如果需要查看聚类中心情况，需要关注于最终聚类中心。实际分析时聚类中心的意义相对较小，其仅为聚类算法的计算值而已。（2）k-prototype聚类是什么？如果说聚类项中包括定类项，那么SPSSAU默认会进行K-prototype聚类算法（而不是kmeans算法）。定类数据不能通过数字大小直接分析距离，因而需要使用K-prototype聚类算法。（3）聚类分析时SSE是什么意思？在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值，该值可用于测量各点与中心点的距离情况，理论上是希望越小越好，而且如果同样的数据，聚类类别越多则SSE值会越小（但聚类类别过多则不便于分析）。 SSE指标可用于辅助判断聚类类别个数，建议在不同聚类类别数量情况下记录下SSE值，然后分析SSE值的减少幅度情况，如果发现比如从3个聚类到4个类别时SSE值减少幅度明显很大，那么此时选择4个聚类类别较好。二、分层聚类 1.准备工作（1）研究目的从分析角度上看，聚类分析可分为两种，一种是按样本（或个案）聚类，此类聚类的代表是K-means聚类方法；另外一种是按变量（或标题）聚类，此类聚类的代表是分层聚类。（2）数据类型 2.上传数据到SPSSAU 登录账号后进入SPSSAU页面，点击右上角“上传数据”，将处理好的数据进行“点击上传文件”上传即可。操作（1）拖拽分析项 1） SPSSAU进阶方法→分层聚类。 2）检查检查分析项是否都在左侧分析框中。 3）进行拖拽（2）确定参数 SPSSAU会默认聚类为3类并且呈现表格结果，如果希望更多的类别个数，可自行进行设置。分析（1）聚类项描述分析上表格展示总共8个分析项（即8个裁判数据）的基本情况，包括均值，最大或者最小值，中位数等，以便对于基础数据有个概括性了解。整体上看，8个裁判的打分基本平均在8分以上。（2）聚类类别分布表分析总共聚类为3个类别，以及具体分析项的对应关系情况。在上表格中展示出来，上表格可以看出：裁判8单独作为一类；裁判5，3，7这三个聚为一类；以及裁判1，6，2，4作为一类。（PS：聚类类别与分析项上的对应关系可以在上表格中得到，同时也可以查看聚类树状图得出更多信息。至于聚类类别分别应该叫做什么名字，这个需要结合对应有关系情况，自己单独进行命名。）（3）聚类树状图分析上图为聚类树状图的展示，聚类树状图是将聚类的具体过程用图示法手法进行展示；最上面一行的数字仅仅是一个刻度单位，代表相对距离大小；一个结点表示一次聚焦过程。树状图的解读上，建议单独画一条垂直线，然后对应查看分成几个类别，以及每个类别与分析项的对应关系。比如上图中，红色垂直线最终会拆分成3个类别；第1个类别对应裁判8；第2个类别对应裁判5，3，7；第3个类别对应裁判1，6，2，4。如果是聚为四类；从上图可看出，明显的已经不再合适。原因在于垂直线不好区分成四类。也即说明有2个类别本应该在一起更合适（上图中的裁判1与6/2/4）；但是如果分成4类，此时裁判1会单独成一类。所以画垂直线无法区分出类别。因而综合分析来看，最终聚类为3个类别最为适合。当然在分析时也可以考虑分成2个类别，此时只需要对应将垂直线移动即可。 5.其它说明（1）针对分层聚类，需要注意以下几点：（2）什么时候做因子分析后再做聚类分析？如果题项较多，可先做因子分析，得到每个维度（因子）的数据，再进行聚类。三、总结聚类分析广泛的应用于自然科学、社会科学等领域。在分析时可以比较多次聚类结果，综合选择更适合的方案。以上就是聚类分析步骤汇总，更多干货请前往官网查看！

聚类分析算法论文

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。下面是我分享给大家的聚类分析算法论文，欢迎阅读。

一、引言

聚类分析算法是给定m维空间R中的n个向量，把每个向量归属到k个聚类中的某一个，使得每一个向量与其聚类中心的距离最小。聚类可以理解为：类内的相关性尽量大，类间相关性尽量小。聚类问题作为一种无指导的学习问题，目的在于通过把原来的对象集合分成相似的组或簇，来获得某种内在的数据规律。聚类分析的基本思想是：采用多变量的统计值，定量地确定相互之间的亲疏关系，考虑对象多因素的联系和主导作用，按它们亲疏差异程度，归入不同的分类中一元，使分类更具客观实际并能反映事物的内在必然联系。也就是说，聚类分析是把研究对象视作多维空间中的许多点，并合理地分成若干类，因此它是一种根据变量域之间的相似性而逐步归群成类的方法，它能客观地反映这些变量或区域之间的内在组合关系。盐矿区系统是一个多层次、复杂的大系统,涉及诸多模糊、不确定的因素。平顶山市盐矿区的经济分类是以整个平顶山市的所有盐矿区为研究对象,以各盐矿区为基本单元,以经济为中心,以发展战略和合理布局为目标进行经济类型区划。其基本原则是：平顶山市的盐矿区资源开发、利用的相对一致性；自然、经济、社会条件的一致性；保持一定行政地域单元的相对稳定性。现行的平顶山市盐矿区行政划分不能反映出各个盐矿区的共同点,有必要通过模糊聚类分析将那些经济实际状况相似的铁矿区归类，剖析、发现各况矿区的差异,对症下药，为制定发展对策提供依据。

二、建立指标体系

1、确定分类指标进行经济区划分，应考虑的指标因素是多种多样的。既要以岩盐矿资源储量为主，又要适当考虑岩盐质量和勘察阶段和开发利用状况；既要有直接指标，又要有间接指标；既要考虑矿区发展的现状，又要考虑矿区发展的过程和矿区发展的未来方向。参考有关资料，结合专家意见，我们确定了对平顶山市盐矿区进行经济区划分的指标。如表1所示。表中列举了具体指标及各指标的原始数据（数据来源于河南省2006年矿产资源储量简表）。表1盐矿区经济划分指标体系及指标数据注：表中N表示缺失数据，勘察阶段1、2、3分别表示：初步勘探、详细普查、详细勘探，利用状况1~7分别表示：近期不宜进一步工作、可供进一步工作、近期难以利用、推荐近期利用、计划近期利用、基建矿区、开采矿区。

2、转换指标数据由于不同变量之间存在不同量纲由于不同变量之间存在不同量纲、不同数量级，为使各个变量更具有可比性，有必要对数据进行转换。目前进行数据处理的方法大致有三种，即标准化、极差标准化和正规化。为便于更直观的比较各市之间同一指标的数值大小，我们采用了正规化转换方式。其计算公式为:为了方便叙述，做如下设定：设Xi(i=1，2，3，…，21)为具体指标层中第i个评价指标的值，Pi(i=1，2，3，…，21)为第i个指标正规化后的值，0≤Pi≤1，Xs,i(Xs,i=Xmax-Xmin)，为第i个评价指标的标准值，Xmax为最大值，Xmin为最小值。（1）对于越高越好的`指标①Xi≥Xmax，则Pi=1；②Xi≤Xmin，则Pi=0；③Xmin

三、聚类分析

1、聚类步骤(Stage).从1~3表示聚类的先后顺序。

2、个案合并(ClusterCombined)。表示在某步中合并的个案，如第一步中个案1叶县田庄盐矿段和个案2叶县马庄盐矿段合并，合并以后用第一项的个案号表示生成的新类。

3、相似系数(Coefficients).据聚类分析的基本原理，个案之间亲密程度最高即相似系数最接近于1的，最先合并。因此该列中的系数与第一列的聚类步骤相对应，系数值从小到大排列。

4、新类首次出现的步骤(StageClusterFirstAppears)。对应于各聚类步骤参与合并的两项中，如果有一个是新生成的类(即由两个或两个以上个案合并成的类)，则在对应列中显示出该新类在哪一步第一次生成。如第三步中该栏第一列显示值为1，表示进行合并的两项中第一项是在第一步第一次生成的新类。如果值为O，则表示对应项还是个案(不是新类)。

5、新类下次出现步骤(NextStage)。表示对应步骤生成的新类将在第几步与其他个案或新类合并。如第一行的值是11，表示第一步聚类生成的新类将在第11步与其他个案或新类合并。

6、解析图DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombine聚类树状图（方法：组间平均连接法）图清晰的显示了聚类的全过程。他将实际距离按比例调整到0~25之间，用逐级连线的方式连接性质相近的个案或新类，直至并未一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值，然后垂直标尺划线，该垂线将与水平连线相交，则相交的交点数即为分类的类别数，相交水平连线所对应的个案聚成一类。例如，选标尺值为5，则聚为3类：叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段为一类，叶县姚寨盐矿为一类。若选标尺值为10，则聚为2类：叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。

四、结论

对平顶山市5个盐矿区进行经济区划分，究竟划分为几个区合适，既不是越多越好，也不是越少越好。划分经济区的目的，就是要根据各盐矿经济区资源特点、勘察、开发的不同，分类指导经济活动，使人们的经济活动更加符合当地的实际，使各经济区能充分发挥各自的优势，做到扬长避短，趋利避害，达到投人少、产出多，创造良好的经济效益和社会效益之目的。分区太多，就失去了分区的意义，分区太少，则分类指导很难做到有的放矢。综合以上聚类分析结果，我们可以得出三个方案。其中两个方案比较合适,可供选择。方案一：（当比例尺为5时，分为3类）叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段为一类，叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案一。方案二：(当比例尺为10时，分为2类）叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案二。平顶山市盐矿区分类图方案2聚类分析的原理就是将矿石质量、资源储量、勘查阶段、利用状况相近或相类似的矿区聚合在一起，其分析结果也是直观易见的。在此结合平顶山市实际行政区划以及矿山企业特征我们对铁矿区划分做一个调整使其理论与实际能够结合的更紧密使其更好的指导实践。

1、叶县田庄盐段、叶县马庄盐矿段为一类，这一类属于矿床规模相当，资源储量接近，勘查开发阶段接近，利用程度相当，故，可以分为一类。

2、叶县娄庄盐矿、叶县五里堡盐矿段为一类，这一类属于勘查开发阶段处于同一阶段。

3、叶县姚寨盐矿为一类，这一类属于储量较高，盐矿品位较高，故其勘察开采规划有别于其它两类。总的说来，运用聚类分析是基本成功的，大部分的分类是符合实际的。综合以上论述盐矿区划分如下表所示：当然聚类分析有其优点也有其缺点：(1)优点：聚类分析模型的优点就是直观，结论形式简明。(2)缺点：在样本量较大时，要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试问内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。

聚类分析数学建模论文

聚类分析在企业网络营销中的应用论文

论文摘要：本文针对企业网络营销中的大量数据为基础进行数据的分析，依据数据挖掘技术中典型的聚类分析方法进行数据的处理，并以一个网络营销公司为例，对其客户信息进行了聚类分析，得到了一些有价值的信息，对于企业的营销策略的决策给与一定的支持。

论文关键词：聚类分系,网络营销,策略,客户关系

0前言

现代科学技术的迅猛发展，特别是在互联网的应用和开发上更加的迅速，企业必须通过网络对自己的产品加强宣传以增强自己的竞争力。客户是一个非常重要的、有价值的重要资源，现在如何更好地从数据库中挖掘出客户中有价值的信息，更好的培植和经营与有价值客户的关系，抛弃那些无利可图没有发展前景而且营销费用高的客户，并且可以针对不同价值的客户给与不同的政策同时制定出个性化的营销策略，这些才能够保证企业的生存发展。对于这一切数据挖掘无疑是行之有效的好方法之一。本文以一个网络营销公司为例，提出了一套可操作性的对客户价值评价方法，然后使用数据挖掘技术中比较常见和常用的聚类分析算法对客户信息进行聚类从而达到非常重要的信息并为企业在网络营销中提供决策依据。

1聚类分析

聚类（clustering）是对于数据挖掘技术是非常重要的一部分，现在也是数据挖掘技术中关键的一种。聚类的意义就是针对物理或逻辑上的数据对象的进行自动分类，最后将数据对象分为多个类或簇的过程。对于聚类结果要使得数据对象在同一个分类中具有最大的相似度，而在不同的类中具有最小相似度。聚类的现实意义就是在于可以将数据按照一定得关系进行自动的分类，事先不知道所有的数据对象共有多少类，通过算法的处理最后得到一个分类结果进行应用。譬如在市场研究领域中，特别是针对网络营销的企业或网站，从大量的网络数据进行分析聚类，可以讲客户分成不同的类别，针对这些类别不同的购买力和兴趣爱好来进行个性化的营销手段，提高企业的经济效益。目前研究人员大多针对于聚类分析算法的改进和完善进行研究，进而提高聚类分析的工作效率。著名的算法有：CLARANS，BRICH，DBSCAN，CURE，STING，CLIGUE和WaveCluster等。

2聚类分析应用于企业客户资源管理

现针对某电子商务公司进行分析，该电子商务公司的客户分布在全国各地以及国外一些地区，现仅列出具有代表性的10个大客户：吉林，黑龙江，山东，江苏，浙江，安徽，湖南，缅甸，印度，南非等。在数据挖掘的目的就是从客户中找到一些共同点，在对这些客户数据进行处理前要使用聚类分析的方法进行研究看看这10个客户能否有一些共同之处以便企业针对不同类型的客户给与不同的对策，首先对该公司采用专家打分的方法，而且还有通过网上问卷调查和访谈的方式，收集各地销售专员的意见等方式，然后对数据加以综合，最后聚类分析法确定各项指标的权重。

那么在具体实施聚类分析法的时候可分为5个步骤进行：

第1步：首先对各项指数构建层次结构，其中被评定的10个大客户作为方案层，客户价值放在目标层中进行处理，各项指标是准则层，按照这样的分层结构来构造客户关系评价系统中个指数的结构图，见图2-1所示；

从数据可以看出有两种情形：一是缅甸和南非，从数据中可看出这类客户的当前价值很小，但是具有很大的隐含价值，势必会有一天他们的成长给企业会带来丰厚的物质利益，这样具有发展潜能的客户应该采取措施激发潜能；二是安徽和印度这类客户，虽然从数据中看出这类客户当前价值很小，但是就这两个省份的地理位置和经济状况来分析他们隐含着较大的价值。对于这一类的客户，企业就应该采取灵活的措施，激发他们的购买能力促使该类型的客户不断地向前发展；

第2类是“维持型”客户，他们会源源不断的为企业提供利润，如黑龙江和江苏，他们这类客户根据以往的交易记录分析到得结果就是目前价值大，不过没什么发展的潜能，或者说在某种情况下它的时常还会萎缩，当前这类客户会给企业带肋比较丰厚的利润但是就长期发展而言却不是利润的主要来源，他们在某种情况下会流失掉，会被其他的企业竞争对手的介入而流失，为此对于企业一方面要维持与这类客户的良好关系，保持稳定的`客户关系，另一方面还要采取一些营销手段来刺激该类客户的消费，提供一些个性化的服务和策略；

第3类“淘汰型”客户，这类用户就如同鸡肋了，对于企业的现在和将来都意义不大，目前的销售份额较小，企业对他们营销的成本还很高，年利润率很低，根据分析这类客户包括浙江、湖南和吉林，他们没有长期的发展的趋势，所以企业采取的策略就是应充分挖掘他们给企业带来的当前价值后逐渐地放弃他们；

第4类是“贵宾型”客户，这类用户是企业的主要经济利润的来源，在某种程度上可以说是企业生存的保证，他对企业是关系到生死存亡的重要客户，从数据中看山东就是该企业的这类贵宾型的客户，他的当前价值和潜在价值都很大，企业必须认真对待，细心呵护与这类客户的关系，以及该客户企业的关键性人物的关系，加强与这类客户的沟通和关系的培养，同时还要提高警惕，防止竞争对手抢走这些贵宾型客户。针对贵宾型客户企业就应该对其进行一对一的营销策略，进行良好的客户需求沟通，尽最大可能满足他们的需求，适当给与一些特殊政策来加强和他们的关系。从不同角度来加强客户对企业的忠诚度、满意度等。企业根据这些重要的信息就可以针对不同的客户采取合适的销售策略。

3小结

总之，企业首先对客户的价值进行全方位、多角度进行评价，再将分析结果量化后进行数据挖掘，通过聚类分析，对客户进行细分，针对不同类型的客户给与个性化的服务。

现对数据进行分析，用软件进行拟合或者求一下他们的相关性，或者根据数据结合实际生活，讲不合理的数据进行剔除

你的问题问的太宽泛了，我就是搞建模的，都不到从何开始回答你，想要进一步讨论的话可以hi我。论文七大部分肯定是必不可少的:问题重述，模型假设，问题分析，模型建立，模型求解，结果分析及检验，(包括灵敏度分析，如果需要的话)模型推广，当然还得有目录和摘要以及参考文献了

浣熊在水溪中洗它们的肉食。正无神地凝视记忆的某个角落而使那思想麻木哦，窃贼的大门世界没有篱笆和栅栏历经的却是这个的的悲欢苦中哈哈

采用聚类分析的毕业论文

基于聚类分析的广西区域经济发展状况研究的论文

【摘要】：本文以广西壮族自治区14个地级市作为研究对象，从地区生产总值、社会消费品零售总额、全社会固定资产投资、公共财政预算收支总额等方面，选取11个具体指标，运用聚类分析方法分析并评价各地级市经济发展状况。研究结果显示，广西14个地级市可划分为四类经济区域，不同城市之间的经济发展水平存在较大差异。在此基础上，从加强各地级市之间的经济合作、积极推动开放型经济发展、强化科技创新以推动产业结构优化升级等方面提出具体建议，为促进广西区域经济的全面发展提供参考。

【关键词】：聚类分析；广西；经济发展；政策建议

一、引言

近年来，随着中国—东盟自由贸易区的建成，中国与东盟各国贸易投资增长，经济融合加深，经贸往来愈加频繁。广西作为中国—东盟自由贸易区的门户省份，加之“一带一路”战略的提出与实施，良好的区位优势和资源环境承载能力，无疑将会为推动广西区域经济的腾飞提供持续的动力和良好的机遇，发展前景十分广阔。但由于历史的原因，加上人口、社会和基础设施等因素的影响，广西的经济发展水平和人均地区生产总值在内陆31个省、市、自治区中仍处于中下水平，与上述提到拥有的区位优势、经济优势是极不相称的。广西下辖的14个地级市经济发展程度和产业结构也存在一定的差异。一直以来，区域经济发展问题都是区域经济学、经济地理学等学科关注和研究的对象，区域经济发展中出现差距，是各国经济发展中存在的普遍现象[1]。如何就广西下辖的14个地级市进行经济发展程度的分析和分类，对于正确认识广西各地级市经济发展所处的发展阶段，制定正确的宏观政策，以促进各地区的良好协调发展具有重要的理论和现实意义。

二、研究区域概况

广西壮族自治区，简称“桂”，首府南宁，位于中国华南地区西部，与广东、湖南等省份接壤，南濒北部湾，面向东南亚，是中国唯一一个沿海自治区，自然条件优越，资源丰富，尤以海洋资源和矿产资源为甚。截至2015年12月，全区辖14个地级市，县级行政区111个，行政区划面积万平方公里。2015年全区总人口为5518万人，地区生产总值亿元，占全国的。人均地区生产总值为39150元。但由于历史的原因，加上人口、社会和基础设施等因素的影响，广西的经济发展水平，无论是地区生产总值还是三大产业结构完善程度等方面，在内陆31个省市中均处于中下水平。区内下辖的14个地级市，经济发展水平和产业结构各异，部分地级市经济发展程度相对滞后。近年来，随着中国—东盟自由贸易区的建成和“一带一路”战略的实施，广西吸引着国内外大量的资本和人力涌入，显现出广阔的发展前景。

三、聚类分析方法研究设计

（一）指标选择及数据来源

区域经济发展状况的研究，依靠单一的指标，是无法对其进行综合、全面的评价与分析的。因此，在对广西区域经济发展水平分析评价的过程中，需要借助多个评价指标，构建合理完善的评价指标体系。本着建立评价指标体系要遵循科学性、系统性、全面性、独立性、可操作性等原则，本文在参考以往文献资料的基础上，根据广西各地级市经济发展状况、人口条件、社会资源等方面的实际情况选取了11个具体指标，分别是：行政区划土地面积（平方公里）、地区生产总值（亿元）、人均地区生产总值（元）、户籍年末总人口（万人）、固定资产投资（亿元，不含农户）、公共财政预算收入（亿元）、公共财政预算支出（亿元）、农民居民人均纯收入（元）、城镇居民人均可支配收入（元）、社会消费品零售总额（亿元）、进出口总额（人民币，万元）。为方便后续各指标数据的处理，分别以X1、X2、X3、X4、X5、X6、X7、X8、X9、X10和X11指代。各指标详细数据均来自《广西统计年鉴2016》和《2015年广西壮族自治区国民经济与社会发展统计公报》。

（二）数据处理

本文利用对反映广西14个地级市经济发展状况的指标进行聚类分析。由上述内容可知，研究所选取的11个指标由于它们原始数据量刚的不同，为防止指标取值的分散程度较大，需对各指标的取值做标准化处理。

各指标数据经过标准化处理后，X2（地区生产总值）与X5（固定资产投资）、X6（公共财政预算收入）、X10（社会消费品零售总额）的相关系数都大于，故而这四个指标不必均作为聚类变量，选择其中一个即可，本文选择X2（地区生产总值）。接着，运用不同的聚类方法进行聚类分析。

（三）结果分析

本文利用对广西14个地级市经济发展状况进行聚类分析，在对选定的11个聚类变量的数据经过标准化处理后，依据结果聚类个数的不同，而相继运用系统聚类和K—均值聚类法进行聚类分析，并得出结果。参考以往文献资料对广西14个地级市经济发展状况的分类，以及广西各地区实际的经济、社会和人口状况，本文认为对广西14个地级市经济发展水平的分类，聚类个数分为四类比较适宜。对于广西14个地级市经济发展水平的分类应为：南宁、北海、钦州为第一类；柳州、桂林、梧州、贵港、玉林、百色、贺州、河池、来宾为第二类；防城港为第三类；崇左为第四类。

由聚类分析结果可知，南宁、北海、钦州为第一类，这三个地级市经济相对发达。南宁是广西的首府，全区的政治、经济、文化、金融和信息中心，经济发展程度高，产业结构相对完整，良好的区位优势、众多的政策支持以及坚实的经济发展基础，使得南宁在多方面的发展都领跑于广西区的其他地级市。北海是全国14个沿海开放城市之一，处于泛北湾经济合作区域结合部的中心位置，便捷、高效的交通设施，众多经济圈的发展福利，以及丰富的海洋资源、繁荣的旅游业，都推动着北海经济社会的快速发展。钦州，南海之滨，北部湾经济区南的中心位置，是大西南最便捷的出海通道，依托于得天独厚的港口优势，大力发展进出口贸易。

柳州、桂林、梧州、贵港、玉林、百色、贺州、河池、来宾为第二类，这9个地级市经济发展水平较高，三大产业结构相对完善，各自依托于自身的经济发展优势，经济发展增速较快。

防城港和崇左分别是第三和第四类。防城港是中国的深水良港，是中国25个沿海主要港口之一，对外贸易额较高，在中国—东盟自由贸易区、泛北部湾区域合作中具有特殊重要的战略地位。崇左位于广西西南部，地理位置相对较差，工业基础薄弱，交通设施落后，虽然资源丰富，但限于人力资源的短板，是广西经济发展较为落后的地级市。

四、结论及政策建议

本文利用对广西14个地级市经济发展状况进行聚类分析，将广西14个地级市经济发展水平分为四类，分别是南宁、北海、钦州为第一类；柳州、桂林、梧州、贵港、玉林、百色、贺州、河池、来宾为第二类；防城港为第三类；崇左为第四类。从聚类分析的结果来看，就如何促进广西区域经济的快速、协调发展，可从以下几个方面着手：

（一）加强各地级市之间的经济合作，增强较发达地区的经济辐射力度

广西各地区经济发展水平差异显著，各自依托的经济发展要素也不尽相同，例如人力资本、环境资源、基础设施完善程度和地理位置等就相差较大。因此，各地区根据自身的条件优势，因地制宜地制定经济发展策略，就显得尤为重要。因地制宜地制定经济发展策略的同时，加强各地级市之间的经济合作，实现资源、信息的共享互通，人力、资金的自由流通，各自取长补短，将为促进各地区的快速、协调发展发挥重要作用。以南宁、桂林和柳州为主的老牌较发达地区，拥有较发达的工业基础、第三产业和相对完善的基础设施，在立足自身优势发展，加强与各地级市之间的经济合作中，要发挥好领头羊的作用，率先做出垂范，积极探索出可供借鉴的合作模式，增强对周边地级市的经济辐射力度，以少带多，以强扶弱，真正促进广西经济发展迈上新台阶。

（二）依托良好的区位优势和叠加的'政策优势，积极推动开放型经济发展

随着经济全球化和区域经济一体化的发展，我国经济和世界经济发展的融合在不断加深，积极推动外向型经济的发展，成为了我国及各地区经济转型升级的关键所在。2015年3月，国家发改委、外交部和商务部联合发布了《推动共建丝绸之路经济带和21世纪海上丝绸之路的愿景与行动》，广西借助于自身的区位优势，被纳入国家“一带一路”建设规划，发展开放型经济面临着重大的历史机遇。广西的外向型经济近些年来虽有发展，但整体情况仍不容乐观，相对薄弱的经济基础制约着开放型经济的发展后劲以及支撑开放型经济发展的高级要素也存在不足[2]。借助于“一带一路”战略实施的机遇和叠加密集的国家开发政策，依托沿海、沿江、沿边的区位优势，借鉴东部沿海典型的开放型经济发展模式，例如上海模式和东莞模式，积极推动广西的外向型经济发展，才能快速、协调地完成广西经济的转型升级。

（三）强化科技创新，加速推动产业结构优化升级

科技创新与产业结构优化升级是长期的协调关系，依托于科技创新能有效推动产业结构优化升级。一般来说，产业结构指的是一二三产业所占的比重，产业结构优化升级有两个含义：一个是产业结构合理化，另一个是产业结构高级化，如果第三产业所占的比重越大，那么可以说它的高级化程度越大[3]。未来一段时间，可以从以下几个方面强化科技创新，加速广西产业结构的转型升级：一是加强科技创新方面的改革，建立完善的科技管理协调机制和信息公开机制，优化科技资源配置机制，以统筹科技创新全方位管理；二是加大对科技创新的财政支持，保证各项用于科技创新的资金行使到位；三是优化科技创新体系，不仅要保证建立完善的科技创新管理机制，更要全面扩大科技创新的主体，落实科技创新成果的投入使用。

（四）完善各地区的基础设施建设，大力发展地区特色经济

广西各地区经济发展水平差异显著，相对发达的地区，例如南宁、柳州和桂林等，除主城经济区外，基础设施建设仍不尽完善。河池、百色、崇左等市地处偏远地区，交通不便，基础设施建设更是落后。良好的交通条件、便利的通讯设施、覆盖全面的水利、电力设施等是居民和企业的共同物质基础，更是物质生产和劳动力再生产的重要条件。因此，各地区应把完善基础设施建设放在重要位置，适当扩大社会固定资产投资总量，积极利用本地区丰富的人文资源，打好“侨牌”，让更多拥有广西籍的海外华人华侨参与到广西的经济建设之中，尽快完善基础设施建设，为经济的快速发展提供良好的基础。同时，各地区应找准自身的发展定位，结合地区优势，大力发展地区特色经济。

参考文献：

[1]孟倩.基于主成分分析和聚类分析的山东省区域经济协调发展研究[J].区域经济，2016（1）：138-139

[2]李继宏.“一带一路”建设背景下广西开放型经济发展模式及实现路径[J].广西社会科学，2016（4）：14-19

[3]徐晓慧.广西科技创新对产业结构升级的影响[J].合作经济与科技，2016（11）：19-21

聚类分析算法论文

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。下面是我分享给大家的聚类分析算法论文，欢迎阅读。

一、引言

聚类分析算法是给定m维空间R中的n个向量，把每个向量归属到k个聚类中的某一个，使得每一个向量与其聚类中心的距离最小。聚类可以理解为：类内的相关性尽量大，类间相关性尽量小。聚类问题作为一种无指导的学习问题，目的在于通过把原来的对象集合分成相似的组或簇，来获得某种内在的数据规律。聚类分析的基本思想是：采用多变量的统计值，定量地确定相互之间的亲疏关系，考虑对象多因素的联系和主导作用，按它们亲疏差异程度，归入不同的分类中一元，使分类更具客观实际并能反映事物的内在必然联系。也就是说，聚类分析是把研究对象视作多维空间中的许多点，并合理地分成若干类，因此它是一种根据变量域之间的相似性而逐步归群成类的方法，它能客观地反映这些变量或区域之间的内在组合关系。盐矿区系统是一个多层次、复杂的大系统,涉及诸多模糊、不确定的因素。平顶山市盐矿区的经济分类是以整个平顶山市的所有盐矿区为研究对象,以各盐矿区为基本单元,以经济为中心,以发展战略和合理布局为目标进行经济类型区划。其基本原则是：平顶山市的盐矿区资源开发、利用的相对一致性；自然、经济、社会条件的一致性；保持一定行政地域单元的相对稳定性。现行的平顶山市盐矿区行政划分不能反映出各个盐矿区的共同点,有必要通过模糊聚类分析将那些经济实际状况相似的铁矿区归类，剖析、发现各况矿区的差异,对症下药，为制定发展对策提供依据。

二、建立指标体系

1、确定分类指标进行经济区划分，应考虑的指标因素是多种多样的。既要以岩盐矿资源储量为主，又要适当考虑岩盐质量和勘察阶段和开发利用状况；既要有直接指标，又要有间接指标；既要考虑矿区发展的现状，又要考虑矿区发展的过程和矿区发展的未来方向。参考有关资料，结合专家意见，我们确定了对平顶山市盐矿区进行经济区划分的指标。如表1所示。表中列举了具体指标及各指标的原始数据（数据来源于河南省2006年矿产资源储量简表）。表1盐矿区经济划分指标体系及指标数据注：表中N表示缺失数据，勘察阶段1、2、3分别表示：初步勘探、详细普查、详细勘探，利用状况1~7分别表示：近期不宜进一步工作、可供进一步工作、近期难以利用、推荐近期利用、计划近期利用、基建矿区、开采矿区。

2、转换指标数据由于不同变量之间存在不同量纲由于不同变量之间存在不同量纲、不同数量级，为使各个变量更具有可比性，有必要对数据进行转换。目前进行数据处理的方法大致有三种，即标准化、极差标准化和正规化。为便于更直观的比较各市之间同一指标的数值大小，我们采用了正规化转换方式。其计算公式为:为了方便叙述，做如下设定：设Xi(i=1，2，3，…，21)为具体指标层中第i个评价指标的值，Pi(i=1，2，3，…，21)为第i个指标正规化后的值，0≤Pi≤1，Xs,i(Xs,i=Xmax-Xmin)，为第i个评价指标的标准值，Xmax为最大值，Xmin为最小值。（1）对于越高越好的`指标①Xi≥Xmax，则Pi=1；②Xi≤Xmin，则Pi=0；③Xmin

三、聚类分析

1、聚类步骤(Stage).从1~3表示聚类的先后顺序。

2、个案合并(ClusterCombined)。表示在某步中合并的个案，如第一步中个案1叶县田庄盐矿段和个案2叶县马庄盐矿段合并，合并以后用第一项的个案号表示生成的新类。

3、相似系数(Coefficients).据聚类分析的基本原理，个案之间亲密程度最高即相似系数最接近于1的，最先合并。因此该列中的系数与第一列的聚类步骤相对应，系数值从小到大排列。

4、新类首次出现的步骤(StageClusterFirstAppears)。对应于各聚类步骤参与合并的两项中，如果有一个是新生成的类(即由两个或两个以上个案合并成的类)，则在对应列中显示出该新类在哪一步第一次生成。如第三步中该栏第一列显示值为1，表示进行合并的两项中第一项是在第一步第一次生成的新类。如果值为O，则表示对应项还是个案(不是新类)。

5、新类下次出现步骤(NextStage)。表示对应步骤生成的新类将在第几步与其他个案或新类合并。如第一行的值是11，表示第一步聚类生成的新类将在第11步与其他个案或新类合并。

6、解析图DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombine聚类树状图（方法：组间平均连接法）图清晰的显示了聚类的全过程。他将实际距离按比例调整到0~25之间，用逐级连线的方式连接性质相近的个案或新类，直至并未一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值，然后垂直标尺划线，该垂线将与水平连线相交，则相交的交点数即为分类的类别数，相交水平连线所对应的个案聚成一类。例如，选标尺值为5，则聚为3类：叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段为一类，叶县姚寨盐矿为一类。若选标尺值为10，则聚为2类：叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。

四、结论

对平顶山市5个盐矿区进行经济区划分，究竟划分为几个区合适，既不是越多越好，也不是越少越好。划分经济区的目的，就是要根据各盐矿经济区资源特点、勘察、开发的不同，分类指导经济活动，使人们的经济活动更加符合当地的实际，使各经济区能充分发挥各自的优势，做到扬长避短，趋利避害，达到投人少、产出多，创造良好的经济效益和社会效益之目的。分区太多，就失去了分区的意义，分区太少，则分类指导很难做到有的放矢。综合以上聚类分析结果，我们可以得出三个方案。其中两个方案比较合适,可供选择。方案一：（当比例尺为5时，分为3类）叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段为一类，叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案一。方案二：(当比例尺为10时，分为2类）叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案二。平顶山市盐矿区分类图方案2聚类分析的原理就是将矿石质量、资源储量、勘查阶段、利用状况相近或相类似的矿区聚合在一起，其分析结果也是直观易见的。在此结合平顶山市实际行政区划以及矿山企业特征我们对铁矿区划分做一个调整使其理论与实际能够结合的更紧密使其更好的指导实践。

1、叶县田庄盐段、叶县马庄盐矿段为一类，这一类属于矿床规模相当，资源储量接近，勘查开发阶段接近，利用程度相当，故，可以分为一类。

2、叶县娄庄盐矿、叶县五里堡盐矿段为一类，这一类属于勘查开发阶段处于同一阶段。

3、叶县姚寨盐矿为一类，这一类属于储量较高，盐矿品位较高，故其勘察开采规划有别于其它两类。总的说来，运用聚类分析是基本成功的，大部分的分类是符合实际的。综合以上论述盐矿区划分如下表所示：当然聚类分析有其优点也有其缺点：(1)优点：聚类分析模型的优点就是直观，结论形式简明。(2)缺点：在样本量较大时，要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试问内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。

首页

> 学术期刊知识库

毕业论文模糊聚类分析