第1篇:基于K—均值算法的数据挖掘技术研究及应用
0引言
充分利用企業信息系统集成中所产生的生产业务信息数据成为企业的关键技术,数据挖掘技术则是企业系统中使用的技术之一。数据挖掘指对数据库中的海量数据进行过程复杂的数据分析,从而获得其中隐含信息的过程。根据用户需求,选择比较切合的数据挖掘算法,成为挖掘技术成功的关键。通过研究各种数据挖掘算法,笔者在众多算法中选择了K均值算法作为本文数据挖掘的基础算法。
1K均值算法概述
1.1K均值算法概念
聚类问题是将给定的数据集合D划分成一组聚类:{C1,C2,…},Ci∈D,使不同种类中的数据尽可能不相似(或距离较远),同一种类中的数据尽可能相似(或距离较近)。聚类是一种无监督的学习,所谓无监督学习指事先并不知道要找的内容,即没有目标变量,它将相似的对象归到同一个簇中[13]。K均值(Kmeans)算法在聚类算法中使用最为广泛。首先根据分类的个数k,随机地选取k个初始的聚类中心,当然这个k值是难以确定的,并把每个对象分配给离它最近的中心,分别得到起始的聚类点。然后,将当前每个聚类的中心作为新的聚类中心,并把每个对象重新分配到最近的中心。不断地循环迭代,直到目标函数的最小值,即最终的聚类中心点没有移动。其中,目标函数通常采用平方误差准则,即:其中,E表示所有聚类对象的平方误差和,S是聚类对象,Mi是类Ci的各聚类对象的平均值,即:
其中,|Ci|表示类Ci的聚类对象数目。每一次迭代时,每一个点都要计算一遍它和各聚类中心的距离,并取最短距离的类作为该点所属的类。直到E获取最小值,最终表现为最后的聚类中心无法移动。一般k的典型取值为2~10。
1.2K均值算法计算模型
假设在一片小区域中有若干数据点,如图1所示。先假设k=2,即最终这些数据点会聚类成两个类。K均值算法具体解释如下:(1)由于k=2,任意的两个数据点被选作初始类的聚类中心(图中用点F、G表示),如图1(a)所示。(2)将其余的各个点分配到距离最近的聚类中心点(本例中为F点、G点)所代表的类中,即求图中所有点到各个聚类中心的距离。如果Si距离Ci近,则Si属于Ci聚类。如图1(b)所示,A、B点与F点的距离相对G点更近,所以属于F点聚类,C、D、E点与G点相对F点距离更近,所以属于G点聚类。(3)将聚类中心点F点、G点移动到“自己”的聚类中心,如图1(c)、图1(d)所示。(4)重复步骤(2)、(3),直到每个类中的聚类对象(如图1(e)中的点)不再重新分布为止,第一个点聚合了A、B、C,第二个点聚合了D、E,此时重复循环的迭代过程结束。
2.1系统概述
通过对K均值算法的介绍及其算法处理模型,笔者结合某制造型企业的信息化系统平台用户实际需求建立数据仓库,在数据仓库的基础上使用数据挖掘中的K均值算法对大量数据进行潜在信息的挖掘,并开发出基于K均值算法的挖掘器,辅助决策者进行决策。假如数据库中的数据关于产品信息生成了k个聚类中心,即k个中心点point,将其余的各个点分配到距离最近的聚类中心点所代表的类中,距离为distance,并获取距聚类中心距离最小的距离min2,将该元素归类于距离聚类中心点最近的那个聚类中,核心代码如下:
privatevoidclusterSet(){float[]distance=newfloat[m];for(intl=0;l<length;l++){for(inte=0;e<m;e++){distance[e]=distance(data.get(l),point.get(e));}intmin2=min1(distance);cluster.get(min2).add(data.get(l));}}//将聚类中心点移动到自己的聚类中心,求两点误差平方privatefloatresult(float[]point1,float[]point){floatx=point1[0]-point[0];floaty=point1[1]-point[1];floatresult1=x*x+y*y;returnresult1;}//利用上述“求两点误差平方”的方法,计算误差平方和准则privatevoidresult2(){floata1=0;for(intr=0;r<cluster.size();r++){for(intj=0;j<cluster.get(r).size();j++){a1+=result(cluster.get(r).get(j),point.get(r));}}sum.add(a1);}//设置新的聚类中心privatevoidsetNewPoint(){for(inth=0;h<m;h++){intn=cluster.get(h).size();if(n!=0){float[]newpoint={0,0};for(intk=0;k<n;k++){newpoint[0]+=cluster.get(h).get(k)[0];newpoint[1]+=cluster.get(h).get(k)[1];}newpoint[0]=newpoint[0]/n;newpoint[1]=newpoint[1]/n;point.set(h,newpoint);}}}//对第2、3步进行重复迭代,直至得到算法最终结果privatevoidkmeans(){init();while(true){clusterSet();result2();if(n!=0){if(sum.get(n)-sum.get(n-1)==0){break;}}setNewPoint();n++;cluster.clear();cluster=cluster1();}}
2.2零部件市场需求分析
在销售系统“零部件市场需求分析”模块,主要针对销售信息以及产品信息所建立的数据仓库中的信息进行数据挖掘。合同中记载了所销售的产品图号、数量、客户相关信息等,同时根据产品图号可以得到产品BOM信息。产品BOM信息即该产品的设计信息,包括零件信息、物料进货方式及加工作业方式、工艺信息、图纸信息、层次码、总数量等。其中零件信息主要有:零件图号、零件名称、材料、牌号、外形尺寸等;物料进货方式及加工作业方式主要包括:物料类别(如:配套件、紧固件)、物料进场状态(如:成品、半成品、毛胚)、加工方式(如:自加工、外加工)、加工内容(如:金工、电工);工艺信息即零部件加工的工艺信息;图纸信息包括图纸幅面等;层次码主要用来标注该零部件在产品中的所处位置;总数量即表明该零部件在产品中该层次码下的个数。相同产品可能会有处于不同层次的相同零部件,不同产品可能会有相同零部件。因此,在所建立的数据仓库基础上,使用数据挖掘技术挖掘出查询条件,从销售的产品中具体细化到销售需求较多的零部件,从而在企业决策时察觉出该情况。通过针对性地制定预投生产计划、增加库存,能够帮助企业提高生产效率,对于市场快速反应,以提高市场占有率。对于该部分功能,首先可以进行条件查询。查询属性有:产品图号、产品型号、代号、名称、规格尺寸、长度宽度、材料、牌号、年份和客户编号。从查询属性看,这是多种搜索条件的组合;从数据挖掘角度看,这是在K-均值聚类算法设计的数据仓库基础上开发出来的一个数据挖掘工具。此项功能设计时是从月份出发,将每年的销量按照月份呈现,因此“年份”是必选项,其余条件用户可以自由组合。例如:选择“2012年”,查询结果如图2所示。
该图表示在2012年的销售产品里对零部件数量进行汇总的结果。通过该数据挖掘器,提出了销量最领先的4个零部件。曲线代表其在各月的销售总数及市场需求总数,单位以“百”计。每条曲线代表的零部件图号在图右侧进行了说明。该表示方法直观、清晰,可以给决策者提供明确的零部件市场需求变化曲线图。通过聚类结果可知,“零件图号”为“8UE.016.0211”的零件,从八月开始销量减少,并且其它3种零件在六月开始需求量变大,从而可使决策者在来年制定更合理的方案,以提高企业竞争力。
2.3废料统计情况分析
废料统计情况分析主要是针对生产中由于工人误操作、材料劣质、机器故障等各种原因造成所领物料报废,需要重新领料进行加工的情况进行统计分析。物料是一个统称,它包括可以直接领的成品、需要再加工的半成品,以及需要加工的原材料。因此,对于物料有一个物料编码,专门对所有可领的成品、半成品、原材料进行唯一标示。物料编码根据零件图号、零件名称、材料、牌号、外形尺寸、物料进场状态、物料类别、加工方式8个字段进行唯一性区分。根据编码方式,产生唯一的物料編码,例如“A00B021”。该企业的物料有“定额”和“非定额”两种情况。“定额”即可以用个数来统计的零部件物料;“非定额”指无法用个数来统计的物料,如:5米长的铜线等。具体而言,本文主要研究针对某个工作令从生产开始到生产结束,所有定额物料的生产料废情况。在工作令系统和领料单系统的基础数据库上建立数据仓库。工作令系统的数据库中存有工作令号、起始生产日期、结束生产日期及其它工作令的基本信息。领料单系统数据库中的废料表中存有料废的物料编码、材料、数量等信息。查询属性有:工作令号、合同号、起始时间和终止时间。填入工作令号“2B7-1D044205”,点击“查询”按钮,会通过数据挖掘方法统计该工作令下的所有零件材料料废情况,如表1所示。
表1清晰表明了该工作令号“2B7-1D044205”中各个物料损失的比重。从表中可以看出,以废料“A03B004”、
“D03E334”和“E17B231”为聚类中心的废料占多数,从而可以使企业决策者从这些材料损失中发现问题,分析物料损耗原因,如:采购质量问题、工人操作失误,还是其它可避免的各类原因。因此,该基于数据仓库的数掘挖掘器,有利于辅助企业决策者从实际生产中找出各类潜在问题,从而制定合理的政策,降低生产损失,提高企业竞争力。
3结语
本文采用数据挖掘技术对数据库中积累的大量数据进行了分析处理,系统虽然实现了将基于K均值算法的数据挖掘技术应用于信息化系统集成平台中,但也只是实现了部分辅助决策功能。根据企业的具体使用情况,决策者肯定不会满足于系统中已经提供的决策支持功能,如何更近一步地发挥系统集成能力,开发更多决策支持功能,提高数据仓库查询速度,以满足企业决策者更多需求,是下一阶段研究的主要方向。
作者:穆荣斌等
第2篇:基于数据挖掘的微机监测系统故障研究
引言
由于微机监测系统在实际应用中需要涉及多种监测要求,因此其系统具有较高的复杂性,在系统高度复杂的情况下再加上微机监测系统具有的时间序列的特点使故障特征数据在提取的过程中具有较高的难度,这为故障诊断及决策带来了极大的难度,为此在实际的故障处理中可以采用数据挖掘来对其时间序列特征进行挖掘,从而掌握微机监测系统的故障特征数据,同时根据现今数据挖掘在实际的微机监测系统故障时间序列挖掘应用情况来看,其仍然存有一定的进步空间。
1数据挖掘技术方法
数据挖掘技术是基于计算机技术的一种对隐性、大规模、缺陷等特点的数据进行深入挖掘,以此来提取其中包含的具有应用价值的信息及数据。目前在信息数据爆炸式增长的情况下,数据挖掘就是为顺应这种需要应运而生发展起來的数据处理技术。数据挖掘融合了人工智能,统计及数据库等多种学科的理论、方法和技术,这些学科中的多数技术和方法都可以直接应用在数据挖掘的过程中[1]。
2微机监测系统
微机监测系统应用计算机和信息采集机实时监测各种信号设备,监测对象主要是模拟量监测和开关量监测。模拟量包括:轨道电路电压、道岔动作电流、电源屏电压、电缆绝缘电阻和电源对地漏泄电流等。开关量包括:控制台按钮和表示灯状态、关键继电器状态、灯丝状态、熔断状态和道岔表示缺口状态等。
3微机监测数据分析内容与要求
3.1重要设备状态
计算机连锁、列控中心、CTC、智能电源屏等电子设备的正常与否直接影响全站信号设备的使用,由于均具有备用系统,单套设备隐患不易察觉。其分析内容与要求是查看设备状态,若出现异常,及时对设备实际使用情况进行检查。
3.2电源屏输入/输出电源
查看外电网电源、电源屏各路输入/输出电压是否在规定范围内,24小时内电压及电流曲线有无异常波动。
3.3区间轨道电路发送、接收电压
对轨道电路的主轨出电压和小轨出电压曲线进行查看,以及查看两次分析时间间隔内的发送与接收电压日曲线。由于区间轨道电路受季节和天气的影响较大,每日还需记录实测值作为参考数据。
3.4道岔动作曲线
每日查看所有道岔动作曲线,应查看每组道岔的所有曲线,一次动作曲线正常不能代表本组的所有曲线都正常。为提高分析效率,工区必须完成道岔参考曲线的设置任务,即将每组道岔集中检修完毕后,将正常扳动良好的道岔动作曲线设定为参考曲线,每日分析时将道岔定、反位曲线和设定参考曲线进行比较,查看动作电流的大小和动作时间的长短有无明显变化。
4应用数据挖掘进行微机监测系统故障特征数据的提取[2]
4.1微机监测系统时间序列的特征
时间序列属于一种对数据数值进行统计的方法,并依照时间顺序对其进行排列,从而形成一种具有时间特征的定向测量方法,而在微机监测系统中其主要是对监测对象所产生的数据流进行收集,而这部分数据流就是以时间序列的形式存在的。根据时间序列的特点来看,其具有极高的复杂性及高维性,并且不同于静态时间序列,微机监测系统所接收的属于动态时间序列,因此其具有大规模及广泛性的特点,使数据挖掘上具有一定的难度。同时现今在微机监测系统中的数据挖掘多数是针对静态时间序列进行的,因此在微机监测系统快速变化的海量数据流下进行故障特征提取中具有一定的难度。
4.2数据挖掘在微机监测系统故障中的应用
在数据挖掘的基础上探寻微机监测系统的故障问题主要是对其监测过程中的数据进行提取,由于在微机监测系统正常及异常的状态下都会进行数据的监测,因此在实际中需要采用数据挖掘来对不同状态下的系统信息进行挖掘。
(1)微机监测系统正常状态下的数据挖掘及确定
首先,需要根据微机监测系统的特点确定相应的采样时间并确定及截取相应的样本长度;其次,在取得了微机监测系统正常状态下的数据后进行计算,对微机监测系统正常时产生的采样平均值进行计算并应用线密度对采样的变化曲线进行判断,以此作为其正常情况下的监测值;最后,在数据采集计算完成后将其进行分组,以此作为故障特征的分析依据。
(2)微机监测系统异常状态下的故障特征数据挖掘
由于微机监测系统在异常状态下对时间序列监测产生的表现形式具有一定的异样性,因此在故障数据的提取中主要是指相对于正常监测值的采样数据,同时在微机监测系统采样数据中允许存在一定的跳变及偏离值,但是超过其范围则认定为故障情况。由于在时间序列上异常数据增幅特征及采样值变化不存在规律性,因此在计算方法及计算步骤上更为复杂,为此需要对其异常信号进行分析,确定是否为异常数据,在数据挖掘的过程中以正常监测值作为对照并进行仿真,从而对故障特征数据进行分离,找出微机监测系统故障阶段,判断其故障原因[3]。
5结束语
通过以上分析可以对数据挖掘在微机监测系统故障中应用的特点、要求等进行一定的了解,同时根据数据挖掘的特点及时间序列具有的复杂性必须要准确地掌握微机监测系统的类型及数据流,并采用适当的计算方式来分析故障形成原因。由于微机监测系统属于一种对动态的及具有时间序列特征的采样值进行监测的系统,因此对其采样值进行分离具有一定的难度,使数据挖掘在故障分析中的应用仍然存有一定的不足,相关工作人员需要对其进行不断的深入研究并进行完善。
作者:王岩
第3篇:试论基于数据挖掘的数字档案信息管理研究
在信息化发展的今天,档案管理不仅要对信息进行简单的数字转换和管理,更要对新兴事物网络进行档案化管理和归档,包括文档、文字翻译转换、图片资料、声像资料、多媒体远程会议等。所以网络档案化管理,成为当今档案管理的必然趋势,这就必须对档案化管理的技术和法律相关问题进行深入阐述和探讨。
所谓数据挖掘(DataMining),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。
1数据挖掘之功能
数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以下几类。
1.1关联分析
关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。
1.2聚类
输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。
1.3自动预测趋势和行为
数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
1.4概念描述
对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
1.5偏差检测
数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。
2数据挖掘在建设现代化档案馆中的应用
2.1资源类数据包括馆藏档案经过数字化加工而产生的各类电子档案、电子文件中心中存储的各类电子档案、档案软件收集的信息、档案信息网建设和维护信息。我们从研究档案用户的信息需求出发,数据挖掘为档案馆全面掌握和准确理解档案用户的信息需求提供了方法。
(1)利用Web访问信息挖掘技术发现其中的关联模式、序列模式和Web访问趋势等,构建多维视图的用户兴趣模型。从而可以确定档案信息或服务受欢迎的程度,发现用户访问模式和用户需求的趋势,从不同侧面来研究用户的信息需求,为优化档案馆的档案信息资源建设提供了科学依据。
(2)收集档案网web服务器保留的用户注册信息、访问记录,以及有关用户与系统交互的信息等原始数据,经过清洗、浓缩和转换形成便于统计分析的用戶查阅数据库、日志数据库、用户定制信息库、用户反馈信息等各种数据集合。
2.2从建设档案馆馆藏信息资源出发,数据挖掘为档案馆提供了选择一条科学发展道路的重要依据。
(1)利用档案网和档案管理软件访问信息的挖掘分析出档案资源的利用率,将利用率高、需求量大的传统载体档案优先数字化。例如:通过对档案信息的访问记录、检索请求中用户请求失败的数据进行分析,按类统计档案拒用集和频繁利用集,结合聚集算法发现馆藏资源的缺漏,有针对性地补充和丰富档案信息资源。
(2)在档案馆藏管理过程中利用文本挖掘,运用关联、分类、聚类等方法,从海量档案信息中按照相关专题进行挖掘、分类、加工、整理和有序化重组,构建特色档案信息库及各类专题档案信息库等。
2.3从做好档案馆信息管理工作的角度出发,数据挖掘为优化馆藏信息和对未来工作的预测发挥重要作用。
(1)在提供利用环节中,对用户每次借阅的信息进行关联分析,发现各类档案信息之间的关联规则或比例关系,这样可以进一步优化馆藏信息。
(2)开展档案馆馆藏信息文本特征的建立、特征提取、特征匹配、特征集缩减和模型评价工作,实现对大量文档集合的内容进行总结、分类、聚类、关联分析、分布分析,通过归纳与总结,发现的知识可以为未来档案工作的趋势进行预测。
3数据挖掘在管理类数据中的应用
档案馆的管理类数据包括:智能监控系统、消防系统、温湿度控制系统、智能密集架、数据管理系統、数据利用系统等在日常工作产生大量的管理类数据。我们得用数据挖掘工具在这类看似无用的数据中提取有价值的知识并运用到档案馆工作中,并在档案馆的现代化建设中发挥作用。
档案馆档案工作的重点是为用户服务,以服务为中心开展各项工作,如何使用先进的工具,提高服务的质量是一直困扰我们的难题。数据挖掘为档案馆档案工作的智能化、个性化、精品化提供了行之有效的方法。在智能检索系统可调用用户兴趣模型,自动修正检索策略并可依用户兴趣将检索结果迅速聚类和分类,并条理化地排序出来;对于设计院、社科院等科研型档案用户,可借助数据挖掘开展针对性的档案信息挖掘,并将研究成果以概述、成果报告等形式提供给用户。这样不光实现了档案的二次开发,也会给用户带来意外的惊喜。
网络最初只是科学家与研究人员之间交换文件的软件,把因特网用于教育和研究可以得到政府的补贴。在中国,各研究院所与大学都有拨款,图书馆和档案馆有资金支持,数字图书馆的网络档案馆是不赢利的,产出是科研和教学的长期社会效益。今天,因特网已经商业化了,网络在数字经济中已成为极具潜力的技术投资对象。研究院和大学数字图书馆也可以考虑建立以赢利为目的的网络档案库,采用网络商务中的一些商务模式,例如网络广告、旗帜广告、赞助广告、订阅、B2C等。收入可用于数字图书馆和网络档案馆建设的滚动发展。目前人们对这些处于萌芽中的经济模式认识甚少。管理网络的公共政策制定主体是政府部门,推行电子政务,开发网络资源,促进从文字印刷向网络出版的转移是当前相关政府部门的重要任务。相关的政策、态度和措施对数字图书馆的发展至关重要。市场手段和政策平衡是网络档案馆建设,网络档案库运行,网上内容传递和保存应该和必须考虑的。
作者:山小淞
第4篇:数据挖掘技术在医学领域中的应用
进入信息时代以来,各行业为了日常业务处理的方便快捷,积极投入到业务處理的信息化当中,以代替不必要的人工劳动,但随着业务数据的不断录入,各行业的日常业务数据量基本上呈指数级别增长,从而致使超大量的数据堆积,然而这样的数据再凭人或计算机简单地理解,就是几乎不可能的。为了从这些数据中挖掘出有用,具有预测性的信息,数据挖掘技术应运而生。其中医学领域亦是如此。但医学上的数据更具有主观性,大部分是非结构化的,并与其他领域的数据存在较大的不同。因此怎样从医学数据中挖掘出价值更大的信息,如何进行医学中的数据挖掘,并为信息管理,诊断,疾病预防,生物医学等服务,是当今一直研讨的问题。
一、数据挖掘的概述
(一)数据挖掘的概念
数据挖掘的英文名称为DataMining,其定义是指通过运用科学的方法与技术,从大量繁杂,有噪声且随机的模糊数据中,得到其中具有隐含性的,且有用的知识或情报。这些模糊数据来自于信息系统的实际业务处理。然而经过日积月累的业务处理,这些数据的量非常大,因此需要数据挖掘这门新兴技术来探索其中有价值的知识,以便掌握事物实际的,更深层次的发展规律。另外,从数据挖掘与统计学的关系来看,数据挖掘是在传统的统计学方法与技术上发展起来的。但由于它发现的知识更具有预知性,有用性,早已不同于传统的统计学。
(二)数据挖掘的主要技术与方法
目前,随着信息时代的高速发展,数据挖掘能够深入到社会各个领域中,一直是一个热门领域。社会各行各业都需要数据挖掘技术来得到本领域中潜在的有价值的知识。因此,数据挖掘的理论与技术能够不断被人们探索,从而得到发展。其技术主要有:神经网络法,关联规则法,决策树,聚类分析,粗糙集等,另外,遗传算法同样在实际应用中有着很好的效果。神经网络法是指一种模拟人类大脑的神经网络结构,并从抽象的网络中获取知识的算法。由于这种算法适应性强,容错能力高,因此广泛应用于各个领域;关联规则法能够在满足置信度以及支持度的条件下,深入分析各种数据,从而得到数据之间的联系和符合一定条件的关联规则;决策树算法是通过对各个变量因素进行分析并分类,推测出每个变量的变化趋势的过程。这种技术与聚类分析法等相比,其设置形式更灵便,因此能更广地应用于其他领域;聚类分析主要是分析样本数据间的密集程度,从而获得各数据间的联系和总体角度下的分布情况;粗糙集是与模糊集相关联的,要理解粗糙集就需要认识模糊集。模糊集是用于分析未知的,不明确的信息,并探索隐藏其中的规律。但粗糙集常和遗传算法等结合使用;遗传算法指的是通过对初始数据进行选择,交叉等迭代操作,最终得到最优的聚类结果。由于这种算法能够更深入地研究数据,其结果更具有前瞻性。
(二)医学数据挖掘的特点
医学中的数据常常关乎病人的生死问题以及隐私问题,而且这些数据基本上由检查影像,诊断单,电子病历,以及各种化验结果等大量异质性数据组成。这就使得医学数据挖掘与一般数据挖掘相比而言,具有一些特点:医学数据量大而复杂,这给相应的数据挖掘带来一定的困难,从而表现出医学中数据挖掘的繁杂性;医学数据主要分为两大类。一类是医生的诊断说明及与患者的交谈记录,这种数据是医生凭借主观经验而写成的,具有强烈的非结构性,很难标准化。另一类则是患者的各种检查影像和化验单,而这类数据基本上是以图片形式存储,难以用计算机捕捉其中隐含的内容。在进行数据挖掘时,还需要将这两类数据进行综合分析;医学领域的数据挖掘有一个特点就是医学数据难以用数学公式来表示和推算。但随着计算机技术不断深入到医学领域中,人们也在逐渐克服这个问题;由于医学数据涉及到患者的隐私,安全问题和数据本身的所有权问题等,因此这个领域的数据挖掘还存在着伦理性的,法律性的以及社会性的问题。正是有了这些复杂的问题,人们也在努力地克服,数据挖掘才不断得到完善。与此同时,成熟的数据挖掘技术也为医学问题提供良好的解决方案。
二、数据挖掘在医学上的应用
(一)医院信息系统中的应用
医院信息系统主要是用于管理医院的日常业务工作,例如:病人挂号,收费,以及医疗资源的调配问题等。这些工作往往无时不刻都在进行着,并造成大量的数据堆积。我们可以利用数据挖掘技术来对这些业务数据进行分析,找出业务数据中存在的规律,以便能够预测医院中医疗资源的使用情况,为管理层提供决策依据,从而提前做好充分准备。但在这方面进行数据挖掘的时候,需要考虑到诸如流感,政策等多种外界因素,这样才能使挖掘的结果更具有准确性。
(二)疾病诊断及预测的应用
在医疗过程中,准确的诊断对于患者的生命尤为重要,医师对患者开具的药品对病情的康复起到决定性因素。在现实生活中,医生往往会依据CT、X光等检验数据及自身经验进行病情诊断,依据该类疾病的治疗方案进行诊治,在后期患者的恢复过程中,又根据复查的检验结果进行治疗方案的修订,直至患者完好出院。对于这一治疗过程,可以使用数据挖掘中的分类分析进行分析诊断,依据患者的检验数据,将患者划分病症类别,再依照该类病状的治疗方案进行治疗,加大了诊断的科学性、准确性和合理性。在疾病预测方面,可通过关联分析,研究某类疾病的相关并发症,可有针对性地制定检查方案和采取相应的预防措施。
(三)医学影像的应用
当前,随着医疗影像设备的飞速发展以及计算机技术的不断深入,医生一般在诊断前都要求有关患者身体的影像数据,如CT,DR,超声成像,SPECT等。这使得越来越多的医学扫描影像存储在数据库当中。然而在这些影像中大多存在着一定的不确定性,况且医生在诊断时基本只参照当前的影像,不会结合以前所有有用数据来诊断,这些因素都有可能导致医生诊断失误或延迟,最终造成患者未能及时接受治疗,影响医院声誉等严重后果。这时,就需要数据挖掘发挥其重要作用。一方面可以利用数据挖掘技术,对影像结果进行深度分析,从而逐渐减少存在影像中的不确定性,提高医学影像报告的质量。另一方面,医生通过这门技术,能看到患者的以前数据变化,而不只是当前的这几张影像,这样就能在一定程度上提高诊断质量。
三、结束语
数据挖掘的应用提高了医院的管理能力和诊断效率,为医学领域带来了可观的经济和社会效益,说明医学上的数据挖掘具有很好的发展前景。虽然这门新兴技术在医学各个方面都有较好的应用,但由于每个挖掘方法都存在着一定的缺陷,所以在运用数据挖掘技术时需要根据实际应用情况来选择合适的方法,与此同时,还需要不断地研究数据挖掘理论及实践方法,将优秀的挖掘算法应用于这个领域中。
作者:廖冬雪