摘 要:摘要:学校随着状态数据每年的不间断采集,积累了大量的数据,这些数据隐藏着与学校发展密切相关的重要知识。聚类、关联规则、序列模式等数据挖掘方法能从这些海量数据中发现有用的知识,是数据真正成为学校的财富,为学校的决策和发展服务。
关键词:关键词:数据挖掘;聚类;关联规则
中图分类号:TP311 文献标识码:A 文章编号:
1. 引言
2008年,教育部《高等职业院校人才培养工作评估》新方案发布,推出了“高等职业院校人才培养工作状态数据采集平台”(以下简称“数据采集平台”),面向所有高职院校进行年度数据采集。自2008年采集至今已经采集4年的数据,随着状态数据每年的不间断采集,积累了大量的数据,怎样从这海量数据中挖掘有用的知识,使数据成为高职院校的财富,为高职院校的教育改革和发展服务,引导学校各层面加强内涵建设,深化校企合作、工学结合人才培养模式改革,为数据挖掘提供了广泛的应用空间。数据挖掘就是对大量的数据进行深层次的分析,根据学校的发展目标,揭示隐藏的知识并将其模型化,从而来支持学校的发展决策,提高人才培养质量。
2. 数据挖掘的概念与常用技术
2.1数据挖掘的概念
数据挖掘(Data Mining,简称为DM),从技术角度看,就是从大量的、不完整的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先所不知道的、但又具有潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。“数据挖掘是一个多领域交叉的研究与应用领域,所涉及的领域包括数据库技术、人工智能、机器学习、神经网络、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化等多个领域”。
2.2数据挖掘的特征
(1)数据的特征:挖掘的数据是大容量、含噪音(不完全、不够准确)、异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子),因此数据挖掘过程中必须考虑这些问题:如何高效率地存取数据,如何提高算法的效率,使用是全部数据还是部分数据等。
(2)知识(模式)的特征:现行的知识发现系统只能发现特定模式的知识。
(3)系统的特征:知识发现系统需要一个前处理过程,知识发现系统是一个自动/半自动化过程,知识发现系统要有很好的性能。
2.3数据挖掘的常用技术
(1)聚类
聚类就是将类似的数据归类到一起,形成一个新的类别,着重发现数据集中数据的共性和差异,通过描述数据对象的一组属性,根据最小类间的相似性和最大类内的相似性的原则,将无标识的对象划分成为不同的类别。聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现,还取决与该方法是能发现某些还是所有的隐含模式,随着对聚类地深入研究,专家已开发出许多聚类算法,主要有:层次方法、划分方法、基于密度的方法、基于网格的方法和基于模型(Model-Based)的聚类方法等。
(2)关联规则
关联规则挖掘是指在数据库中挖掘出“某些特定组合的事件反复发生”的规则,这里的“事件发生”被定义为特定属性值的出现或者不出现。关联规则挖掘算法中最基本的算法是Apriori算法,这一算法基于命题:如果k项集L的任一(k-1)项子集非频繁,则L也非频繁,Apriori算法每次扫描数据库只搜索相同大小的频繁集,然后逐层搜索直至无法得到新的频繁集为止。
根据规则处理数据的类型,可将关联规则分为布尔型关联和定量关联规则;根据规则中涉及的数据维数不同,可将关联规则分为单维关联和多维关联;根据规则中涉及的数据的层次不同,可将关联规则分为单层关联和多层关联。
(3)序列模式
序列模式的概念最早是由Agrawal和Srikant提出的。序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。近年来序列模式挖掘已经成为数据挖掘的一个重要方面,其应用领域有:客户购买行为模式预测、Web访问模式预测、疾病诊断、自然灾害、DNA序列分析等尖端科学研究领域、工业控制等,都得到针对性研究。
序列模式挖掘的主要算法有:GSP(Generalized Sequential Patterns)算法(类似于Apriori算法)、Prefix Span(Prefix-project Sequential Pattern Mining)算法。Prefix Span算法是采用分治的思想,不断产生序列数据库的多个更小的投影数据库,然后在各个投影数据库上进行序列模式挖掘。
3. 数据挖掘在学校管理中的应用
通过数据采集平台进行年度数据采集,形成了全国高职院校人才培养工作状态数据库。利用状态数据库信息,提取隐含在其中的、具有潜在有用的信息和知识,对状态数据库做数据分析,可正确把握高等职业教育改革和高职院校发展的基本轨迹,为有关部门掌握各类高职院校的办学特点及其存在的问题,为管理与决策提供可靠的参考。
3.1数据挖掘在学校管理中的应用现状
在国内,数据挖掘的重要性被越来越多的行业管理者所认识,特别是在银行、电子商务、生物制药、基因研究、电信、保险、零售等行业,已经成为信息化建设的重点。数据挖掘可以利用各种信息系统进行高质量和有价值的信息收集、处理、分析,从而帮助企业解决在商业活动中遇到的各种问题。但目前对高等职业院校人才培养工作状态数据采集平台采集的数据,只做了传统的统计分析处理,没有引起重视,缺乏对其有利于加强对高等职业院校的知识管理,诊断学校在办学方面存在的问题的认识。
3.2数据挖掘在学校管理中的应用的模式
数据挖掘是按照预定的规则对数据库和数据仓库中已有的数据进行信息处理和分析,从中识别和抽取隐含的信息和有价值的知识,为管理者提供决策依据。数据挖掘在学校管理中的应用模式有多种,按功能主要有这两种:分析型模式和预测型模式。
3.3数据挖掘在学校管理中的基本步骤
在进行数据分析时,先要对所填报的状态数据进行了相应的甄别,不是直接对原始数据进行分析,也就是说对数据先作一些预处理,对基本指标值为0或明显超出合理范围的数据做说明,把相关数据的合并,选择有
效数据,做数据过滤,提取出适合分析的数据集合。然后,根据挖掘目的的不同,可以相应采取不同的数据挖掘方法,得到有意义的信息和有价值的知识。分五个基本步骤:
①建立数据模型
要想充分发挥数据挖掘的价值,必须要认清数据挖掘的目的,目标要清晰、明确,虽说挖掘的最后结果是不可预测的,但要探索的问题应是有预见的,否则很难得到正确的结果。根据数据挖掘的目的,首先熟悉状态数据采集平台结构和每一字段的含义,其次运用“果-因-效”的逻辑关系,从状态数据库中找出各种表现指标。然后,根据教育部16号文件精神进行选取数据,确定主要指标,建立数据模型。
②整理数据
这一步的主要任务是进行数据的选择、预处理和转换,检查数据的完整性及数据的一致性,消除噪声,滤除与数据挖掘无关的数据。首先根据已建立的数据模型,从状态数据采集平台大量的数据中找出相关数据,通过投影或利用数据库的其他操作减少数据量,并进行系统整理,从中筛选出真正与挖掘任务相关的特征。然后,研究数据的质量,数据清洗,为数据挖掘做准备。
③数据挖掘。对所得到的经过选择、预处理和转换的数据采用关联规则方法进行数据挖掘,得到挖掘的结果。这关联方法可分为简单关联、时序关联和因果关联。
④结果评估
对在数据挖掘步骤中发现的知识进行解释,评估挖掘所得到的结果,选取有意义的模式,同时将所得的知识用表格、图表等可视化的方法进行分析。
⑤将知识用于学校管理中
将所得的信息、知识应用到学校实际管理中,集成到学校发展中去,为学校发展制定决策、措施服务。
4. 结束语
数据挖掘是近年来十分热门的研究领域,随着数据挖掘新方法不断地问世和数据挖掘工具不断地产生和完善,数据挖掘的应用领域也越来越广泛。尽管数据挖掘仍面临着很大的挑战,许多问题有待进一步探索,但有一点不可否认,那就是数据挖掘的研究和应用产生了巨大的社会效益和经济效益,为社会的信息化发展做出了贡献。
参考文献:
[1]教育部。关于印发《高等职业院校人才培养工作评估方案》的通知(教高【2008】5号【Z】。2008-04-03.
[2]朱玉全,杨鹤标,孙蕾。《数据挖掘技术》东南大学出版社,2006.
[3]孙华梅 数据挖掘及其在企业管理中的应用商业研究 2008-05 总第373期.