您当前的位置:首页 > 教育论文>师范教育论文

数据挖掘在学员综合信息管理系统中的价值体现

2015-08-21 08:40 来源:学术参考网 作者:未知

  1 引言
  随着计算机和网络技术的快速发展,军队院校的各项管理工作对军队院校信息化建设提出了更高的要求。学员管理工作贯穿于学员在校期间学习和生活整个过程,是军队院校管理工作的重要环节。学员管理信息化是军队院校信息化建设的重要方面,直接反映了军队院校的管理水平。
  许多军队院校己经应用了各种管理信息系统,积累了大量的原始数据。传统的求平均值和排序进行数据的统计分析,只能得到表面的结果,无法发现数据中隐含的关系和规则,导致隐藏在这些数据中的丰富信息资源一直没有得到很好的应用,经常发生“数据丰富而信息贫乏”的现象。如何通过科学的分析方法和先进的技术手段对这些数据进行更高层次的分析,从数据中提取出有价值可利用的信息,同时利用这些信息提高学员的培养质量,是很多军队院校正在考虑的问题。
  数据挖掘被认为是解决数据丰富但信息贫乏的有效途径之一,简单来说就是从大量数据中发现隐藏的、未知的、有应用价值的知识的过程。通过数据挖掘对数据进行深入科学的分析,利用数据挖掘得到的结果,为学员培养工作提供科学合理的决策依据,从而提高学员培养质量。
  2 数据挖掘概述
  数据挖掘的定义是从大量的,可能不完整、模糊、随机或是含有噪声的实际应用数据中,提取出隐藏在其中的、结果事先无法预见的、同时具有实用价值的信息的过程。这个定义包含好几层意思:首先必须使用大量并且真实的数据,这些数据可能带有噪声,其次发现的信息是无法实现预见的,而且这些信息要可理解、可应用。需要特别说明的是数据挖掘得到的结果并不是在任何情况下都成立的,需要具体问题具体分析。
  在人工智能领域,数据挖掘习惯上又被称为数据库中的知识发现,也有人把数据挖掘看作数据库中知识发现过程的一个基本步骤。知识的范围其实是很宽泛的,除了信息可以理解为知识以外,还有概念、规则、约束、模式和规律等也可以看作知识。通常大家把数据看作获取知识的来源,这个过程就像从大量矿石中提炼出金子一样。
  数据挖掘的目的不是要发现永恒的真理,也不是要发现新的数学物理公式或者自然科学定理,更不是发现那些针对某些事物下的结论。数据挖掘都是在一定的前提和条件下进行的,其得到的结果也是用来辅助决策,同时还要求尽量采用人们容易理解的方式表达得到的结果。数据挖掘将发现的知识划分为广义知识、关联知识、分类知识和预测知识,其中应用最广泛的是分类知识。人们在数据分析、数据融合和决策支持的过程中越来越多的用到了数据挖掘,数据挖掘把数据的应用从原来简单的查询统计,提高到了对数据的智能分析,进而提供决策支持。
  3 决策树算法
  决策树又称为判定树,是一个类似二叉树或多叉树的树型结构,其最上面的节点叫做根节点,是树中的包括根节点在内的所有内部节点代表数据集中的属性,内部节点下面的每个分支代表这个属性的一个值,每个叶节点则表示训练集中对象的某个类别,即对象所属类别的属性值。从根节点到叶节点的每一条路径就是一条分类规则。因此,可以很方便地将决策树转化为分类规则,决策树是一种非常直观而且简单易行的分类方法。
  由数学模型可以得到实现决策树的简要步骤,概括为:
  1)决策树以根节点开始。
  2)选择最有分类能力的属性作为决策树的当前节点。
  3)根据当前节点属性取值的不同,将训练集划分为若干子集。每个取值形成一个分枝,有几个取值就形成几个分枝。
  4)针对上一步得到的某个子集,重复进行先前步骤,递归得到这个子集对应的分支。当某个节点选择属性以后,不能在这个节点的子节点上选择该属性。
  5)当满足下列条件之一时就停止对训练集的划分:①当前节点的子集中,所有数据项都在同一个类中。②当前节点没有继续划分子集的测试属性。在时,采用少数服从多数原则,将当前节点变成叶节点,并以对象中个数最多的类别作为类别标记,同时也可以存放该节点的类别分布。③如果某个分枝没有对象,则以对象的多数类创建一个叶节点。
  主要的决策树算法有ID3、C4.5、CART和SLIQ等算法,其中C4.5算法在数据挖掘中应用最为广泛。
  4 数据挖掘在学员综合信息管理系统中的应用
  4.1 确定数据对象和目标,收集数据以及数据预处理
  本文将学员类型、成绩、奖惩等数据作为挖掘对象。通过这些数据建立分类模型找到哪些因素对学员综合素质评估结果是有影响的,同时分析这些因素对评估结果的重要程度是怎样的。本文主要用到学员基本信息数据、考试成绩数据和综合素质评估数据,这些数据都来源于数字化校园平台下的学员综合信息管理系统。数据选择好以后,需要对数据进行预处理。首先去掉与学员综合素质不相关的属性(如姓名、学号、性别等),然后把课程分为理论课和实践课,将学员原始成绩提取出来,去掉补考成绩,对成绩进行数据概化,划分为80~100分属于良好,60~79分属于中等,0~59分属于不及格,分别用A、B、C表示,最后将政治面貌分为群众、团员、党员,分别用A1、A2、A3来表示;学员类型分为学历教育、任职教育和短期培训,分别用B1、B2、B3来表示;在校表现由学员获得优秀学员、优秀党员等表示,分别用C1、C2、C3来表示没有获得、获得1次和获得2次以上;任职情况分为无任职、班长和区队长,分别用D1、D2、D3来表示;英语等级分为没通过四级、通过四级和通过六级,分别用E1、E2、E3来表示;学员综合素质评估结果分为优秀、良好和合格三类,分别用F1、F2、F3来表示。
 4.2 数据挖掘
  系统通过集成开源数据挖掘工具WEKA中的决策树模块实现对学员数据的挖掘。由于系统使用.NET中的C#开发,而WEKA是用JAVA开发的,无法直接集成到系统中,只能先进行转换。我们使用IKVM工具将jar包转换成.NET的类库(DLL),首先到IKVM官方网站下载IKVM需要的三个组件:ikvm-0.40.0.1.zip、ikvmbin-0.40.0.1.zip和openjdk6-b12-stripped.zip,解压ikvm-0.40.0.1.zip,并将%IKVM_HOME%\bin添加到path中,%IKVM_HOME%是指解压后ikvm的主目录。在windows命令提示窗中运行ikvmc-targ et:library weka.jar,产生weka.dll文件。在项目中添加IKVM.OpenJDK.Core.dll、IKVM.Runtime.dll、IKVM.Runtime.JNI.dll和IKVM.OpenJDK.ClassLibrary.dll,还有刚才生成的weka.dll这几个类库。
  系统调用了WEKA中的J48算法,也就是决策树中的C4.5算法,这个算法封装在buildClassifier(Instances instances)函数中,主要代码如下:
  4.3 规则提取
  由决策树模型,可以得到如下规则:
  4.4 结果分析
  从决策树模型以及得到的规则中可以看出,实践课是影响学员综合素质最主要的因素,其成绩优良的学员,综合素质普遍较高,这与目前军队院校重视学员实践能力有关,其次影响因素依次为政治面貌、在校表现、英语等级和理论课。实践课成绩中等的学员,其次影响因素为理论课,与政治面貌、在校表现和英语等级关系不大,这些学员综合素质一般,这与教学管理人员平常的经验基本符合。实践课成绩不及格的学员,学员综合素质整体较差,对于这些学员首先要提高实践课成绩,然后逐步提高其综合素质。此外还可以看出,学员类型和任职情况不是影响学员综合素质的重要因素,不用作为主要因素考虑。得到决策树模型后,对学员进行分类预测,根据预测的结果和发现的知识,可以对不同情况的学员有针对性地改进学员培养工作,做到固强补弱,从而提高学员综合素质能力。
  5 结语
  应用数据挖掘技术对学员数据进行科学深入的分析,从这些数据中提取有利用价值的信息,为军队院校管理人员决策提供可靠依据,通过提高学员管理水平,对进一步提高军队院校的办学水平和学员培养质量都有很重要的实际意义。
  参考文献
  [1] 陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002:36-45
  [2] 毛国君等.数据挖掘原理与算法[M].清华大学出版社,2005:4-9
  [3] 邹志文,朱金伟.数据挖掘算法研究与综述[J].计算机工程与设计,2005,26(9):2304-2305

相关文章
学术参考网 · 手机版
https://m.lw881.com/
首页