数据挖掘技术及决策树简介
数据挖掘就是从大量的不完全的有噪声的模糊的随机的实际应用数据中,抽取隐含在其中的、事先并不知道的、但又是潜在有用的信息和知识的过程。
决策树算法作为常用的数据挖掘技术之一,其基本思想是将实例库中记录的大量有限的具体事实数据进行归纳和分类并建立树型结构,以发现并形成隐含在大量实例中的若干形式化的分类判别规则,典型的决策树算法方法有ID3方法和IBLE(Information—based Learning from Example)方法。
利用决策树评估教材质量的基本思想
笔者以高校教学质量建设中的重头戏——教材建设为例来阐释决策树算法在教育统计学中的应用。
从教材的教学水平,科学水平等两大要素来对教材的质量进行合理分类,探索出科学合理的决策树的模型,使之成为学校教材建设管理的理论方法,并在今后的教材管理中起着一定的指导作用。
教学水平:教材符合人才培养目标及本课程教学的要求:取材合适、深度适宜、份量恰当;符合认知规律;富有启发性;便于学习。
科学水平:能反映本学科国内外科学研究和教学研究的先进成果;能完整地表达本课程应包含的知识;反映其相互联系及发展规律;结构严谨。
构建决策树模型
即利用训练集(教材建设数据库)建立并精化一棵决策树。该过程可分为建树和剪枝两阶段。其中,建树是用每一个属性将训练集划分成一个或多个子集,递归地调用该过程,直到每个子集中的记录都属于同一类,最终得到决策树。剪枝是为提高树的精度及分类效率,而去掉因训练数据中的噪声和孤立点等引起的不可靠或可能是噪声的一些枝条。
利用决策树研究影响教材质量的因素
首先,将学生问卷调查数据库和教学管理部门所掌握的资料结合起来,分类整理,同时进行规范化的数据清洗,得到创建决策树模型的训练集,如表1所示。
根据评估预期的要求,将所有教材的评估结果分为两类:
Class p:综合评价=“优秀”
Class n:综合评价=“一般”
从上表显示的数据可知,综合评价为“一般”的教材有9种, 综合评价为“优秀”的教材有6种,从而可以计算出样本分类的期望信息:
—∑Pi log2(pi)=
I(p,n)=I(9,6)= —[(9/15)×log2(9/15)+6/15×log2=(6/15)]
=—(—0.444—0.53)=0.974
下面以综合评价是否为“优秀”作为衡量标准分别计算由各个属性划分子集的信息熵,以及各自的信息增益度。
计算“教学水平”的信息增加益度
从而算出信息熵E(教学水平)=
I(3,1)+I(3,2)+I(0,3)+I(0,3)=0.43
再计算出其信息增益度
GainI(p,n)—E(教学水平)=0.974—0.507=0.467
计算“科学水平”的信息增益度
计算信息熵E(科学水平)=I(2,1)+I(3,2)+I(1,6)+I(0,0)—0.783再计算出其信息增益度GainI(科学水平)=I(p,n)—E(科学水平)=0.974—0.783=0.191
计算“教材编者职称”的信息增益度
从而算出信息熵E(教材编者职称)=I(4,1)+I(2,1)+I(0,4)+I(0,3)=0.424再计算出其信息增益度GainI(教材编者职称)—I(p,n)—E(教材编者职称)=0.974—0.424=0.55
计算“教材编者学历”的信息增益度
计算信息熵E(教材编者学历)=I(3,1)+I(3,3)+I(0,5)=0.667再计算出其信息增益度GainI(教材编者学历)=(p,n)—(教材编者学历)=0.974—0.667=0.307
由此可以得知“教材编者职称”的信息增益度最大,它是最能区别训练集实例中教材质量的属性,应作为决策树的根节点。根据各个属性的信息增益度的大小,可以构建该训练集实例的决策树如下图1所示:
由该决策树可以得出诸如以下结论:
教材编者职称的高低程度(也可以说是教学经验的丰富程度)很大程度上影响着教材的质量,教材的教学水平的优劣程度对教材质量的影响程度次之,教材编者的学历和教材的科学水平也在相当程度上影响教材的质量。