摘 要:数据挖掘技术在教学质量评估系统中的应用,已成为各学校发展研究的重要课题。文章首先介绍了数据挖掘的相关概念,并提出了教学质量评估系统的设计方案,最后对系统实现的关键技术予以阐述。
关键词:数据挖掘;教学质量评估;Apriori算法
数据挖掘技术与教学评估相结合,能够更好的为学校教学评估和日常教学工作服务。因此如何将数据挖掘技术应用其中,从大量数据中提取出隐藏在数据之中的有用的信息,是一个值得探讨的课题。
1.数据挖掘相关概念
数据挖掘(Data Mining,DM)技术包含了人工智能、数据库、统计学等学科的内容,是一门综合性的技术。
首先,它包含着一种关联规则,这种规则能够从数据库中挖掘出数据之间一定的依赖性关系。主要的处理对象是事务数据,是一种像“A—>B,支持度=s%,置信度=c%”的规则。
其次它的处理过程是一个多步骤的过程,这些步骤的主要内容大体如下:确定挖掘对象、数据准备、数据挖掘、结果分析、知识的同化。在处理中要采用循环反复的方式,才能得出准确的结果。
2.系统的设计方案与功能
2.1系统体系结构
在这个教学评估系统的设计过程中,是以ASP作为开发平台,后台数据库是使用的SQLServer2000系统,然后使用B/S的模式,在校园网的系统平台上展开运行,管理人员和全校师生通过浏览器来进行web服务器的访问,服务器在根据每个访问者的需求,通过ADO访问数据库。具体方案如图一。
从图一可以看出,系统的组成部分为表示层、业务层以及数据层。其中表示层存在于客户端中,为用户进行操作界面的提供以及结果信息的反馈;而业务层则是在服务器端运行,主要工作是进行客户请求的解析,请求的处理以及把结果返回到客户端;数据层的工作则主要是进行数据的储存,其中包括了基础数据库、知识库、挖掘数据库等。
图1 系统体系结构图
2.2系统功能模块
教学评估的数据挖掘中,主要是进行教师、管理员以及学生这三个模块的数据挖掘。然后再进行数据的采样和分析,同时采取相应的挖掘方法对这些数据做出一定的处理,最后进行结果的反省,找出其中的教学规律。本教学评估系统数据挖掘功能模块图如下:
图2 系统功能模块图
学生数据挖掘模块能够对学生在学习过程中,学习态度,学习成绩以及在对其综合素质等数据进行挖掘和评定。系统会对评分和投票结果进行自动的统计,再把统计出来的信息反馈给相应的教师。
管理员数据挖掘模块能够把得出的结果反馈给学校的综合教学评估者,以便于这方面的工作人员从中总结出更加合适的教学方法,制定出下一步的工作计划和学生培养目标。
教师数据挖掘模块能让教师通过这个模块,接收到其他教师和学生对自己的评价和评分,从中汲取一定的教训和经验,再对自己各方面进行改进,制定出更加合适的教学方案。
3.系统实现的关键技术
本系统的关联规则使用的是Apriori算法,数据挖掘模块为VB6.0系统,通过ADO访问 SQLServer20OO中的评教数据。下面来讨论几个关键技术。
3.1数据处理技术
数据处理包括对数据的抽取、筛选、集成和转换。通过以下三步来完成:
首先,进行相关数据的提取和结果的评价。比如包括编号、性别、学历、年龄等等。
其次,对这些原始的数据进行预处理,主要是剔除一些异常数据。比如:学生对教师的评价出现了两个极端:一是零分,二是满分。这两个评价都不反映实际,因此看做是异常数据。
最后,确定相关数据的属性。例如:年龄,评分为数量属性,性别、职称、学历是类别属性,须进一步将其转化为布尔类型,以代码的形式呈现,具体见表一
表1 代码表
性别 | 值 | 男 | 女 | |||
代码 | A01 | A02 | ||||
年龄 | 值 | 21~30 | 31~40 | 41~50 | 51~60 | |
代码 | B01 | B02 | B03 | B04 | ||
学历 | 值 | 专科 | 本科 | 硕士 | 博士 | |
代码 | C01 | C02 | C03 | C04 | ||
职称 | 值 | 助讲 | 讲师 | 副教授 | 教授 | |
代码 | D01 | D02 | D03 | D04 | ||
评价 结果 | 值 | 0~60 | 60~70 | 70~80 | 80~90 | 90~100 |
代码 | E01 | E02 | E03 | E04 | E05 |
3.2关联规则算法Apriori
Apriori算法是关联规则算法的核心,在数据挖掘模块设计和教学质量评估系统中的关联规则过程中都要用到Apriori算法。其基本思想在于使用逐层搜索的迭代方式,即“K-项集”用于探索“K+1-项集”。算法的具体表现可以这样描述:
输入:事务数据库D;最小支持minsupport
输出:D中的频繁项集L。
方法:
1) L1=所有的频繁1-项目集;
2) For (k=2;Lk-1≠Φ;k++){
3) Ck=sc_candidate(Lk-1,minsupport);
4) For all transactions t∈D do {
5) Ct=count_support(Ct,T);
6) For all candidates c∈Ct do
7) c.count++;
8) }
9) Lk={c∈Ck support(c)≥minsupport}
10) }
11) Return L={所有的Lk};
在Apriori算法中的第1步就是是找出频繁1-项集的集合L1。在第2-10步,Lk-1用于产生候选Ck,以找出Lk。第3-5步使用sc_candidate函数删除那些具有非频繁子集,找出事务中是候选的所有子集,第6-7步对每个这样的候选累加计数。最后,所有满足最小支持度的候选形成频繁项集L。
sc_candidate函数:
该函数的参数为Lk-1,即所有最大k-1维项目集,结果返回含有k个项目的候选项目集q。事实上,Ck是k维最大项目集的超集,通过函数count_support计算项目的支持度,然后生成Lk。接下来是prune修剪步,即对任意的c,c∈Ck,删除Ck中所有那些(k-1)维子集不在Lk-1中的项目集,得到候选项目集Ck,表示为:
For all itemset c∈Ck
For all (k-1)维子集s of c
If (s不属于Lk-1) then delete c from Ck;
用集合表示:Ck={x∈Ck x的所有k-1维子集在Lk-1中}
3.3ADO数据访问技术
通过ADO(ActiveX Data Object)数据库访问组件,能够轻松的实现应用程序和数据库之间的交互,因此,数据挖掘模块能够当做是一个独立的模块,外挂于SQL Server,实现数据的管理和储存,并调用数据挖掘模块。
在ASP中,ADO是优化的访问数据库的对象集,如果脚本中存在数据库的访问请求,通过ODBC(Open DataBase Connectivity开放数据库连接)就能够和相应的后台数据库进行链接,再由ADO进行访问操作,在服务器端进行ASP脚本的解释和执行,它依据访问数据库的结果集自动生成符合HTML语言的主页返回给客户端的用户。ADO架构图标如下:
图3 ADO架构图
4.结语
本文给出了教学质量评估系统的功能需求和系统结构,并对系统实现的关键技术进行了阐述,为系统真正投入运行,发挥更大的辅助决策作用奠定了理论基础。
参考文献:
[1]丁元明.数据挖掘技术在高校教学质量评估中的应用研究[D].上海:华东师范大学,2005.
[2]蒋秀英.关联规则在课程教学评价中的应用[J].山东师范大学学报,2003(18).
[3]白雪.高校教学质量评估数据的分析挖掘系统[D].太原:太原理工大学,2007.