基于关联规则算法的高职英语教学中的分析研究

摘　要：本文重点讨论数据挖掘算法在高职英语教学中的应用和研究，文中以无锡科技职业学院为模型，采用关联规则算法挖掘该校所属学生在三个学期之内的英语成绩的分布和相关影响结果。

关键词：关联规则算法；英语教学
1 引言
　　近年来，随着中国社会经济的飞速发展，市场经济体制的不断完善，特别是加入WTO后，使中国企业有更多的机会在全球发达的市场中展示实力和发展自己的事业，实现了跨国经营。国际大学英语人才在社会经济发展中的作用也因此越来越受到各类企事业单位的重视。可是，市场对大学英语人才的需求是多元化的，它不仅需要传统意义上的“学术型”人才，更需要“技术型”，“技能型”应用人才。为此，我们必须探讨符合时代发展要求的人才培养模式，否则高职大学英语就不能形成自己的特色，就无法建立起有别于普通高职“大学英语”的课程模式。“从而不会具有很强的生命力，也就没有它发展的空间，甚至失去它作为一种高等教育类型存在的意义。”
　　本文研究的重点是探讨具有高职大学英语课程教学中关于数据挖掘算法在应用课程目标、课程内容，师资队伍、教学方法、教学评价中所做的工作，这些是体现高职大学英语课程特色的关键所在。
2 关联规则挖掘的建构
　　关联规则挖掘是寻找数据项中的有趣联系，决定哪些事情将一起发生。关联规则挖掘研究是近几年研究较多的数据挖掘方法，在数据挖掘各种方法中应用的也最广泛关联规则的发现可以分成两个步骤：首先发现所有频繁项集，然后用这些频繁项集生成强关联规则。Apriori算法是经典的频繁项目集生成算法，在数据挖掘界起着里程碑的作用，它的基本思想是利用一个层次顺序搜索的迭代方法来生成频繁项集，即利用K-项集来生成（K+1）-项集，用候选项集Ck找频繁项集Lk。这个方法要求多次扫描可能非常大的交易数据库。而用于关联规则挖掘的事物数据库的规模通常是非常大的，这样一来，开销就非常大。而在有限的内存容量下，系统I/O负载相当大，每次扫描数据库的时间就会很长，这样，其效率就非常低。
　　关联规则挖掘的任务就是在事务数据库D中找出具有用户给定的最小支持度和最小置信度的强关联规则。强关联规则对应的项集必定是频繁项集，而频繁项集导出的关联规则的置信度又可由频繁项集和的支持率计算。于是，可以将关联规则挖掘分解为以下两个步骤：
　　步骤一：根据最小支持度找出D中所有的频繁项集。
　　步骤二：根据频繁项目集和最小置信度产生强关联规则。
　　在上述两个步骤中，步骤一的任务是迅速高效地找出D中全部的频繁项集，关联规则挖掘的整体性能由该步骤决定。因此，目前所有的关联规则挖掘算法都集中在步骤一的研究上。步骤二是比较容易实现的，首先对于每个频繁项集l，产生l的所有非空子集。然后对于每个l的非空子集s，如果，则输出规则“s=>(l-s)”。
关联算法如下：
输入：交易数据库D；最小支持度min_sup
输出：交易数据库D的频繁项集L
1）L1={频繁1项集}；

2）for(k=2；L_k-1≠ ；k++) {

3) C_k=Apriori-gen(L_k-1，min_sup)；//新的候选项目集

4） for 所有事务t∈D {

5) C_t=subset(C_k，t)；//t中所包含的候选

6） for 所有候选c∈C_t

7) c.count++；

8） }

9) L_k={c∈C_k│c.count≥minsup}

10) }

11）return L=∪kL_k

3 挖掘结果
　　下表1是学院2007级学生入学以来三次大学英语的成绩，在数据挖掘阶段，先用前述的算法扫描数据库，得到最小支持度阈值min_sup的全体频繁项集，再由频繁项集导出规则知识，最后，对挖掘结果加以解释并转换成易于理解的显式知识。
　　表1 学生英语成绩样本

xh	k1	k2	k3
100072351	86	85	75
100072352	88	82	69
100072353	81	86	79
100072354	84	85	77
100072355	78	85	83
100072356	82	87	84
100072357	65	83	89

　　实例的运行结果与分析：假定取事务数为10。要对表中的优秀课程进行关联规则挖掘，需要给出支持度和置信度。假定最小支持度为30%，置信度为50%。由上述分析得知，计算最终频繁项集的各非空子集的置信度，删除小于最小置信度阈值的记录，最终产生关联规则：
(1) k1，k2同时优秀时，k3有大于67%的优秀的可能；
(2) k1，k3同时优秀时，k2有大于100%的优秀的可能；
(3) k2，k3同时优秀时，k1有大于100%的优秀的可能；
(4) k1优秀时，k2，k3有大于67%同时优秀的可能；
(5) k3优秀时，k1，k2有大于80%同时优秀的可能。
参考文献：
[1]邵峰晶、于忠清著.数据挖掘原理与算法[M].中国水利水电出版社，2008.8
[2]Robert Grossman.The Terabyte Challenge Disyte Challenge Discoverying Informationin Distributed and Massive Data[J]. American Association forArtificial Intelligence．CaliL 1991．
[3]林宇等著.数据仓库原理与实践[M].人民邮电出版社，2008.1