基于层次分析法的自动组卷评价模型的构建预防

　在教育领域中，考试是整个教学过程中的重要环节，它是对学生所学知识和能力的一种评价，也是衡量教师教学效果优劣的一种教育测量手段。随着计算机科学的迅速发展和广泛应用，计算机技术己进入现代教育领域并形成一门新兴的边缘科学――计算机辅助教学。目前，计算机在自动组卷方面的应用已经十分广泛了，很多高校已经建立了庞大的试题库，并且采用各种数学算法利用计算机完成自动生成试卷和计算机的阅卷工作，不仅能节省教师的宝贵时间，提高工作效率，而且能消除出卷人主观意志的影响，尤其是对于客观题更加方便。但是，自动组成的试卷是否能真实地反映出教师的教学水平以及学生对知识技能的掌握程度，需要我们对试卷质量进行质量评价。
　　由于在前期的自动组卷过程中，题库中的信息是预先设定的，并不一定能够客观地描述该题的属性，而且对于不同的考核对象，该题目的属性值会不一样，这些都要通过计算机自动阅卷，统计之后通过相应的模型和算法来评估。这一评估可以反映计算机自动组卷算法的优劣，也可以为下一次自动组卷提供借鉴。因此，可以在自动组卷的基础之上增加一个统计分析模型，让计算机自动地对结果进行分析，同时对考试的结果做出合理的修正。
　　1 模型建立
　　测量试卷的主要检验指标是：难度、信度、区分度和覆盖度。假设我们考察M份试卷的考试结果（假设这M份试卷的结果符合或近似符合正态分布），自动生成的试卷由n道题目组成，每道题目的总分为[Ai]，样本值为[Xj]，各题的实际得分为[Xij（i=1，2，3…n，j=1，2，3…M）]。很容易得出试卷的如下信息：
　　[Xj=i=1nXij第i道题的平均得分Xi=1Mj=1nXij]
　　[第i道题的方差Si=1Mj=1n（Xij-Xi）2]
　　1.1 试卷的难度系数
　　题目的难度是衡量题目难易水平的数量指标，通常以题目的答错比率Pj 来表示：
　　[Pi=1-XiAi]
　　于是，整套试卷的难度系数为：
　　[P=1Ni=1nAiPi]
　　[其中，N=i=1nAi，表示整套试卷的总分。]
　　1.2 试卷的区分度
　　题目的区分度也叫题目的鉴别力，它是衡量题目对不同水平被测试者的心理特质的区分程度的指标。区分度的取值范围于0-1之间，值越大，区分的效果越佳。一般0.4-0.6 为佳。
　　我们定义区分度为该题目的高分组平均得分与低分组平均得分之差在该题目满分中的比例，由于我们只考虑组卷中的客观题，故而对于第i道题目的区分度，
　　[δi=1MNj=1nXij]
　　从而，整套试卷的区分度
　　[δ=1Ni=1nAiδi]
　　1.3 试卷的可信度
　　可信度指测量数据和结论的可靠性程度，它是表明考试质量的稳定性和可靠性的一个重要指标。信度一般规定是真分数的方差在总体方差S （M个学生总分的方差）中所占的比例。测量信度系数的方法较多，这里采用[α]系数法[1]（该公式由克朗巴赫提出）。
　　[α=MM-1（1-S1+S2+…+SnS）]
　　[其中，S表示总分的方差，Si表示第i道题目的方差。]
　　评测标准：0.9以上：好；0.8-0.9：较好；0.6-0.8：一般；0.6 以下：较差。
　　1.4 试题的相关性
　　反映学生掌握知识广度的重要指标，也就是我们常说的试题应尽量多的反映该门课的知识点。一般用各题的相关系数矩阵表示：
　　[R=（Rij）n×n]
　　[其中，Rij表示第i道题目的得分与j得分的相关关系。]
　　[Rij=Xij-XiXij-XjSiSj（i，j=1，2，3…n）]
　　1.5 试卷的整体评价
　　在上述的统计的基础之上，我们对试卷的难度系数、试卷的区分度、试卷的可信度、试题的相关性做了评价，但是对试卷的整体分析并不只是这些基本因素的简单代数之和，因为每个因素对整体的影响的比重是不一样的。为了客观公正地评价一套试卷，我们采用了一种很重要且十分常用的分析方法——层次分析法[3]。
　　1.5.1 因素的评分
　　前面对各个单因素的评价是基于统计与计算得出的结果，具有很好的直观比较性。但是对于数学模型分析却很不方便，在不影响对试卷评估结果的前提下，结合试卷评价自身的特点，我们对各个因素进行重新评分。
　　表1 对试卷的难度系数的评分
　　[试卷难度系数＼&0-0.2＼&0.2-0.4＼&0.4-0.5＼&0.5-0.6＼&0.6-0.8＼&0.8-0.9＼&0.9-1＼&评分（满分为1）＼&0.15＼&0.35＼&0.5＼&0.7＼&0.85＼&0.7＼&0.4＼&]
　　表2 对试卷的区分度的评分
　　[试卷区分度＼&0-0.2＼&0.2-0.4＼&0.4-0.6＼&0.6-0.8＼&0.8-0.9＼&0.9-1＼&评分（满分为1）＼&0.1＼&0.45＼&0.8＼&0.85＼&0.9＼&0.95＼&]
　　表3 对试卷的可信度的评分
　　[试卷可信度＼&0-0.3＼&0.3-0.5＼&0.5-0.6＼&0.6-0.8＼&0.8-0.9＼&0.9-1＼&评分（满分为1）＼&0.15＼&0.5＼&0.6＼&0.7＼&0.8＼&0.9＼&]
　　对于试题的相关性的评分需要对相关性矩阵作分析，然后合理评分。不妨假设对上述四个因素的评分结果分别为[ω1，，ω2，ω3，ω4。分数向量为：]
　　[ω=ω1，，ω2，ω3，ω4]
　　[四个要素分别用A试卷的难度系数、B试卷的区分度、C试卷的可信度、][D（试题的相关性）表示，]而四个要素在整体中的比重的影响因子分别为3、5、9、2。于是我们考虑到比分矩阵为
　　[J=33353932539355955999529223252922]
　　利用迭代法[3]可以求出[J]的权向量为[α=0.1689，0.2765，0.4983，0.1246T]。
　　则，试卷的整体评分为
　　[ω?α=0.1689ω1，+0.2765ω2+0.4983ω3+0.1246ω4]
　　2 结束语
　　上述的对试卷的四个方面的评价，均是在对考试结果的统计的基础之上，对数据的相应计算，并建立模型来评价自动生成的试卷。能够在一定的程度上反映出自动组卷算法的优劣，同时，通过开发技术手段实现试题库中各试题的综合系数的自动更新，对今后的组卷过程的优化具有很强的指导意义。
　　参考文献：
　　[1] 曾一，冉忠，郭永林.试题库中自动组卷的算法及试卷测评策略[J].计算机工程与设计，2006，27（16）：3024-3027.
　　[2] 魏宗舒.概率论与数理统计教程[M].北京：高等教育出版社，2008.
　　[3] 王树禾.数学模型选讲[M].北京：科学教育出版社，2008.