谈美国通用设计测评对我国教育测评的启示

摘要：在全纳教育日益发展的背景下，通用测评设计(universal design for assessment)已经成为美国有效衡量学校教育质量，评估学生学业成绩，提高教学质量的有力措施。从设计测验的第一步入手，将所有学生群体考量在测试范围内，力图让所有学生能在测试中充分展示真实能力，有效地节省了评量调整带来的消耗。本文通过对美国通用设计测评的介绍，试图为我国教育测评带来新的启示。
　　1 全纳教育环境下的教育测评
　　全纳教育(inclusive education)的理念于1994年由联合国教育科学文化组织在西班牙萨拉曼卡召开的“世界特殊需要教育大会”上正式提出。这一概念的提出主要是由于现有的教育体制不能公正地对待所有群体并且难以关注到每一个学生。
　　随着我国经济和教育的发展，全纳教育的理念逐渐深入人心，越来越多样的群体进入普通学校。（智力落后、肢体残疾、视觉障碍和听觉障碍学生，以及外籍学生、贫困学生、弱势群体子女等等）我们的标准化教育测评并没有对之作出应对。如何做到教育公平是我们努力解决的问题，在设计测验之初是否也应该考虑到所有学生都有权在考试中展示学习成果。不仅是有特殊需要的学生，所有学生都应该受益于公平的考试。这也通用设计测评最根本的出发点。
　　2 通用设计测评
　　通用设计力求使设计出来的产品能够为所有人服务。通用设计测评就是让考试尽可能全面的服务与所有考试者，而且使在试卷设计之初就考虑所有因素（而不是设计完成之后再翻修）。在教育领域，通用设计测评促使大型标准化测验适用于如今更加多样的受试群体。wWW.133229.coM这样我们可以更清楚地了解学生的知识水平和能力。通用设计测评需要注意的包括：（1）结构可以测量；（2）尊重参加考试者的多样性；（3）简明易懂的试卷；（4）清晰的格式字体；（5）改变要以不改变原意和难度为原则。
　　通用设计测评是在不改变评估标准、不降低难度的前提下在增加考试的容纳度，它不能取代评量调整和替代性评估。就算一个包含了所有通用设计元素的良好的测评，在考试地点、时间、作答方式等方面依然需要依据学生的具体情况作出调整。但是，考试在设计之初就应该把这些一般性调整考虑在内。通用设计测评并不是为了眷顾特殊学生而存在，所有学生都应该获益于公平的考试。
　　3 通用设计测评原则
　　通用设计测评是一种教育测评方法，它的特点就是要尽可能适用于所有学生，包括有特殊需求的学生。因此，通用设计测评就是要全纳的包括所有学生，对所测知识内容有清晰明确的界定同时测验项目也要无偏见的呈现。而且在测验设计之初就要考虑便于评量调整，具有简单清楚和直观的考试说明和步骤以及最大程度的实现易读易懂。
　　3.1 包容性强
　　当测验第一次被建构时,就要考虑到所有学生。(aera, apa, ncme, 1999; national research council, 1999).虽然有时可以适当限制被测群体(例如就业安置测验、选拔测验)，但在公共教育问责制测验中并不合适，所有学生都应该有机会获得奖学金。随着评估的目标群体的增加，评估需要对不断增长的需求（多样性的增加、普通课程中学生种类的增加、对学生更加重视和负责）做出反应。
　　通用测验设计原则第一条——(center for universal design, 1997)测验要公平的发挥作用。当适用于大规模测验时，这条原则要求所有所有学生都有权参与，无论他们有什么认知能力，还是什么文化、语言背景。评估需要测量学生在一个宽泛能力和技能上的表现，从而确保有不同学习任务的学生在同一个考察内容有机会展示能力。这并不意味着标准应该放宽或者考察内容应该有所改变。通用标准测验设计必须权衡考量内容和成绩标准制定出相同深度和广度的测验，并且针对认知的复杂性制定具体细节。运用不同的格式、技术和设计涵盖所有学生。这在测验设计的一开始就必须明确，为了做到公平，评估需要用同一个标准衡量所有学生的成绩。1993年，algozzine提出将全纳的原则适用于评估，以避免被测组间的分离。“容性强”明确的含义是，试测应该提取所有希望参与到最终测验的学生样本。包括有各种障碍的学生、英语不熟练的学生和不同种族、民族、社会阶层的学生。试测尽可能抽取广泛的学生样本不仅可以确定题项是否含糊不清、有误导性或是导致某些特定群体的学生无法完成，而且还能确保测验制作完成后适用于所有学生。
　　3.2 结构界定明确
　　好的测验设计有一个重要的功能，就是确保测量到想要测量的内容。就像popham 和 lindheim1980年提出：“一个测试开发项目开始于对所测技能和态度特征的慎重思考。”就像通用建筑设计为所有人消除公共和私人建筑的身体、感官、

认知障碍，通用测验设计消除测验中所有非结构导向的认知、感官、情绪和身体的障碍。特定评量调整的运用是否使结构测验设计无效，例如，不同的群体对于阅读有不同的定义，有些人可能把它定义为通过书面文字建构意思，有的则可能有更广泛的理解，而不是针对信息是如何获得的。后者的说法是专为视障学生提出，很少有学生学习盲文，更多的学生适用技术设备阅读文字，可以说这是视障学生阅读的唯一方法。解决这个问题的难点在于如何把理解文本的能力界定的清晰，普遍被接受。国家考试的成绩往往影响一个学生是否可以晋升等级或是从高中毕业。因此有明确的界定结构比以往更加重要。而且，一旦这些结构被确定，就要提供给管理如何测试的人。
　另一个常见的测试争论时关于数学测验中需要的阅读技能。几项研究已经发现，如果把问题读给阅读困难的学生他们会取得较高成绩(calhoun, fuchs, & hamlett, 2000; harker & feldt, 1993; koretz, 1997; tindal, heath, hollenbeck, almond, & harniss, 1998)。这一发现意味着，数学测验的阅读需求可能会阻止阅读能力处于边缘的学生在数学测验中展现能力。然而，解决问题的方法往往需要大量诵读。数学教师对这些题目和大量的诵读负担百感交集。shorrocks-taylor and hargreaves (1999)提出，非语言测试中的问题用语要尽量透明尽可能简洁清楚。虽然研究人员发现，我们很少关注语言文学测试中的语言测量，但这个问题将困扰测试开发一段时间。
　　3.3 无障碍，无偏见的项目
　　根据教育和心理测试标准(aera, apa, ncme, 1999)，项目的质量通常是通过项目审查程序和试验测试确定的。项目审查既包括所测内容的质量，清晰度和是否歧义，也包括考察性别和文化的命干问题。据国家研究理事会（1999）公布，偏见出现在：测验自身的不足之处导致各样本组在某一问题上得分不同。例如，一个测试旨在衡量口头推理，应该适用一般用语。如果文字涉及特定文化和地点，那么就可能不公平的对待来自这些文化和地域的考生与其它群体考生。一种减少偏见的方法是研究项目是否对于来自特定亚群的学生更难。这可以通过现场试测来确定试题难度和不同学生在这道题上表现得不同能力。(aera, apa, ncme, 1999, p. 39)
　3.4 便于评量调整
　　在美国考试评量调整被应用于具有特殊需求学生和英语初学者的考试中。但是应该如何调整，标准化是否真正有助于提高调整的有效性，什么学生可以接受调整以及谁来决定给与他们调整等等这些问题在学术界引起激烈的讨论。虽然经过通用设计的题项适合大多数学生，但是还是有一部分学生仍然需要评量调整。通用设计的目的在于降低来自评量调整的对分数有效性和可比性的威胁。举例来说，避免以下情况的出现有助于减轻盲文调整的困难：（1）使用不相关的图表。（2）出现垂直或倾斜的文字排版。（3）需要阅读的图表，没有转化成文字说明。（4）题目中出现纯粹为了装饰的图案，给视力障碍考生带来不必要的干扰。
　　通用设计测评无法考虑所有调整的可能性，但是可以为常见调整提供便利。例如在测验设计之初就可以考虑有不少考生需要适当延长考试时间，在考试中途获得休息的机会。那么测验就要尽量避免考试进行的同步性，便于学生在考试时间上灵活安排或是更容易插入休息时间。
　　4 通用设计测评的实施建议
　　通用设计总原则：（1）通用设计测评不要降低执行标准，一些群体不愿降低测验的操作难度。（2）通用设计测评不能代替评量调整，评量调整有必要存在于学生的出席方式，回答方式，环境，时间和流程安排中。（3）通用设计测评需要众多专家讨论考量不同设计要素的优缺点。（4）不光是英语初学者，所有学生将受益于更易懂的测验。
　　4.1 组建测评设计团队
　　由于美国的大型教育测评是承包给个人的，政府在需要设计测评时，提出要求、通用设计原则、承包者的资格和报告内容要求、报酬等一系列问题，向测验公司、课程和教学专家、独立研究者等各种团队招标。这些团队要向政府报告他们的能力、方法等参加竞标。我国大型考试的设计是找一线教学能手和各个学科的专家学者参与其中。我们是不是也可以扩大这个团队成员的专业类型，组建一个专业整合的团队，也把心理学家、特殊教育教师和专家学者、以及各层学业水平的学生和家长（包括有特殊需要学生和他们的家长）吸纳进来。
　　4.2 构建测验
　　测验题项设计是个耗时又富有挑战的工作，我国在标准化测验的经验上有着多年的积累，这些来自实践中的经验可以帮助我们在测验的设计上顺利起步。我们还需要懂得通用设

计测评观念的测评专家，将无障碍、适应更广群个体的观念引入题项设计中。美国这些年在题项的通用设计方面积累了经验，并且归纳出精华（大型标准化测验通用设计参考办法）。我们可以拿来借鉴。
　　5 结语
　　标准化测验在现代社会中发挥重要作用，尤其是在选拔人才、评量成就方面。标准化测验是我们获得各种权益的重要途径之一。考试的公平在很大程度上反映（下转第19页）（上接第12页）了一个社会的公平。随着社会的发展，教育研究者把通用设计理念带入到教育测评中，力图使测验更加公平和人性化。在我国社会的迅猛进步下，通用设计测评是适合我国教育发展的新观念，是值得我们去尝试的。
　　通用设计测评充分尊重了受试群体的多样性，结合多领域专家的智慧力图寻找一个最适合所有学生的标准，减低由于个体差异带来的调整消耗，更好帮助学生在教育测评中无障碍的展示能力，更好的促进教育工作者的教学和管理。
　　
　　参考文献
　　[1]abedi, j., leon, s., & mirocha, j. (2001). validity of standardized achievement tests for english language learners. paper presented at the american educational research association conference, seattle, wa.
　　[2]center for universal design (n.d.). what is universal design? center for universal design, north carolina state university. retrieved january, 2002, from the world wide web: www.design.ncsu.edu.
　　[3]johnstone, c. j., bottsford-miller, n. a., & thompson, s. j. (2006). using the think aloud method (cognitive labs) to evaluate test design for students with disabilities and english language learners (technical report 44). minneapolis, mn: national center on educational outcomes.
　　[4]johnstone, c. j., thompson, s. j., moen, r. e., bolt, s., & kato, k. (2005). analyzing results of large-scale assessments to ensure universal design (technical report 41). minneapolis, mn: university of minnesota, national center on educational outcomes.
　　[5]thompson, s. j., johnstone, c. j., anderson, m. e., & miller, n. a. (2005). considerations for the development and review of universally designed assessments (technical report 42). minneapolis, mn: university of minnesota, national center on educational outcomes.
　　[6]thompson, s. j., johnstone, c. j., thurlow, m. l., & altman, j. r. (2005). 2005 state special education outcomes: steps forward in a decade of change. minneapolis, mn: university of minnesota, national center on educational outcomes.
　　[7]adda (attention deficit disorder association). (2001). accommodation

s for testing. retrieved january, 2002, from the world wide web: www.adda.org.

论文网在线