美国大学生学习评估工具的模型构建

大学生学习评估是美国高等教育质量保障的重要手段之一，历经百余年的发展和积淀，目前已形成相当丰富和完备的评估工具体系[1]。在众多的学习评估工具中，比较有影响也是相对主流的评估工具有：《CIRP新生调查》(CIRP Freshman Survey，简称CIRP-FS)和《CIRP大四学生调查》(CIRP College Senior Survey，简称CIRP-CSS)，《大学生就读经验调查》(The College Student Experiences Questionnaire，简称CSEQ)，《全美大学生参与度调查》(National Survey of Student Engagement，简称NSSE)，《加州大学本科生就读经验调查》(University of California Undergraduate Experience Survey，简称UCUES)以及《大学学习评估》(The Collegiate Learning Assessment，简称CLA)。其中，CLA属于标准测试型工具，用于直接评估，而其他工具则属于问卷调查型，用于间接评估。
    从各工具的开发时间来看，《CIRP新生调查》最早产生，其网络版问卷早在1965年就已诞生，而《CIRP大四学生调查》则到1992年才开始实施。《大学生就读经验调查》最初由罗伯特·佩斯(C.Robert Pace)于1979年开发，但直到1994年才开始正式运行，并先后经过了1983年、1990年和1998年的三次改版[2]；《全美大学生参与度调查》于1999年开始小规模试运行，2000年开始首次正式启用。《加州大学本科生就读经验调查》最先以网络形式展开调查，2002年春季开始正式实施[3]；《大学学习评估》最初诞生于2000年，2004年由教育资助委员会(Council of Aid to Education，简称CAE)正式发布。
    下文试图从评估的主客体、理论基础、评估内容以及信效度等方面对上述美国大学生学习评估工具进行深入分析和比较。
    一、美国大学生学习评估工具的主体和客体
    从评估主体来看，评估工具的编制、实施和结果分析都依托于强大的学术研究团队。(见表1)
    从评估客体来看，《CIRP新生调查》和《CIRP大四学生调查》分别针对刚入学的新生和即将毕业的大四学生，NSSE和CLA则以大一和大四在读学生为客体，而CSEQ和UCUES面向全校在读大学生，范围更广。

    二、美国大学生学习评估工具的理论基础
    科学的评估工具应以一定的理论框架为基础，上述这些学习评估工具也不例外，在其研发的过程中基本上都参考了学生发展理论。学生发展理论主要解释大学生如何发展成为具备复杂成熟的了解自我、他人及世界能力的个体的过程[5]。美国高等教育领域对学生发展理论的研究已有近百年历史，主要包括社会心理与认同发展理论、认知结构理论、类型理论和个体与环境互动理论[6]。其中，个体与环境类理论中的参与理论对学习评估工具的影响最为显著，其代表人物主要有拉尔夫·泰勒(Ralph Tyler)，罗伯特·佩斯(C. Robert Pace)，亚历山大·阿斯汀(Alexander W. Astin)，文特森·丁度(Vincent Tinto)，阿瑟·奇克林(Arthur W. Chickering)，塞尔达·加姆森(Zelda F. Gamson)，欧内斯特·帕斯卡瑞拉(Ernest Pascarella)，乔治·库(George D. Kuh)等人。
    具体来说，CIRP两份问卷和UCUES主要借鉴了阿斯汀的“学生参与”理论(student involvement theory)和“输入-环境-输出”理论(Input-Environment-Output model，简称IEO)。理论强调了学生个体与大学环境的相互作用，解释了大学如何影响学生的发展。
    CSEQ的创始人佩斯对阿斯汀的IEO理论模型提出了质疑，他构思出一种新的情景式模型，即“环境-经验-发展”(environment-experience-development)模型，并形成“努力质量”的观念，成为CSEQ的理论基础[7]。“环境-经验-发展”模型不仅强调环境对学生发展的影响，还将这种影响与学生自身的努力和投入即学生参与结合起来。
    最早的NSSE项目在很大程度上借鉴了库的“学生参与”(student engagement)理论，奇克林和加姆森的《本科教育良好实践》(Good practices in undergraduate education)及其指标体系。后来，NSSE重新提炼出《有效教育实践五项原则》(Effective Education Practices，简称EEP)，即学术挑战水平、主动学习和协作学习、师生互动、丰富教育经历、校园环境支持，并以此为基准形成了现有的NSSE[8]。UCUES的各项指标也在一定程度上依托于“学生参与”理论和建构主义学习观。
    佩斯，阿斯汀和库三人陆续丰富了对“学生参与”的理解。早期，佩斯重视大学环境与学生自身的努力相互作用，他认为，当学生投入到各种有教育意义的活动中的时间和精力越多，他们从学习和大学经历中所得的收获就越多，并由此衍生出“努力质量”模型。阿斯汀进一步普及了“努力质量”的观点，他的“参与”理论强调学生在大学经历中投入时间和精力的质和量，突出了学生动机和主观行为对学生成就的重要作用[9]；此后，库进一步拓展了“参与”的内容，他从两方面考察了学生的参与，一是学生投入到有效学习中的时间和精力，二是学校为学生的参与所提供的支持，学生的投入和学校的环境支持相辅相成[10]。“参与”强化了学生各方面的技能，塑造了他们的秉性，为学生大学后的发展做好了充分准备。
    从CLA的考查内容来看，CLA通过情景式问题的设置，要求学生运用已有的知识和能力对近乎现实的问题予以分析和辨别[11]，问卷的问题在一定程度上体现了认知结构理论中威廉·佩里的智力与道德发展理论，强调了不同阶段学生知识的发展和角色的转换。
    学生发展理论是美国大学生学习评估问卷设计和指标构建的基石，是评估工具不断完善的理论保证。
    三、美国大学生学习评估工具内容的异同
    为了更深入地分析和比较上述评估工具的异同，表2从问卷维度和具体指标对各问卷工具的内容进行了梳理，“√”表示该评估工具包含此项指标。表2中问卷指标的划分只是为了清楚地反映问卷的特点，而不是绝对地分割题目间的联系。
    在选取问卷分析维度时，我们根据NSSE的五个有效教育实践基准，CSEQ的五个指标和每份工具的侧重点，提炼出四大维度：学生的背景信息、校园环境、学生参与、学生的生活和发展，并划分了较有代表性的次级指标。虽然这些维度并不尽善尽美，但还是比较全面地涉及了问卷的主要内容。由于C IA属于直接评估工具，与其他工具区别较大，所以单独分析其特点。

    (一)学习评估工具的主要指标高度相似
    由表2可知，每份问卷都有较为重视的维度，每项指标的选取都具有独特的用意。
    在学生背景信息上，关于父母学历的问题意在检验家庭成员的受教育程度是否会影响学生上大学的几率。大学期间是否住宿或住在何处可能导致学生拥有不同的校园参与和发展，而学校对学生个人政治观、宗教观、性取向或性别认同的调查，一方面可以了解个体的实际需求，提供必要的校园支持，另一方面也可以检验大学生活是否对学生的固有特征产生影响。有关大学费用的来源问题反映了学生的家庭收入状况，有助于学校统计助学金或助学贷款的需求情况，以制定相应的经济资助政策。
    校园环境对学生的发展举足轻重。CSEQ、NSSE和UCUES分别强调了不同背景(不同经济或社会等级、性别、种族或民族、政治、宗教信仰、个人价值等)学生之间的相互交流和理解。UCUES尤为关注不同性取向或性别认同的学生，了解他们的校园认同度，以提醒学生事务管理者营造适合不同学生群体的校园环境。
    学生参与是主流学习评估工具的核心，尤其是学术活动的参与，每份问卷都询问了学生的学术参与情况。与学术参与相对的是学术懈怠，《CIRP大四学生调查》和UCUES较多地询问了学生上课迟到、逃课、作业未交等方面的行为，这有助于学校了解学生的学习问题，提供必要的学术支持。学生的课外活动参与也是学生参与的重要一环。CSEQ特别关注学生在艺术活动中的参与和学生对艺术、音乐和戏剧的欣赏能力和爱好，说明学生的全面发展已成为学习评估的重心。
    本文分析的问卷十分重视对学生大学收获的调查，收获主要包括知识和能力储备。值得注意的是，虽然多数学者将CSEQ、NSSE和UCUES标志为过程性评估工具，但它们同样注重学生的大学收获。UCUES还借助学生对入学前后特征变化的自我报告，清楚地反映了他们在大学期间的变化和发展。
    另外，CIRP两份问卷和UCUES还关注了学生的身心健康。UCUES重点询问学生参加校园咨询或心理咨询服务的经历，从治疗的有效性、服务质量、建议和有需要但没有接受服务的原因等几个方面深入了解学生的需求和学校咨询的现状。可见，学生的心理健康已成为加州大学重点关心的领域，心理咨询中心的工作也成为了高校学生事务管理的重头工作。
    总的来看，这些学习评估工具的相似之处十分显著。
    (二)问卷指标的独特之处
    虽然上述评估工具的主要指标高度相似，但有些指标却是独具特色的。
    具体来看，除CSEQ外，CIRP两份问卷，NSSE和UCUES分别设置了一些独特的调查问题。《CIRP新生调查》面向刚入学的新生，它需要了解学生选择所上大学的原因和他们对大学生活的期待，为后续研究做好准备。问卷还调查了新生是否存在听力、语言、视力、学习等方面的障碍，他们是否赞同大学录取时给予贫困学生一定的照顾，大学是否有权禁止校园极端言论等，为大学管理学生储备了信息。《CIRP大四学生调查》不仅强调学生大学期间的公民参与度，还考查了学生对公民参与计划重要性的看法。在EEP的指导下，NSSE突出了大学的学术挑战水平，着重了解课程和作业的设置是否能够挑战学生各方面的能力。与加州大学重视学生的大学归属感和大学生多元化背景相呼应的是，UCUES要求学生清楚地了解自己的身份，即自己属于哪类学生(如体育生、保守的学生、兄弟会/姐妹会成员等)，要求他们对这些身份在校园的辨识度逐一排序。另外，为了确保问卷的灵活性，NSSE和UCUES建议学校根据自身的特点补充必要的问题。
    总体来看，不论是哪种调查工具，它们都产生于高等教育质量保障的社会大背景下，都以“学生主体”和“学生学习”为中心思想，遵循学生发展的相关理论，深入探究大学与学生之间的化学作用。现在，CIRP问卷、CSEQ、NSSE在某些题目的设计上也会相互参考，UCUES中学生的性取向、性别认同、个人的学习和情绪压力等问题也逐渐成为其他问卷关心和重视的问题。因此，这些评估工具的各项指标之间并非完全独立，它们承前启后，相互借鉴，共同发展。
    (三)作为直接评估工具的《大学学习评估》(CLA)
    CLA是终结性评估，直接测量学生在批判性思维、分析推理、问题解决、写作沟通[12]等能力上的增值发展。
    CLA全部采用主观题型，题目包括“分析型写作”(Analytic Writing Task)和“执行型任务”(Performance Task)两部分。前者又分为“讨论型任务”(The Make-an-Argument Task)和“评论型任务”(The Critique-an-Argument Task)[13]。具体来说，“讨论型任务”要求学生陈述对某件事情的看法，如赞成还是反对“政府财政是否应该用在预防犯罪而不是事后惩罚罪犯上”，同时反驳相对的意见，并举证说明；“评论型任务”则是对某个观点的评价。“执行型任务”较为复杂，它要求学生选择性地运用问卷提供的相关资料分析现实问题，提出解决方案，并进行合理的论证。
    CLA将问题与现实紧密结合，弥补了早期测验未能考查学生某些核心能力的缺点。这些特点，使CLA在学习评估工具中独树一帜，正如里查德·沙沃森(Richard J. Shavelson)所言：“作为2004年掀起的随机函数增值评估创举(RAND's Value-Added Assessment Initiative)的副产物，CLA是直接增值评估的最佳范例。”[14]
    四、美国大学生学习评估工具的信效度
    CIRP项目组每年都会根据实际情况对问卷题目的表述、数量和出现的顺序做出一定的修改。经反复测试后，《CIRP新生调查》的整体结果依然呈现较高的一致性[15]。CSEQ各维度的内部一致性信度系数大多高于.80，信度较好。分层回归分析法的结果也表明，“努力质量”维度可以解释相当大部分的变量，问卷的整体内容效度较高[16]。NSSE各子量表的内部一致性信度系数均达到了.80以上，其总体及部分的信度非常好[17]。UCUES内部一致性信度系数的最高值为.92，最低值为.61，可见，UCUES的信效度较好[18]。相关学者对CLA做了评定者信度(inter-rater reliability)和同质性信度(inter-item consistency)的检验[19]。结果表明，CIA的评定者信度比较一般，而它的同质性信度很高。另外，当CLA以学校而非学生为分析单位时，具有较高的效度。
    总之，各评估工具分别从不同方面详细测试了各自的信效度，检验结果表明，各评估工具具备较高的信效度，当然，也有不断完善和改进的空间。
    五、启示
    在上述学习评估工具中，目前NSSE和CSEQ已经出现汉化版本，清华大学和北京师范大学相关学者已分别运用汉化版的NSSE和CSEQ展开了一些调查，所以，相对其他工具而言，CSEQ和NSSE在我国的适用性是比较好的。不过，CIRP项目几十年研究的完整性、权威性和可靠性，同样值得中国学者深入挖掘和借用。UCUES针对研究型大学，学生背景比较多元，中国学者不仅要考虑汉化问题，还要仔细斟酌相关题目的内容与中国学生的实际情况是否相符，以便有所取舍地择其可用之处。而CLA作为一种新型的问卷，在我国运用的难度较大，且不说其信效度有待检验，我国学生能否很好地适应这种费时较长的主观题型测试，也还不得而知。除了考虑评估工具内容在我国是否适用，如何推进学生发展理论的本土化、评估团队的专业化、评估技术的精良化，以及如何获取更多政策和经费的支持，也是我国同行在学习美国经验时面临的主要问题。