当代教育心理学/第 11 章:标准化和其他正式评估
了解标准化测试对于初级教师来说非常重要,因为 K-12 教学越来越受到标准化测试的管理和结果的影响。教师还需要能够帮助家长和学生理解测试结果。考虑以下情况。
- 瓦妮莎是一名新获得执照的体育教师,正在申请一所中学的职位。在面试过程中,校长询问她将如何将重要的六年级数学技能融入她的体育和健康课,因为上一年的六年级学生在数学方面没有达到每年适当进展。
- 丹妮尔是俄亥俄州的一名一年级科学老师,最近从土耳其移民的沃尔德威尔先生(他十岁儿子的名字叫马里乌斯)要求她帮助他理解测试结果。当马里乌斯第一次来到学校时,他参加了认知技能测试,成绩排在第 85 个百分位,而他在学年后期参加的州立科学毕业考试中被评为“熟练”。
- 詹姆斯是一名三年级的小学老师,他在暑假期间参加了天才教育课程,因为上一年的标准化测试表明,尽管他的班级的整体阅读成绩很好,但前 20% 的学生没有像预期那样学习。
- 米格尔是一名一年级的学生,他在秋季参加了两项测试,结果表明他的年级当量分数为阅读 3.3,数学 3.0。威廉的父母希望他立即升入二年级,他们认为测试结果表明他已经能够在三年级的水平上阅读和做数学。格雷格是一名一年级老师,他向威廉的父母解释说,3.3 的年级当量分数并不意味着威廉能够做三年级的作业。
理解标准化测试很困难,因为有许多术语和概念需要掌握,并且近年来《不让一个孩子掉队法案 (NCLB)》对问责制的要求发生了变化,这使得这些概念和问题更加复杂。在本章中,我们将重点介绍初级教师需要了解的信息,并从一些基本概念开始。
标准化测试是由一个团队创建的——通常是来自商业测试公司的测试专家,他们会咨询课堂教师和大学教师——并以标准化方式进行管理。学生不仅回答相同的问题,而且他们也接受相同的指示,并且有相同的时限。使用明确的评分标准。标准化测试旨在由一个州、省或国家内的许多学生参加,有时甚至跨越国家进行。教师帮助管理一些标准化测试,并提供包含有关管理和评分的明确细节的测试手册。例如,教师可能需要从教室墙壁上移除所有海报和图表,使用脚本大声朗读指示,并以特定的方式回答学生的问题。
标准参照标准化测试测量学生相对于特定标准或标准的成绩。例如,马萨诸塞州联邦政府新招聘的消防员必须通过成功完成一项标准化体能测试来达到体能标准,该测试包括爬楼梯、使用梯子、推进水管和模拟通过门洞进行救援(人力资源部,未注明日期)。[1] 目前在美国学校使用的标准参照测试通常与州立课程标准挂钩,并提供有关学生能做什么和不能做什么的信息。例如,肯塔基州四年级阅读的课程标准之一是“学生将识别和描述小说、非小说、诗歌或戏剧的特点”(2006 年综合课程文件阅读 4.1),因此对个别学生的报告将表明该儿童是否能够完成这项技能。该报告可能说明成功完成的项目数量或百分比(例如,20 个中的 15 个,即 75%),或者包括基于对达到掌握率的百分比做出的决策的描述,例如基本、熟练或高级,这些描述是基于对达到掌握率的百分比做出的决策。
常模参照标准化测试报告学生的成绩相对于其他人的情况。例如,如果一名学生在阅读方面得分排在第 72 个百分位,这意味着她的得分高于参与测试常模组的 72% 的学生。常模组是在开发标准化测试时完成标准化测试的学生的代表性样本。对于州立测试,常模组是从该州抽取的,而对于全国测试,样本是从全国抽取的。有关常模组的信息在技术测试手册中提供,这些手册通常不会提供给教师,但应该可以从负责学校区测试的人员那里获得。
标准参照和常模参照测试的报告提供不同的信息。想象一下一项全国性的数学测试,旨在测试二年级学生的技能。如果这项测试是常模参照的,而艾丽莎收到了一份报告,表明她的得分排在第 85 个百分位,这意味着她的得分高于之前参加过测试的常模组中的 85% 的学生。如果这项测试是标准参照的,艾丽莎的报告可能会说明她掌握了为她的年级水平设计的 65% 的问题。常模参照测试报告的相对百分比提供了有关艾丽莎相对于其他学生的成绩的信息,而标准参照测试试图描述艾丽莎或任何学生在测试旨在衡量的任何方面能做什么或不能做什么。在计划教学时,课堂教师需要了解学生能做什么和不能做什么,因此标准参照测试通常更有用(Popham,2005)。[2] 目前的基于标准的问责制和 NCLB 主要依赖于基于标准的测试来评估对基于内容的标准的掌握。因此,学校对标准化常模参照测试的使用减少了,主要局限于对患有特定认知障碍或具有特殊能力的儿童进行诊断和安置(Haertel & Herman,2005)。[3]
一些最近的标准化测试可以将标准参照和常模参照元素整合到同一个测试中(Linn & Miller,2005)。[4] 也就是说,测试结果不仅提供有关掌握内容标准的信息,还提供有关达到该掌握水平的学生的百分比的信息。
标准化测试有时可能是高风险的,这意味着考试成绩会产生某种重要后果。这些后果可能是针对学生的,例如,为了获得文凭,必须通过高中毕业考试,或者为了获得教师资格证,必须通过 PRAXIS II。这些后果可能是针对学校的,例如,在 NCLB 下,每年每所学校中越来越多的学生必须在数学和阅读方面达到熟练程度。未能实现这些进步的学校将面临后果,包括减少资金和重建校舍。在 NCLB 下,这些后果旨在针对学校,而不是针对个别学生,而且测试结果可能不能准确反映学生所了解的知识,因为当考试对学生没有低风险时,他们可能不会尽力(Wise & DeMars,2005)。[5]
标准化测试用于各种原因,同一项测试有时用于多种目的。这些用途包括
在更广阔的背景下评估学生的进步设计良好的教师评估提供了有关每个学生在课堂上的成绩的至关重要的信息。但是,教师在他们使用的评估类型方面有所不同,因此教师评估通常不提供有关学生成绩与外部建立的标准相比的信息。考虑两个八年级的学生,布莱恩和约书亚,他们在初中数学课上都获得了 A。但是,在标准化的常模参照数学测试中,布莱恩的得分排在第 50 个百分位,而约书亚的得分排在第 90 个百分位。这些信息对于布莱恩、约书亚、他们的父母和学校工作人员来说都很重要。同样,两位三年级的学生都可以在阅读方面得到 C,但其中一位可能通过 25% 的标准参照州立考试题目,而另一位可能通过 65% 的题目。
学生在教师评估和标准化评估中的成绩可能存在差异的原因有很多。学生在标准化评估中的成绩可能较低,因为他们的老师有容易的评分标准,或者他们学习的内容与标准化测试中的内容不一致,或者他们不熟悉标准化测试中的题目类型,或者他们有考试焦虑,或者他们在考试当天身体不适。学生在标准化考试中的成绩可能高于课堂评估中的成绩,因为他们的老师有严格的评分标准,或者学生在课堂上没有始终如一地努力学习(例如,没有完成作业),但会集中精力参加标准化考试,或者学生擅长标准化考试中的选择题,但不太擅长老师使用的各种结构化答案和表演项目。我们应该始终非常谨慎地从一种评估中得出结论。
在一些州,为了向家长和州政府官员提供更广泛的信息,家庭学校的学生需要参加标准化成绩测试。例如,在纽约州,家庭学校的学生在 4-8 年级必须每两年参加一次认可的标准化测试,在 9-12 年级则必须每年参加一次。这些测试必须以标准化的方式进行,并将结果提交给当地学区的教育主管。如果学生没有参加考试或成绩低于 33%,家庭教育项目可能会被列入观察期 (纽约州教育厅,2005)。[6]
诊断学生的优势和劣势 标准化测试,以及面试、课堂观察、体检和学校记录,都被用来帮助诊断学生的优势和劣势。通常,用于此目的的标准化测试是单独进行的,以确定孩子是否有残疾。例如,如果一个幼儿园孩子在口头交流方面有困难,可以进行标准化的语言发展测试,以确定孩子在理解词语或句子结构的含义、注意到相似的词语之间的发音差异或正确发音方面是否存在困难。还需要确定孩子是否最近才移民、是否患有听力障碍或智力障碍。学习障碍的诊断通常需要进行至少两种类型的标准化测试:智力测试,以评估一般认知能力;以及成就测试,以评估特定内容领域的知识 (Peirangelo & Giuliani, 2006)。[7] 我们将在本章后面讨论智力测试和成就测试之间的区别。
为特定项目选拔学生 标准化测试通常被用于为特定项目选拔学生。例如,SAT (学术能力评估测试) 和 ACT (美国大学入学考试) 是常模参照测试,被用来帮助确定高中生是否被录取到选择性大学。常模参照标准化测试也被用来,连同其他标准,确定学生是否有资格获得特殊教育或天才教育项目。标准参照测试被用来确定哪些学生有资格升入下一个年级或从高中毕业。将学生划分为能力分组的学校,包括高中大学预科、学术或职业项目,也可能使用常模参照或标准参照标准化测试。当标准化测试作为重要的安置标准时,它们对于学生来说显然具有很高的风险。
辅助教师的教学计划 常模参照和标准参照标准化测试,以及其他有关学生的信息来源,可以帮助教师对教学进行决策。例如,如果一位社会研究教师了解到大多数学生在学年开始时进行的常模参照阅读测试中表现出色,他可能会调整教学并使用更多的一手资料。一位阅读教师在审查糟糕的学年结束标准参照标准化阅读测试结果后,可能会决定在下一年修改她使用的技巧。一位生物教师可能会决定她需要花更多时间讲解遗传学,因为她的学生在这部分标准参照标准化科学测试中的得分很低。这些都是“为了学习而评估”的例子,它涉及基于数据的决策。对于刚入行的教师来说,学习如何恰当地使用标准化测试信息可能很困难。他们需要理解测试分数是重要的信息,但也需要记住,学生在测试中的表现有许多原因。
促进问责制 标准化测试结果越来越多地被用来让教师和管理人员对学生的学习负责。在 2002 年之前,许多州要求公开发布学生的学习进度,但在 NCLB 法案颁布之后,所有州的学区都必须向家长和公众发送报告卡,其中包括每个学校标准化测试的结果。提供关于学生标准化测试的信息并不新鲜,因为报纸在 20 世纪 70 年代和 80 年代就开始刊登学区内学生测试结果的总结 (Popham, 2006)。[8] 然而,对学校和教师的公众问责制在美国和其他许多国家一直在加强,这种加强的问责制影响了公众对所有教师的看法和工作,包括那些教授未被测试的科目或年级的教师。
例如,艾琳是一位初中社会研究教师,她说:“作为一名教授‘非测试’科目的教师,我花费大量时间进行教学,以支持标准化测试要求。例如,我们学校实施了‘每日词汇’,鼓励教师使用、定义和融入测试中经常使用的术语 (例如,“比较”、“反语”等)。我在课堂上尽可能多地使用这些术语,并将它们纳入书面作业中。我还在自己的科目评估中经常使用与标准化测试格式类似的测试题 (例如,带有双重否定的选择题、简答题和扩展答题),因为我相信在测试题格式方面进行练习将有助于学生在被评估的科目中取得更好的成绩。”问责制和标准化测试是 20 世纪 80 年代在美国发起的标准化改革教育中的两个组成部分。另外两个组成部分是学术内容标准,将在本章后面介绍;以及教师质量,在 第一章 中讨论。
成就测试:总结过去. K-12 成就测试旨在评估学生在特定内容领域中学到了什么。这些测试包括由各州专门设计用于评估学生对州学术内容标准的掌握情况的测试 (详细信息见下文),以及一些通用的测试,如《加州成就测试》、《基础技能综合测试》、《艾奥瓦基础技能测试》、《大都会成就测试》和《斯坦福成就测试》。这些通用测试的设计目的是在全国范围内使用,因此与专门设计的测试相比,它们与州内容标准的契合度没有那么高。一些州和加拿大省份使用专门设计的测试来评估学生对内容标准的掌握情况,以及使用通用的成就测试来提供常模信息。
标准化成就测试的设计目的是用于幼儿园到高中阶段的学生。对于年幼的孩子,问题是口头呈现的,学生可以通过指向图片的方式回答,并且子测试通常没有时间限制。例如,在为幼儿园阶段的学生设计的《艾奥瓦基础技能测试》[9] 中,词汇测试评估听力词汇。教师会读出一个词,也可能会读出一句包含这个词的句子。然后要求学生从三个图片选项中选择一个。
成就测试被用作获得各种职业许可证的标准之一,包括护理、物理治疗、社会工作、会计和法律。它们在教师教育中的使用是最近才开始的,是公共教育问责制加强的一部分。大多数州要求教师教育学生参加成就测试,以获得教师资格证。对于那些寻求初中和高中教师资格证的人来说,这些测试是他们主修或辅修专业的领域 (例如,数学、社会研究);对于那些寻求幼儿和小学教师资格证的人来说,这些测试的重点是教授特定年级学生所需的知识。最常用的测试是 PRAXIS II 系列测试,[10] 由教育考试服务中心开发,包括三种类型的测试。
- 学科评估 测试一般和学科特定的教学技能和知识。它们包括选择题和构建式回答题。
- 学习与教学原则 (PLT) 测试 在四个年级水平评估一般教学知识:幼儿、K-6、5-9 和 7-12。这些测试基于案例研究,包括构建式回答题和选择题。本教科书中的大部分内容都与 PLT 测试相关,并以此为基础进行组织。
- 教学基础测试 在五个领域评估教学法:多学科 (小学)、英语、语言艺术、数学、科学和社会科学。这些测试包括构建式回答题和选择题。
教师教育学生必须参加哪些测试以及通过每项测试所需的成绩,各不相同,由每个美国州决定。
诊断测试:分析技能和能力 一些标准化测试旨在诊断技能的优势和劣势,通常是阅读或数学技能。例如,一名小学儿童可能在阅读方面有困难,而一项或多项诊断测试将提供有关三个组成部分的详细信息 (Joshi, 2003):[11]
- 词汇识别,包括语音意识 (发音)、解码和拼写;
- 理解,包括词汇以及阅读和听力理解;以及
- 流利度。
诊断性测试通常由学校心理学家按照标准化程序单独进行。考官通常不仅记录每个问题的答案,还会记录观察到的孩子行为,例如注意力分散或沮丧。诊断性标准化测试的结果将与课堂观察、学校和医疗记录以及对教师、家长和学生的访谈结合起来,以形成学生的技能和能力的画像,并在适当的情况下诊断学习障碍。
能力测试:预测未来 能力测试与成就测试一样,测量学生所学内容,但与其关注学校学习的特定科目(例如,数学、科学、英语或社会研究),不如关注在学校或一般文化中学习到的语言、数量、解决问题的能力(Linn & Miller,2005)。[12] 这些测试通常比成就测试短,可以用来预测一般的学校成绩。如果使用测试的目的是预测特定科目(例如,语言艺术)的成功率,最好的预测是过去在语言艺术方面的成绩,因此语言艺术成就测试的成绩将是有用的。但是,当预测更普遍时(例如,在大学的成功率),通常使用能力测试。根据考试开发者的说法,用于预测大学成功的 ACT 和 SAT 推理考试,评估了一般的教育发展和推理、分析和解决问题的能力,以及数学、阅读和写作方面的题目。[13][14] SAT 科目测试侧重于特定科目的掌握,例如英语、历史、数学、科学和语言,一些大学将其作为入学标准,因此更适合归类为成就测试,而不是能力测试,即使它们被用来预测未来。
旨在评估一般学习能力的测试传统上被称为智力测试,但现在通常被称为学习能力测试、认知能力测试、学术能力测试或学校能力测试。术语的变化反映了对“智力”一词含义的广泛争议,以及其传统用法与遗传能力相关联。更现代的术语强调,测试衡量的是学习中发展的能力,而不是先天的能力。例如,认知能力测试评估 K-12 学生在语言、数量概念和非语言(空间)图片方面的推理能力。再比如,Woodcock Johnson III 包含认知能力测试和成就测试,适用于 2 至 90 岁的受试者。[15]
各州的高风险测试
[edit | edit source]虽然许多州在 2000 年之前就有标准化考试计划,但自那时以来,州一级考试的数量大幅增加,因为 NCLB 要求所有州在 2005-6 年之前每年对 3-8 年级学生进行阅读和数学测试,并在高中至少进行一次测试。23 个州扩大了他们的测试范围...(阅读更多...)
基于标准的评估
[edit | edit source]- 学术内容标准
- 标准、测试和课堂课程的一致性
- 内容抽样
- (阅读更多...)
每年适度进步
[edit | edit source]- 子群体
- 制裁
- (阅读更多...)
增长或增值模型
[edit | edit source]AYP 计算方式的一个问题是,它基于学生在某一时刻的绝对表现水平,并没有衡量学生在每一年中进步了多少。美国教育部在 2006 年允许一些州将增长指标纳入他们的 AYP 计算中...(阅读更多...)
- 不同的州标准
- 对初级教师的影响
国际测试
[edit | edit source]- 加拿大各省的测试
- 其他国际测试
- (阅读更多...)
理解测试结果
[edit | edit source]为了理解标准化测试的测试结果,了解“测量理论”中一些基本术语和概念非常重要。测量理论的两个主要领域——信度和效度——在上一章中进行了讨论;本章重点介绍与测试分数相关的概念和术语...(阅读更多...)
- 基础知识
- 频率分布
- 集中趋势和变异性的度量
- 正态分布
- 测试分数的种类
- 标准分数
- 等级等值分数
标准化考试的问题
[edit | edit source]许多人对标准化考试在教育中的作用有非常强烈的看法。有些人认为它们提供了一种无偏见的方式来确定个人的认知能力以及学校或学区的质量。另一些人认为标准化考试的分数是不可预测的,不能代表学生的知识,而且具有误导性...(阅读更多...)
- 标准化考试有偏见吗?
- 教师会针对考试教学吗?
- 学生和教育工作者会作弊吗?
总结和结论
[edit | edit source]标准化考试是课堂教师生活中的一部分。因此,了解它们能做什么——以及不能做什么——很重要。从广义上讲,这些测试要么评估成绩,要么诊断学习问题,要么预测未来的学术表现。无论是好是坏,测试结果通常也用于“高风险”目的:评估学生、教师和/或整个学校是否在学术上实现了他们应该实现的目标。由于其性质和局限性,标准化考试很容易被误用——无论是通过强化社会偏见,通过诱惑教师针对考试教学,通过诱惑学生在参加考试时作弊,甚至通过诱惑教师在报告分数时作弊。
参考文献
[edit | edit source]- ↑ 人力资源部 (n.d.)。马萨诸塞州消防员公共能力测试 (PAT) 于 2006 年 11 月 19 日访问http://www.mass.gov/?pageID=hrdtopic&L=2&L0=Home&L1=Civil+Service&sid=Ehrd
- ↑ Popham, W. J. (2005). 课堂评估:教师需要了解的内容。波士顿,马萨诸塞州:皮尔逊。
- ↑ Haertel, E. & Herman, J. (2005) 针对问责制测试的效度论证的历史视角。在 J. L. Herman & E. H. Haertel (Eds.) 中数据用于教育问责制和改进的用途和误用。国家教育研究学会第 104 卷。马尔登,马萨诸塞州:布莱克韦尔
- ↑ Linn, R. L., & Miller, M. D. (2005). 教学中的测量与评估 第 9 版。上鞍河,新泽西州:皮尔逊。
- ↑ Wise, S. L. & DeMars, C. W. (2005). 低风险评估中受试者努力不足:问题及潜在解决方案。教育评估 10(1), 1-17。
- ↑ 纽约州教育部 (2005). 纽约州家庭教育。 于 2006 年 11 月 19 日从 [1] 访问。
- ↑ Peirangelo, R. & Guiliani, G. (2006). 特殊教育评估。 波士顿:艾伦与培根。
- ↑ Popham, W. J. (2006). 教师在“不让一个孩子掉队”考试中的作弊行为。教育周报,25(32) 32-33。
- ↑ [2]
- ↑ http://www.ets.org
- ↑ Joshi, R. M. (2003). 关于阅读障碍评估和诊断的误解。阅读心理学,24, 247-266。
- ↑ Linn, R. L., & Miller, M. D. (2005). 教学中的测量与评估,第 9 版。 纽泽西州上鞍河:皮尔逊。
- ↑ http://www.collegeboard.com
- ↑ http://www.act.org
- ↑ http://www.riverpub.com