心理测试
一位Wikibookian认为此页面应拆分为较小的页面,内容更集中。 您可以通过将此大页面拆分为较小的页面来提供帮助。请确保遵循命名规则。将书籍分成较小的部分可以提供更多焦点,并允许每个部分都能做好一件事,这将使每个人受益。 |
- 介绍
- 基本统计
- 相关性和回归
- 信度
- 效度
- 编写和评估测试项目
- 测试管理
- 面试技巧
- 智力理论
- 韦氏智力量表
- 教育中的其他能力测试
- 教育中的标准化测试
- 临床和咨询环境中的应用
- 健康心理学中的测试
- 工业和商业环境中的测试
- 测试偏差
[目的和方法]
尽管,正如我们所见,理论家和研究人员仍在努力定义智力,但心理学家、教育工作者以及其他需要以某种方式测量智力的人继续研究现有的测试,并探索改进其提供有用信息能力的方法。我们为什么要测量智力?智力测试有三个主要目的:预测学业成绩、预测工作表现以及评估整体适应性和健康状况
最早的智力测试旨在实现这些目标中的第一个,而且大多数现有的智力测试,如比奈量表和韦氏量表,比预测其他任何方面更能预测学校的表现。预测一个人在工作中的成功程度是智力测试的第二个目标,根据戈特弗里德森(1997 年)的说法,此类测量指标是整体工作绩效最强大的预测指标。智力测试的第三个用途是评估人们的整体适应性和健康状况。我们在本节中讨论的比奈和韦氏测试可以检测儿童和成人神经系统问题、智力障碍和情绪困扰的迹象,贝利量表和其他婴儿测试有助于评估婴儿的发展进程以及神经系统疾病或智力障碍。
不幸的是,传统测试对我们社会中某些群体的预测准确性不如其他群体。例如,许多批评者指出,这些测试通常需要知识,而处于劣势的儿童不太可能拥有这些知识,因此,传统测试可能会错误地将某些人归类为比实际情况更不聪明。多年来,研究人员一直在尝试开发所谓的文化公平测试,即试图排除或最大限度地减少可能影响测试者反应的文化偏见内容的测试。瑞文标准推理测验要求人们识别、区分和匹配不同复杂程度的模式,以及我们稍后讨论的考夫曼测试都是此类测试。
我们从简要讨论贝利量表开始本节,然后检查两种最广泛使用的传统测试集——斯坦福-比奈测试和韦氏量表。这两种测试都不是文化公平的,并且这两种测试都测量智力的产物,即实际信息。接下来,我们检查相对较新的考夫曼评估量表,该量表试图既要做到文化公平,又要测量人们获取信息和解决问题的方式,然后我们转向测试构建的方法,包括心理学家如何制定测试评分标准以及他们考虑智力的相对稳定性以及哪些因素可能影响智力随时间的变化等程序。
贝利婴儿发展量表(贝利,1969 年,1993 年)可能是所有婴儿发展测试中最著名和使用最广泛的。由于这些测试设计用于非常年幼的儿童,因此选择其非语言测试项目是因为它们能够测量特定的发展里程碑。贝利量表用于 1 至 3 岁的婴儿和儿童,通常用于评估疑似有异常发育风险的儿童。例如,贝利智力量表包括寻找隐藏的物体和命名图片等内容,而运动量表则包括抓握能力和跳跃技能等项目,在测试的第三部分,检查员观察孩子的行为,并记录诸如社交性和恐惧表现等内容
越来越重视智力过程,导致一些研究人员探索了评估幼儿处理技能的方法,并设计了文化公平的衡量标准。框 11-1 讨论了其中一项较新的测试,即费根婴儿智力测试,它不仅能够评估过程,还能从不同文化的婴儿那里获得类似的表现。该测试还与大龄儿童的智力测量结果高度相关。这种预测价值不仅可以告诉我们一些关于智力相对稳定性的信息(我们在本节后面讨论),还可以起到诊断作用,表明需要为有认知发展不足风险的儿童提供特殊帮助(费根,1992 年)。
斯坦福-比奈测试被心理学家广泛用于学校和医疗保健机构,它是 20 世纪初比奈和西蒙应巴黎学校系统要求而设计的测试的现代版本。当时,由于新的义务教育法的实施,该市的学校人满为患,学校管理人员希望找出无法在传统课堂环境中学习的学生,他们担心老师可能会不公平地评价这些学生,学校官员建议为他们提供特殊教育的机会。比奈和西蒙认为智力是可塑的,并且可以通过特殊项目来提高儿童的学业成绩,他们对测试的构建采取了创新方法(比奈,1909/1973;西格勒,1992)。他们批评了早期尝试通过测量简单的感官或运动反应来评估智力的心理学家,比奈和西蒙断言,要区分个人,就必须对更高的精神功能进行取样,例如
费根婴儿智力测试
所有的父母都知道他们的孩子注定要获得诺贝尔奖或成为伟大的领导者,但真的有可能测试非常年幼的孩子们的智力吗?费根婴儿智力测试建立在这样一个概念之上,即婴儿在其熟练使用编码物体属性、观察物体之间的异同、形成心理表征以及检索这些表征等过程的能力中展现出他们的智力(费根,1992 年)。当然,我们无法看到婴儿对新奇事物的选择性注意(费根测试的主要依据),但我们可以从婴儿的行为中推断出来。例如,假设我们向一个 5 个月的婴儿展示一个红色的菱形;接下来,我们向婴儿展示一个绿色的菱形和一个绿色的正方形。通常,婴儿会对正方形表现出偏好,这表明她已经处理了原始颜色形式化合物中的元素,现在对新的形式感兴趣。(请记住我们在第 5 章中讨论的习惯化和婴儿倾向于关注其环境中的新事物)
费根测试通过测量婴儿观察新物体花费的时间与观察熟悉物体花费的时间相比来估计婴儿的智力(费根等人,1991 年)使用一组 20 张人脸照片,按对排列,检查员首先向婴儿展示第一对照片中的一张,持续 20 秒。然后检查员将该照片与它的配对照片配对,向婴儿同时展示这两张照片 5 秒钟,然后再次展示 5 秒钟,这次将两张照片左右颠倒(以避免婴儿倾向于选择一侧)。婴儿获得的分数由他在整个 10 对照片的展示过程中观察新照片的总时间组成。
为了确定来自不同文化的婴儿是否都能胜任这项任务,费根和他的同事在美国对欧洲裔美国人和非裔美国婴儿群体、巴林(与沙特阿拉伯接壤)的一组婴儿以及乌干达坎帕拉的一组婴儿进行了测试。在每个文化群体中,都测试了四个年龄段的婴儿——6 个月、8 个月、18 个月和 24 个月。研究人员发现,这些群体中近 200 名婴儿的平均得分之间几乎没有差异
根据 Fagan(1992)的研究,欧洲裔美国婴儿的平均得分是 58.8,非洲裔美国婴儿是 59.1,巴林人是 59.6,乌干达人是 58.4。他认为,解释这些发现最简洁的解释是,黑人和白人在智商上的差异源于文化接触信息的差异,这些信息影响了文化知识领域的分数(第 85 页)。
有趣的是,在这些婴儿中,54% 的欧洲裔美国人、49% 的非洲裔美国人和 26% 的巴林人被认为存在身体风险——也就是说,他们在新生儿重症监护病房待了 5 天或更长时间。此外,在乌干达婴儿中,有 62% 的母亲是 HIV 阳性。这些潜在的负面影响的存在可能增加了作者以下论断的重要性:这四个群体之间似乎没有智力差异。
Fagan 及其同事(Fagan,1984)已经证明了 Fagan 测试预测未来年龄智商分数的能力,这一特性极大地增强了该测试的潜在实用性(另见关于婴儿测试预测值的文本讨论)。事实上,该测试的主要目标是区分正常婴儿和认知缺陷婴儿。根据 Fagan(1992)的说法,该测试已被证明对日后出现智力迟缓的证据非常敏感,识别出约 85% 的后来获得低智商分数的儿童。
比内提出了心理年龄的概念,它是衡量儿童实际表现水平与其实际年龄对比的一个指标。因此,如果一个 6 岁的孩子答对的题目数量与平均 7 岁的孩子一样多,那么这个 6 岁的孩子的智力年龄就是 7;她的表现与一个 7 岁的孩子一样好。后来,心理年龄的概念被智商取代,德国心理学家威廉·斯特恩设计了以下公式:
其中智商等于心理年龄 (MA) 除以生理年龄 (CA),再乘以 100。因此,如果一个孩子的智力年龄等于她的生理年龄,那么她的表现就如同其真实年龄的平均孩子一样,她的智商将为 100。如果她的表现优于同龄的其他孩子,她的智商将高于 100;如果她的表现较差,她的智商将低于 100。如今的斯坦福-比内测试是对比内-西蒙量表的修订,旨在包含一些考察语言和数学技能以外的项目,例如拼图和用积木设计图案,但学术经验在多大程度上影响后一种类型的任务尚不完全清楚。正如我们将在下一节中看到的,韦克斯勒量表更加重视评估所谓的操作技能的测试。
韦克斯勒量表
韦克斯勒智力量表由大卫·韦克斯勒(1952 年、1958 年)开发,包括韦克斯勒成人智力量表 (WAIS)、韦克斯勒儿童智力量表 (WISC) 和韦克斯勒学前儿童和小学儿童智力量表 (WPPSI)。虽然这些测试体现了比内测试的影响,但韦克斯勒专门设计它们以产生独立的言语智商和操作智商分数,以及一个组合的总智商分数。表 11 中显示的 WISC 分测验描述突出了操作项目在某种程度上不太可能受正规教育或文化因素的影响。因此,一个存在特定学习问题(例如语言障碍)的孩子即使在言语分测验中表现不佳,也可能在这些项目中表现得很好。来自缺乏其他孩子享有的一些优势的家庭的孩子也可能在这些操作测试中取得更大的成功。
韦克斯勒没有使用心理年龄作为估计智力的依据,而是创造了离差智商,它是一个数字,反映了测试者分数相对于同龄平均孩子分数的高、低或相似位置。这与心理年龄的概念有何不同?离差智商评分系统(与比内智商一样,以 100 为平均分)是基于对美国许多地区不同年龄段人群的大量测试,以及对每个年龄组的平均分数的统计计算。在计算这些平均分数时,心理学家使用一个称为标准差的统计量来表示平均分数偏离常态的程度。因此,个人的分数可能处于平均水平,也可能高于或低于平均水平一个或多个标准差。
考夫曼儿童评估电池 (K-ABC) 是第一个专门关注加工技能的测试,它直接基于认知发展研究(考夫曼和考夫曼,1983)。该测试测量了几种类型的加工技能,分为两类:顺序加工(逐步解决问题)和同时加工(在解决问题时检查和整合各种材料)。该测试还评估了学术科目(如词汇和算术)的成就,但其测试项目(许多是非语言的)旨在做到文化公平。事实上,该测试的设计者在为该测试建立常模时,使用了广泛且具有代表性的许多美国文化和社会经济群体样本。
一个有趣的创新是,如果孩子在分测验的早期项目中失败,K-ABC 评估人员会在他们进行分测验的其余部分之前教孩子如何完成这些项目。根据该测试的设计者,这确保了任何能够学习不熟悉任务的孩子都不会在该任务中获得不及格的分数。考夫曼测试因仅提供有限范围的考察信息加工功能的项目(如短期记忆)而受到批评(康诺利,1990 年;斯腾伯格,1985 年)。批评者认为,该测试应该更多地关注解决问题的策略,这是信息加工方法处理智力的核心组成部分。然而,考夫曼测试是一种创造性的智力测量方法,它将信息加工方法的重要见解应用于智力和智力测试的研究。==