心理学应用史/评估模型

心理测验简史

虽然心理测验的广泛使用主要是 20 世纪的现象，但据记载，测验的雏形至少可以追溯到公元前 2200 年，当时中国皇帝每三年对他的官员进行考核，以确定他们的任职资格（Gregory，1992）。这种测验在几个世纪中不断修改和完善，直到汉朝引入书面考试。中国的考试制度在 1370 年左右最终成型，当时强调对儒家经典的精通。考试极其艰苦和严格（例如，在狭小的隔间里度过一天一夜，撰写关于指定主题的论文并写一首诗）。那些通过层级考试的人将成为官吏或有资格担任公职（Gregory，1992）。但是，古代中国传统与当前测验实践之间的相似之处是肤浅的。

心理测验也与早期精神病学一样依赖于实验心理学的实验室。上世纪中叶对精神病患者的检查导致了许多早期测试的开发。例如，1885 年，德国医生胡贝尔特·冯·格拉谢开发了记忆鼓的前身，作为测试脑损伤患者的一种手段。1889 年，德国精神病学家康拉德·里格尔开发了一套测试，用于评估脑损伤导致的缺陷，其中包括对长期记忆、视觉识别和短期记忆的评估（Gregory，1992）。这些早期测试缺乏标准化，最终被遗忘（Gregory，1992）。尽管如此，它们在决定心理测验的发展方向方面具有影响力。

大多数历史学家将心理测验的起源追溯到 19 世纪后期在德国和英国蓬勃发展的个体差异实验研究。早期的实验者，如威廉·冯特、弗朗西斯·高尔顿和詹姆斯·卡特尔，为 20 世纪的测验奠定了基础（Gregory，1992）。他们放弃了完全主观和内省的方法，开始在实验室中测试人类能力。例如，高尔顿利用冯特和欧洲其他人在欧洲实践的几种心理物理程序，并将它们改编成一系列简单快捷的感官运动测量。为了进一步研究个体差异，高尔顿在 1884 年的国际卫生博览会上在伦敦建立了一个实验室，该实验室后来被转移到伦敦博物馆（Gregory，1992）。使用的测试和测量涉及身体和行为领域。高尔顿经常被历史学家视为心理测验之父（Gregory，1992）。尽管他用反应时间和感觉辨别能力来衡量智力这种简单尝试没有结果，但他通过证明可以设计客观测试，并且可以通过标准化程序获得有意义的分数，从而为测验运动提供了巨大的动力（Gregory，1992）。

詹姆斯·麦基·卡特尔在哥伦比亚大学定居之前，曾在冯特和高尔顿那里学习新的实验心理学。卡特尔继续研究反应时间以测量个体差异（Gregory，1992）。卡特尔还在他著名的题为“心理测验和测量”的论文中引入了“心理测验”一词。这篇文章描述了十种心理测验，这些测验是生理和感官测量，反映了他的高尔顿传统（Gregory，1992）。卡特尔的博士毕业生之一克拉克·威斯勒进行了一项研究，以测试结果是否可以预测学业成绩。他的结果表明，心理测验分数几乎没有与学业成绩相关的趋势。

随着威斯勒结果的发表，实验心理学家在很大程度上放弃了使用反应时间和感觉辨别能力作为智力测量的指标。然而，高尔顿传统被放弃所造成的空白并没有持续很长时间。在欧洲，阿尔弗雷德·比奈（见下文以获取传记信息）在 1905 年推出了他的智力量表，不久之后，H.H.戈达德将其引入美国。比奈在 20 世纪初开发了他的测试，以帮助确定巴黎学校系统中不太可能从普通教学中获益的儿童。比奈的智力测量侧重于高级心理过程，而不是诸如反应时间之类的基本感官过程。比奈在与西奥多·西蒙合作开发了 1905 年的量表。1905 年量表的特点在很大程度上归功于布兰博士 (1902) 和他的学生 M·达梅此前开发的一种测试，他们试图通过使用一系列评估来改善智力障碍的诊断（Gregory，1992）。比奈批评这些量表过于主观，并且包含反映正规教育的项目；然而，他对使用一系列测试的想法印象深刻，这是他在 1905 年量表中采用的一个特点（Gregory，1992）。

测试史上的早期里程碑时间轴

公元前 2200 年： 中国皇帝每三年对他的官员进行考核，以确定他们的任职资格。
公元 1862 年： 威廉·冯特使用校准的钟摆来测量“思维速度”。
1869 年： 弗朗西斯·高尔顿出版的《根据其天赋对人类进行分类》标志着个体差异的科学研究的开始。
1879 年： 冯特在德国莱比锡建立了第一个心理学实验室。
1884 年： 高尔顿在国际卫生博览会上对数千名公民进行了第一次测试。
1888 年： J·M·卡特尔在宾夕法尼亚大学开设了一个测试实验室。
1890 年： 卡特尔在宣布他高尔顿式测试的议程时使用了“心理测验”一词。
1901 年： 克拉克·威斯勒发现卡特尔式“铜制仪器”测试与大学成绩没有相关性。
1904 年： 查尔斯·斯皮尔曼描述了他的智力能力双因素理论。第一本关于教育测量的主要教科书，E·L·桑代克的《心理和社会测量理论导论》出版。
1905 年： 比奈和西蒙发明了第一个现代智力量表。卡尔·荣格使用词语联想测验来分析心理复合体。
1914 年： 斯坦因引入了智商（IQ）：心理年龄除以实际年龄。
1916 年： 刘易斯·特曼修改了比奈-西蒙量表，出版了斯坦福-比奈。修订版分别于 1937 年、1960 年和 1986 年出版。
1917 年： 军队 Alpha 和军队 Beta，第一个团体智力测验，被构建并用于测试美国陆军新兵。罗伯特·伍德沃斯开发了个人资料表，这是第一个性格测验。
1920 年： 罗夏墨迹测验出版。
1921 年： 心理学公司——第一个主要的测验出版商——由卡特尔、桑代克和伍德沃斯创立。
1927 年： 斯特朗职业兴趣量表 for Men 的第一版出版。
1938 年： 第一本《心理测量年鉴》出版。
1939 年： 韦克斯勒-贝尔维尤智力量表出版。修订版分别于 1955 年、1981 年和 1997 年出版。
1942 年： 明尼苏达多项人格测验出版。
1949 年： 韦克斯勒儿童智力量表出版。修订版分别于 1974 年和 1991 年出版。

遗传、历史测量和优生学

从高尔顿到谢西：关于智力的还原论观点

智力的还原论概念起源于高尔顿（1892）。他的假设是，艺术、科学、文学和法律领域的卓越源于微观水平感觉和感知过程的遗传传递。他认为，一般智力差异表现为个体在这些感觉和感知过程的速度和准确性上的差异。

尽管高尔顿自己的许多数据未能支持他的假设，但他的想法逐渐获得了动力，并在 20 世纪的研究中得到了证实。20 世纪 70 年代末和 80 年代初，人们开发了改进的微观水平任务电池。这些任务优于早期研究人员使用的任务，因为它们具有更好的心理测量特性，并且明确地关注理论上重要的认知性结构，而不是与智力能力无关的结构（例如，简单的运动速度）。

从 20 世纪末期的这项工作来看，微观水平测量与宏观水平能力之间的联系似乎很清楚（例如，参见 Eysenck，1982 和 Jensen，1982），这表明，从本质上讲，个人遗传了具有确定效率的中枢神经系统 (CNS)。这种效率使个人能够或多或少地有效地从环境中获取信息。因此，人们认为，这种微观水平的个体差异会导致宏观水平测量的个体差异，例如智商测试表现、学校表现和职业结果。

但是，其他人拒绝了这种最初由高尔顿提出的还原论观点。作为一个相对较新的例子，本文简要考虑了谢西（1990）基于他自己的实验研究提出的论点。第一个论点是，微观水平测量并非不受环境差异的影响。谢西使用编码任务来证明这一点。受试者短暂地呈现一个数字，然后是未填充的刺激间间隔。然后在数字出现的位置施加了一个模式掩码。虽然所有受试者都识别出了这个数字，但在使用掩码的情况下，个体差异出现在检测数字所需的时间上。据谢西所说，虽然所有受试者都可能对这个数字同样熟悉，但他们在记忆中表示这个数字的详细程度不同。他所说的详细程度是指，例如，49 可以简单地表示为奇数，或者更详细地表示为它的因子、根和其他关联。谢西发现，详细程度越高，识别速度越快，这表明编码等微观水平任务不仅仅是 CNS 效率的直接测量；显然，知识库的个体差异也参与其中。

谢西（1990）提出的第二个反对高尔顿还原论的论点是，微观水平任务之间的互相关模式无法令人满意地用单一资源库（即 CNS 效率）来解释。谢西发现，概念上不同的微观水平任务（例如，编码形状和编码听觉词语）之间的相关性实际上高于类似的微观水平任务（例如，音调的听觉编码和持续时间的听觉编码）之间的相关性。这些发现破坏了微观水平测量直接反映某些基本生理资源的说法；如果确实如此，谢西认为，人们会期望在类似的微观水平任务之间存在更高的相关性。

谢西（1990）还认为，现有的遗传证据对于正在传递的具体内容是模棱两可的。谢西观察到，遗传倾向本身并不被认为是智力能力的证据，但会影响个体的认知能力。他举的例子是气质。谢西的观点是，从基因到智商的路径并非一定与生物学有很大关系，而是我们如何驾驭社会环境的方式；当然，当人们回顾高尔顿自己对卓越和成就的研究以及他选择的样本时，这一点是相关的。

谢西（1990）继续发展了这个论点，批评了关于现实世界成就的研究。他特别针对特曼的工作（1925；特曼和奥登，1959）对智商的预测效度进行了探讨。对特曼关于高智商儿童结果的数据的一般解释是，智商是现实世界成功的预测指标。谢西在他对特曼数据的重新分析中重点关注了收入，并报告说，事实上，在充分控制社会变量后，智商与整个智商范围内的收入之间没有关系。

本质上，谢西对高尔顿开始的争论的贡献是，从微观水平任务的表现到宏观水平成就指标的因果路径是由个人生态学的方面调节的，而不是由像高尔顿思想所坚持的那样由基本的、先天的智力直接决定。

威廉·冯特（1832-1920）

早在 1879 年冯特建立第一个心理学实验室之前，他在 1862 年就开始了对心理过程的测量，当时他用思维计进行了实验（格雷戈里，2007）。这是一种校准的摆，两侧都有突出的指针。摆会来回摆动，用指针敲击铃铛。观察者的任务是记录铃铛响时摆的位置。冯特认为，观察到的摆位置与实际位置之间的差异将提供一种方法来确定观察者思维的速度，他认为这是一个因人而异的属性。使用经验分析来解释个体差异是冯特对现代心理测试最重要的贡献（格雷戈里，2007）。

弗朗西斯·高尔顿爵士（1822-1911）

高尔顿最初在伦敦、剑桥和伯明翰接受医学培训，直到 22 岁时继承了一大笔财产。然后，他放弃了医学研究，花了几年时间旅行。在两年时间里，他在西南非洲做出了对地理学的重要贡献。他是第一个出版天气图和描述反气旋作为天气系统的人。除了他对优生学和遗传学的重要影响，正如他所著的《遗传的天才》（1869）和《人类能力及其发展探究》（1883）所反映的那样，高尔顿还研究了各种各样的主题。例如，他开发了一种复合摄影方法来总结肖像，并进行了研究，最终导致了指纹作为识别方法的使用。高尔顿还率先研究了连续几代人在身体和心理特征方面的相似性，并使用双胞胎来研究培育和天性的相对影响。他还认识到需要一种方法来描述两个变量之间的关系，因此开发了线性相关的乘积矩公式，这被认为是他对测试理论领域最杰出的贡献（杜波依斯，1970）。

高尔顿对量化和个体差异的迷恋促使他发明了测量人类特征的方法。当他的表弟查尔斯·达尔文提出他的自然选择理论——自然选择最成功的人类特征——高尔顿随后建议可以测量人类特征并对其进行排名，以培育出优等人。他对促进人类福祉的兴趣促使他创立了优生学运动（迈尔斯，1998）。

“我无法忍受偶尔表达，而且经常暗示的一种假设，尤其是在为教导孩子行善而写的童话故事中，这种假设认为婴儿出生时基本相同，男孩与男孩之间以及男人与男人之间差异的唯一原因是坚持不懈的努力和道德努力。我以最绝对的方式反对自然平等的假象。”（高尔顿，1892 年，迈尔斯，1998 年）。

在接下来的几年里，高尔顿试图测量先天的智力能力，以量化人类的优越性。在他的著作《遗传的天才》（1869 年）中，他尝试了测量头部大小以评估智力的想法，并在后来的几年里，他开发了许多不同的方法来测量他认为的“天才的生物学基础”（迈尔斯，1998 年，第 334 页）。

高尔顿借鉴了冯特所实践的心理物理程序，并将它们改编成一系列简单的感官运动测量方法。由于他在设计可行的个体差异测量方法方面的努力，高尔顿通常被认为是“心理测试之父”（格雷戈里，2007 年引用古德努夫，1949 年）。1884 年，他在伦敦国际卫生展览会上建立了一个心理测量实验室，在那里人们可以支付少量费用进行一系列测量并记录下来，包括身高、体重、头部长度、头部宽度和臂展（杜波依斯，1970 年；格雷戈里，2007 年）。虽然高尔顿用反应时间和感官辨别力来评估智力的简单尝试证明是徒劳的，但他率先开发了客观测试来调查心理问题，通过标准化程序获得有意义的分数（杜波依斯，1970 年；格雷戈里，2007 年）。

詹姆斯·麦基恩·卡特尔（1860-1944）

卡特尔是一位美国心理学家，他将高尔顿的测试传统引入美国，并对早期的心理测量发展做出了重要贡献（杜波依斯，1970；格雷戈里，2007）。从 1880 年到 1882 年，他在冯特的心理学实验室学习，期间他进行了一系列反应时间 (RT) 研究。他注意到他和另一位同事在 RT 上存在细微但持续的差异，并向冯特建议应该系统地研究这些个体差异。然而，他没有得到冯特在该领域继续研究的支持。

卡特尔还在 1888 年在高尔顿的人类测量实验室工作，在那里他得到了对他关于个体差异研究的热烈支持。之后，他在剑桥和美国讲课并收集心理测试数据。卡特尔也是美国第一个获得“心理学教授”头衔的人（杜波依斯，1970）。卡特尔（1890；引自杜波依斯，1970）在他的著名论文《心理测试与测量》中创造了“心理测试”一词，该论文描述了他的研究计划，详细介绍了他提出的十项供公众使用的心理测试。这些测试改编自高尔顿的测试电池，包括握力测试、引起疼痛的压力程度、颜色命名时间和重量区分等项目。

1891 年，卡特尔接受了哥伦比亚大学的职位，在那里他创立了心理学实验室，并很快启动了一系列身体和心理测试，每年对大约 50 名大一新生进行测试。在他的教授生涯中，他指导了许多后来在心理学领域非常有影响力的学生，例如 E.L.桑代克（著名《心理和社会测量理论导论》的作者）、R.S.伍德沃斯（第一个性格测试的创造者）、E.K.斯特朗（斯特朗职业兴趣量表的创造者）和克拉克·维斯勒。维斯勒（1901；引自格雷戈里，2007）本人对心理测试的早期历史有很大影响，因为他证明了心理分数与学业成绩不相关，这最终导致放弃使用 RT 和感觉辨别作为智力测量的指标（格雷戈里，2007）。

智力测试

阿尔弗雷德·比奈（1857-1911）

阿尔弗雷德·比奈出生于 1857 年 7 月 11 日的尼斯。他是一个非常聪明的孩子，他的母亲决定在他 12 岁时送他去巴黎学习。虽然他最出名的是发明了第一个现代智力测试，即“计量智力量表”，但他还在许多领域进行了研究，如感知、幻觉、语言和解剖学。

比奈开始他的职业生涯是医学，后来转向心理学。在萨尔佩特里埃医院，比奈遇到了神经学家 J. M. 肖卡（1825-1893）；肖卡后来成为他的导师。比奈和他的同事查尔斯·费尔发表了四项研究，这些研究被认为证明了磁铁的极性如何能在同一个被催眠的受试者身上引起完全的情绪变化，但结果遭到了严厉的批评。后来，比奈发表了一份对这些发现的认错声明，并认识到使用科学实验程序的重要性。

从教训中吸取经验，比奈对教育心理学的重大贡献是使用了科学方法，即实验和观察：“理论与实验的结合”（比奈和西蒙，1908，第 1 页）。对智力疲劳的研究，即学校对儿童施加的工作量是否过重和令人精疲力尽，是比奈及其同事（1898）进行的实验调查的一个例证。智力疲劳的心理影响在实验室和课堂两种环境中得到了探索。比奈认为，在实验室开始实验很重要，因为可以在这种环境中解决方法论问题并确定重要的研究问题。然后，在现实生活中进行实验，以便制定更高效、更有效和更详细的计划并检验假设。比奈断言，所有实验研究都应遵循四个步骤：假设、收集事实、解释数据和重复。他坚持使用科学的可靠方法，促使他开发新的统计工具并使用对照组，为后来的心理学家提供了一个模型实验方法。然而，值得注意的是，比奈的许多观察结果构成了他对认知发展的大部分理论工作的基础，而这些观察结果来自他对自己的孩子的观察！就像他之后的皮亚杰一样，比奈通过他的研究中的这一定性方面获得了对其感兴趣的发展过程的宝贵见解。

1904 年，比奈被法国公共教育部长任命为一个委员会的成员，该委员会的任务是设计一种方法来识别智力迟缓的学童。在自己的博士生西奥多·西蒙的帮助下，比奈创造了“计量智力量表”。在这方面，比奈开创了普遍智力的概念，当时流行的观点是，心理功能是截然不同的。该量表实际上包括 30 个单独的测试（一些由比奈开发，另一些基于现有的认知测试），评估了从心理运动协调到复杂心理推理的各种能力。比奈的测试遵循了后来智力测试开发者的趋势，难度越来越大，并提供了一种方法来确定儿童根据其实际年龄的正常表现，以及他们是否正常或异常。根据他们对量表的表现识别出有学习障碍的儿童，并将他们选入特殊教育班。值得注意的是，比奈坚持认为，在将这些特殊教育班提供给所有有异常的儿童之前，必须对其影响进行评估和实验验证。

比奈对异常的理解与当时流行的观点截然不同（当时普遍认为异常儿童是指其发育减缓或停止的儿童）。他认为，异常实际上是一种不同的发展模式，其中异常儿童与正常儿童共享某些方面，而另一些方面则不同。最重要的是，这种对异常的理解意味着可以通过旨在通过特定指导和练习来改善儿童认知功能的特殊教育来解决或克服这种异常。他还强调，该量表应该只用作对儿童在施测时认知水平的指示，并建议该水平可能会随着时间的推移而发生变化（以及作为补救和练习的结果）。他明确警告不要将儿童在智商测试中的表现解释为儿童智力的固定测量指标。

为了识别有资格接受特殊教育的儿童，比奈还考虑了教师根据儿童在学习中的表现对“可能智力迟缓”学生的印象。实际上，比奈试图通过将测试结果与儿童教师的印象进行印证来建立他测试的效标关联效度。值得称赞的是，比奈坚持要求，在测试之前，这些教师的印象是测试管理者不知道的。这有助于控制任何可能的确认偏差。比奈明确表示，他的量表只是识别智力迟缓儿童的一种评估工具，对儿童平时表现的观察对于识别和安置决策也至关重要。

尽管比奈的目标是发现和帮助，而不是隔离智力迟缓或异常儿童，但当刘易斯·特曼于 1916 年在美国引入他的测试时，他的测试被用于他反复强调反对的目的。特曼强调遗传因素在解释智商表现中的重要性。与比奈相反，他认为，将智商分数低的儿童安置在特殊班级的理由是，他们没有希望从正常教育中受益。幸运的是，特曼的观点当然不代表北美和欧洲学校心理学领域的当代政策和实践。事实上，在阅读比奈关于评估程序的作品时，有趣的是要注意到，他一个世纪前提出的许多担忧和建议在如今用于儿童测试的权威文本中明确强调（萨特勒，2001；萨特勒和霍格，2006）。

比奈关于学习的观点也对心理学领域产生了影响。他认识到研究不同年龄儿童之间以及同龄儿童之间个体差异的重要性，以便识别不同学习者的优势和劣势。因此，他强调需要评估广泛的技能，以识别儿童的潜力，从而根据他们的能力规划和提供最佳教育。比奈认为，只要儿童体验到最佳的学习条件，任何儿童都可以学习。一个至关重要的条件是，所教授的材料或概念的难度水平必须针对儿童进行仔细调整，以便其理解和掌握不会完全超出儿童的能力。这个想法与维果斯基的“最近发展区”惊人地相似。此外，比奈认为学习需要实践，学生不仅应该听讲，还应该有机会练习他们的知识。此外，比奈认为，在研究人类功能的复杂性时，必须考虑多种因素。例如，基于他认为认知功能无法与情绪功能分离的信念，他考察了饮食习惯与智力成就之间的关系。

亨利·H.戈达德（1866-1957）

1906 年，亨利·H.戈达德被新泽西州的文兰训练学校聘用，负责对“弱智”儿童进行分类和教育研究。很快，他就意识到需要一个诊断工具，并且惊讶地了解了 1908 年的比奈-西蒙量表。他立即着手翻译量表，并进行了一些小的修改，使其适用于美国儿童（格雷戈里，2007）。

戈达德是优生学的坚定倡导者，他利用智力测试来证明，进入美国的许多移民都是智力迟缓的（格雷戈里，2007）。他还用他翻译的比奈-西蒙量表测试了许多正常儿童，并支持这种观点，即被认定为智力缺陷的儿童应该被隔离，以防止他们“污染社会”（1911；引自格雷戈里，2007）。他还以作为使用智力测试识别智力受损者的领先专家之一而闻名。

刘易斯·M.特曼（1877-1956）——斯坦福-比奈智力量表

路易斯·特曼于 1877 年出生在印第安纳州的一个农场，是 14 个孩子中的第 11 个（Chapman，1988）。他很快就成为一个狂热的读者，在学校表现出色，并在 15 岁时开始为教书生涯做准备。他从阅读达尔文的《物种起源》和威廉·詹姆斯的《心理学原理》等著名作品中对心理学产生了兴趣（Chapman，1988）。他对心理测试的兴趣起源于他在克拉克大学攻读博士学位期间。在他的博士论文《天才与愚蠢》中，他从大约 500 名儿童中选出 7 名“聪明”男孩和 7 名“愚蠢”男孩作为极端案例，为他们设计了一系列测试，包括创造力和想象力、逻辑过程、数学能力和语言的测量（DuBois，1970；Chapman，1988）。他得出结论，智力本质可以通过心理测试来最好地解释，通过这些测试，可以量化个人的表现并将其与整个人群的正常表现进行比较（Chapman，1988）。

特曼在 1910 年被任命为斯坦福大学教育系后停止了对智力测量的研究，在那里他开始对比奈智力量表进行修订，以便在美国使用（DuBois，1970；Chapman，1988）。以 1911 年的比奈-西蒙量表为基础，特曼在 1916 年制作了斯坦福-比奈量表，该量表成为几十年来智力测试的标准（DuBois，1970；Gregory，2007），也是他最著名的作品。

新量表基于全面和系统的研究（DuBois，1970；Chapman，1988）。比奈材料和 40 项额外的测试为 905 名 5 至 14 岁之间的正常儿童进行了试用，所有儿童都在生日前后两个月内。此外，在修订时还考虑了对大约 1400 个其他案例的测试结果，包括 200 个缺陷儿童和优等儿童以及 400 个成年人。特曼本人花费了大量时间来培训考官，所有记录都由他本人评分以确保一致性。

新的斯坦福-比奈量表包含 90 个项目，适用于智力障碍者、儿童以及正常和优等成年人（DuBois，1970；Gregory，2007）。它具有清晰、组织良好的管理和评分说明。特曼对该测试的主要贡献之一是引入了“智商”（最初由路易斯·威廉·施特恩提出）的概念，通过该概念，将个人的智力年龄除以他们的实际年龄，以表示测试结果。特曼将这个比率重新命名为“智商 (IQ)”，这个术语至今仍在广泛使用（Sattler，2001）。

大卫·韦克斯勒 (1896 – 1981) – 韦克斯勒-贝尔维尤智力量表

在智力测量的改进方面，大卫·韦克斯勒做出了重大贡献，他在 1939 年出版了韦克斯勒-贝尔维尤智力量表（DuBois，1970）。该量表由子量表组成，以便对受试者只进行一次特定类型的任务或项目测试。智商成为标准分数，每个年龄段的平均值为 100，标准差使 50% 的智商介于 90 到 110 之间。该工具还产生了言语智商、操作智商和总智商（DuBois，1970；Gregory，2007）。对该量表进行了修改，使其比早期的量表更适合成年人，被称为韦克斯勒成人智力量表（DuBois，1970）。1949 年开发了针对儿童的版本，即韦克斯勒儿童智力量表（Gregory，2007）。

早期的群体测试

随着比奈量表的成功，通过一种可以同时对大量受试者进行测试的工具来测量智力能力，是一个合乎逻辑的下一步（DuBois，1970）。最早开发群体测试的人之一是派尔，他在 1913 年出版了小学生年龄规范，用于测试一系列指标，例如记忆广度、数字符号替代和口头单词联想（Gregory，2007），旨在用于诊断（DuBois，1970）。

1917 年，平特纳修改了派尔的方法，以测量一般智力（DuBois，1970）。他使用派尔提出的五个似乎与一般智力相关性最高的测试，增加了一个计时取消测试，儿童需要在文本中找到字母 a 并将其划掉（DuBois，1970；Gregory，2007）。

随着美国在 1917 年加入第一次世界大战，群体测试的发展速度急剧加快（Gregory，2007）。当时，罗伯特·M·耶克斯是美国心理学会的会长，他立即采取了积极的措施，发现和实施心理学在国家努力中可以发挥作用的方法（DuBois，1970）。他在 1917 年 5 月组建了招募人员考试委员会，并决定对所有新兵进行群体智力测试，以用于分类和分配（DuBois，1970；Gregory，2007）。新群体测试的一些标准包括：适应群体使用、与有效的智力测量相关、测量广泛的能力、客观评分和时间经济性（DuBois，1970）。

这项努力产生了两种群体测试：陆军阿尔法测试和陆军贝塔测试（Gregory，2007）。阿尔法测试包括针对平均水平和高功能新兵的八项言语测试。这八项测试是：（1）遵循口头指示，（2）算术推理，（3）实际判断，（4）同义词-反义词配对，（5）打乱的句子，（6）数字序列完成，（7）类比，（8）信息。

贝塔测试是一种非言语群体测试，专为文盲和母语非英语的新兵设计。它包含各种视觉感知和运动测试，例如追踪迷宫中的路径，以及在三维图纸中直观地显示正确数量的积木（Gregory，2007）。

陆军测试计划是智力测试首次大规模应用。大约有 175 万新兵接受了检查，其中至少 125 万人接受了五种陆军阿尔法测试中的一种（DuBois，1970）。该测试获得了军方机构的认可，结果被用于做出重要的人员决策。

人格测试

关于人格评估的一般方法的介绍性评论

虽然人们（甚至心理学家）对人格的定义存在很大的差异，但人格可以被认为是指个体思维、情感和行为的特征模式，这些模式反映了一个人的个人风格，并影响着这个人与其环境的互动方式。已经阐述了许多关于人格的不同理论，并与这些理论密切相关的评估方法也存在很大差异。鉴于它们对该领域思维和评估实践的长期影响，值得特别注意的是特质理论和精神动力学理论及其相关的评估程序。

特质理论者认为，存在着不同的性格类别或类型。个体根据他们在两个或多个连续维度上的位置进行分类，这些维度通常使用评分量表进行测量，这些评分量表可以以预先指定的方式进行汇总和组合，以生成更高阶人格特质的星座。特质理论者试图推导出这些特质的最佳集合，以便这些潜在结构在理论上是有意义的，并且得到实证支持，同时也充分说明了人类人格的差异性。已经开发了问卷格式人格量表，受试者在这些量表上对自己对所描述情景的思想、情感或反应进行评分。这些测试的构建和项目的纳入是基于理论（理性方法）或通过使用因子分析等统计程序（标准或经验方法）。

20 世纪期间对特质人格理论的重要贡献包括麦克杜格尔 (1932)、瑟斯顿 (1934)、戈登·奥尔波特 (1937, 1961)、雷蒙德·卡特尔 (1943, 1947)、汉斯·艾森克 (1970) 和约翰·迪格曼 (1963, 1972) 的工作。目前，五因素人格模型（包括神经质 [适应不良]、外向性、经验开放性、宜人性、尽责性）在该领域得到了广泛认可，并具有坚实的实证基础（Costa & McCrae，1985, 1989, 1992）。代表这种方法的当代量表的例子包括 NEO 人格量表 (NEO-PI-R: Costa & McCrae，1992)，以及在临床环境中使用的明尼苏达多项人格量表 (MMPI-2: Butcher & Megargee，1989)（见下文）。

精神动力学的人格观暗示，无意识动机是个人在不同情况下行为（以及他们的梦境和口误）的根本原因。弗洛伊德 (1933, 1991) 认为，人格是由 id、ego 和 superego 组成，他认为，由于每个成分遵循的原则不同，它们之间往往存在冲突。快乐原则总是驱使着对生物冲动的立即满足，控制着 id。相反，ego 遵循现实原则，通过延迟满足来控制 id 的冲动，直到可以采取社会可接受的方式来获得满足。superego 代表个人的良心，它施加道德标准，根据这些标准，个人计划和评判自己的思想、情感和行为。在这个理论中，ego 在人格中平衡着其他两个成分之间的影响和张力。

与特质理论家开发和使用的结构化和标准化评估程序相比，精神动力学倾向的性格评估者使用投射测验。在这些测试中，刺激被故意设计成模棱两可的，而个体被认为通过将自己的性格投射到刺激上，来揭示无意识的动机和愿望。这些投射测试的例子包括罗夏墨迹测验（见下文）和主题统觉测验。这些测试的实施需要评估者进行大量的判断和解释。

罗伯特·S·伍德沃斯（1869-1962）——个人资料表

虽然高尔顿已经设计了一种评估方法来研究意象，但直到第一次世界大战，R.S. 伍德沃斯才将该技术应用于开发一种工具，用于检测军队新兵对情绪稳定性的敏感性（杜博伊斯，1970；格雷戈里，2007）。在这样做的过程中，他在 1919 年开发了个人资料表，这是历史上第一个性格测试。

个人资料表包含 116 个问题，要求受试者用“是”或“否”回答。这些问题涉及相当严重的症状。发现能够区分正常受试者和异常受试者的项目如下：

你是否经常感到悲伤或情绪低落？
你是否经常感到有人在读你的想法？

1919 年，伍德沃斯报告说，在调查的 100 种症状中，普通大学生报告了大约 10 种，而典型歇斯底里患者报告了超过 40 种（杜博伊斯，1970）。

赫尔曼·罗夏（1884-1922）——罗夏墨迹测验

赫尔曼·罗夏于 1884 年 11 月 8 日出生于苏黎世。他在沙夫豪森度过了他的青年时代，主要在苏黎世学习医学。他在几个瑞士城镇的庇护所担任住院医生，并在 1914 年在莫斯科的一家疗养院工作了七个月。赫尔曼在 1922 年 4 月 2 日 37 岁时因病早逝，当时他是庇护所的副主任。在他去世前十个月，即 1921 年 6 月，罗夏出版了《精神诊断学》，这是著名的墨迹测验的专著，成为投射测试史上的里程碑（埃伦伯格，1993；格雷戈里，2007）。罗夏墨迹测验包含 10 个墨迹，这些墨迹是通过将墨水滴在纸上并对折纸张形成的，形成了相对对称的设计（格雷戈里，2007）。五个墨迹是黑色或灰色，而五个包含颜色。由于罗夏更感兴趣的是探索受试者的感知方式，而不是他们所唤起的联想的具体内容，因此他关注受试者如何反应，比如他们的反应时间，他们是否将形状看作整体或部分，以及形状、运动和颜色如何影响受试者对墨迹的欣赏（杜博伊斯，1970）。

令人惊奇的是，赫尔曼在中学时期的绰号是“Klex”，意思是“墨迹”，这与他以之闻名的测试不谋而合（埃伦伯格，1993）。“Klecksography”是瑞士儿童中流行的一种游戏，它包括在纸上制作墨迹并折叠它来构建物体的形状，比如鸟或蝴蝶。

一个事件激发了罗夏对研究人类无意识的兴趣，那是他作为医学生时做的一场梦（埃伦伯格，1993）。他梦见自己的大脑被切成薄片，就像他解剖时看到的那样，他感觉到这些薄片一张一张地从他额头上掉下来。他脑海中立即出现了两个问题：一个人如何在梦中体验到生理上不可能的感知？以及一系列视觉图像如何被翻译并重新体验为一系列动觉图像？这些问题被证明是罗夏（1964）《精神诊断学》的指导力量，他在书中得出结论：个体用于吸收经验的工具比他在日常生活中使用的工具要广泛得多、复杂得多。一个人拥有许多能够让他体验的“登记簿”，但他只在日常生活中使用其中的少数几个。

罗夏墨迹测验的一个主要影响是荣格的词语联想测验，这是应用于动力精神病学的第一种实验方法（埃伦伯格，1993）。使用这种测试，荣格检测到心理复合体，并为每种疾病确定了一种特殊的测试综合征。他通过区分受试者的语义和言语联想，将他们分类为内向型和外向型。这种对答案的正式分类被认为是荣格最原始的贡献，它极大地影响了罗夏测试的细节和框架（埃伦伯格，1993）。例如，在《精神诊断学》中，罗夏（1964）展示了 405 名受试者的观察结果，并根据类型对他们的反应进行了分类，比如正常人、弱智者、癫痫患者和精神分裂症患者，这种结构类似于荣格的分类。虽然以完全不同的方式使用，但罗夏也借用了荣格的“内向型”一词（罗夏，1964）。

墨迹测验发展的另一个推动力是罗夏与 S. 亨恩的论文相遇，该论文题为“通过无定形墨迹测试学童、成年人和精神病患者的想象力”，于 1917 年出版。亨恩使用八个墨迹来评估一千名儿童、一百名正常成年人和一百名精神病患者的解释内容（罗夏，1964；埃伦伯格，1993）。在研究结束时，亨恩对未来的研究方向提出了一些建议。他注意到，有些受试者倾向于解释整幅图，而另一些受试者只解释部分，这促使他推测这种模式是否具有意义。他还注意到，他所有的八张卡片都是黑白色的，这使他考虑是否有颜色的卡片会引发不同的反应。最后，亨恩想知道是否可以使用墨迹测试来诊断精神病。罗夏（1964）在《精神诊断学》中试图回答所有这些问题，重点是研究感知过程的模式。

迈尔斯-布里格斯、凯尔西的气质和真实色彩

迈尔斯-布里格斯性格测试受卡尔·荣格著作的影响，由 16 种不同的性格类型组成。这些性格类型源于四个主要变量：

内向型/外向型（I/E）
感觉型/直觉型（S/N）
情感型/思考型（F/T）
判断型/感知型（J/P）

从这种相反倾向的组合来看，假设大多数人倾向于其中的一种而不是另一种。例如，一个人可能会发现自己更倾向于外向型性格，而不是内向型性格。此外，从这些主要变量中衍生出 16 种性格类型，用四个字母表示（例如，INFJ 或 ENFP）。大多数情况下，当一个人接受这个测试时，他们会发现自己在不止一种性格类型中都能看到自己。因此，测试的管理者通常会评论说，这是一种测试一个人最常出现的偏好或主要倾向，而不是一种严格的诊断。

大卫·凯尔西是一位 1921 年出生于俄克拉荷马州的著名心理学家，他修改了这个测试，将 16 种性格类型归入四个主要气质。他称这些气质为守护者、工匠、理想主义者和理性者。

真实色彩测试是另一个性格测试，它也与迈尔斯-布里格斯和凯尔西的气质有关。唐·劳瑞在对凯尔西的著作感兴趣后，于 1978 年创立了真实色彩，并研究了凯瑟琳·布里格斯、伊莎贝尔·迈尔斯和卡尔·荣格。他采用了凯尔西的四种主要性格类型，然后为儿童和成人创建了一个测试，该测试易于使用、有趣且方便。测试中的每种颜色都用于描述特定类型的人，并且还比较了颜色之间的兼容性和不兼容性。通过一系列测试，接受这个测试的个体可以对他们的性格中这些颜色的顺序进行排名（从最普遍到最不普遍）。该测试已在课堂、公司办公室、学徒制项目，甚至在职业发展中使用。它对于一个人了解自己的优势、倾向、态度以及他人对他们的感知非常有用。

真实色彩

绿色
蓝色
橙色
金色

斯塔克·R·哈撒韦（1903-1984）和 J.C. 麦金利（1891-1950）——明尼苏达多项人格调查表（MMPI）

S.R. 哈撒韦和 J.C. 麦金利使用伍德沃斯的方法，即编写似乎具有临床意义的项目，并通过对比正常受试者和异常受试者的反应来建立效度，在 1943 年发表了 MMPI（杜博伊斯，1970；格雷戈里，2007）。他们还使用了斯壮职业兴趣量表的模型，即创建了一个大型项目库，其中只有相对较小的子集包含在任何一个键或量表中（杜博伊斯，1970）。MMPI 还引入了效度量表的应用，用于确定虚假不良、虚假良好和随机反应模式（杜博伊斯，1970；格雷戈里，2007）。

MMPI 包含 566 个是非题，旨在诊断精神症状（格雷戈里，2007）。这些项目是从 1000 多个项目中挑选出来的，涵盖健康状况、习惯、个人和社会态度以及精神症状，并且对正常受试者和表现出特定病理状况的个人进行了测试（杜博伊斯，1970）。选择显示出最大差异的项目用于量表，然后在新的病例组中进行交叉验证（杜博伊斯，1970；格雷戈里，2007）。

20 世纪罪犯的性格测试：艾森克和哈尔的贡献

几个世纪以来，罪犯是与社会其他成员有所不同的个体，这种观点一直存在，至今仍为许多人所认同。心理学对此的贡献包括制定人格理论，解释犯罪行为是某种人格类型的结果。作为个体差异研究心理学领域的一个分支，衡量罪犯人格的努力可以比作高尔顿和特曼区分杰出者或智者与弱智者的努力，两者在社会工程方面的影响显而易见。在跨学科方法的更广泛框架内，人格理论代表了中等层次的解释，即处于社会结构和组织的宏观理论之下，微观理论之上，而微观理论基于对个体生物构成进行的研究。

社会学家涂尔干（1895，1938）认为，犯罪实际上是一种正常的社会现象，而不是社会中的病态成分。相比之下，艾森克（1964，1970，1977）提出了犯罪者在心理上与他人不同的理论，他的工作可以被视为开启了心理学对这一问题的研究新时代。艾森克利用人格的概念，试图识别出一群“异常”的人，即罪犯，他们不同于更大的“正常”整体，即普通人群。虽然将犯罪视为病态的这种概念，本质上是犯罪学中的积极学派，并非新鲜事物，但艾森克引入心理测量测试来展示群体间差异则是新的。

艾森克根据他的一般人格理论，认为个人可以根据行为倾向进行分类，他假设罪犯具有独特的人格类型，可以使用他的量表（莫德斯利人格量表，MPI；艾森克人格量表，EPI，见艾森克，1960；艾森克和艾森克，1964）进行测量。基本上，个人可以在两个维度上定位，即外向性/内向性和神经质，它们是独立的，代表了整体的人格维度。外向性以冲动、社交能力和总体上的外向行为为特征，而内向性通常表现为害羞、控制、退缩和内向。根据艾森克的观点，罪犯在外向性和神经质方面得分较高，由于这种人格类型，他们更容易犯罪。最初针对罪犯群体的研究数据总体上与这一观点一致（艾森克，1964）。支持艾森克理论的其他证据来自双胞胎和领养研究（艾森克，1977；梅德尼克、加布里埃尔和赫钦斯，1984）。

然而，艾森克关于罪犯人格测试的研究也遭到了许多批评。一个问题是他的测量方法是自评问卷；材料的透明度使得它们容易受到反应偏差的影响。虽然在1964年加入了 L（说谎）量表试图解决这个问题，但其他研究人员发现，可以在不提高该量表得分的情况下操纵反应模式（见法灵顿、比隆和勒布朗，1982）。艾森克人格量表另一个问题是发现这些维度彼此之间在不同程度上存在相关性（艾森克和艾森克，1970；艾森克和艾森克，1976）。显然，如果人格维度被认为是基本构想，那么它们应该彼此之间是同质的，并且相互独立。

当然，艾森克的人格量表只是众多人格研究成果中的一个。特南鲍姆（1977）对文献进行了大量回顾，发现有 52 种不同的测试被用来研究罪犯人格，但总体上没有发现明显的鉴别效度。因此，似乎有必要开始寻找罪犯群体中更同质的子集，以便更好地阐明具有鉴别效度和预测效度的核心人格特质。因此，艾森克和艾森克（1978）试图将精神病的概念操作化，“……精神病患者是‘疯狂的’，因为他的认知过程是紊乱的……而神经质患者通常在精神方面是健全的，但无法控制自己的情绪（第 57 页）。实际上，艾森克通过假设人格的三维分解，包括 E、N 和 P 维度来修改他的个性理论，该理论预测精神病患者和罪犯在 E、N 和 P 量表上的得分应该很高。哈雷（1982）发现 P 分数与他的精神病检查表（哈雷 1980）上的 22 个条目中的 6 个相关。然而，他认为，“……P 量表上的高分可能更多地反映了犯罪和反社会倾向和行为，而不是反映精神病诊断所必需的推断的心理构想（例如缺乏同理心、内疚、悔恨、对他人的关心等）。”同样，DSM 中的反社会人格障碍诊断标准（见美国精神病学协会最新版，2000 年）也因仅仅提供了对惯犯的描述而受到广泛批评。

与艾森克和其他人早期试图衡量犯罪人格的尝试相比，在过去 25 年里，有相当多的经验证据支持由哈雷的精神病检查表（1980，1991，2003）操作化的精神病人格，哈雷是在精神科医生赫维·克莱克利（1941）的临床观察和开创性理论基础上发展起来的。精神病是一种复杂的人格障碍，其特征是人际关系、情感和行为特征的综合。PCL-R 是一种结构化的临床评估工具，用于评估一系列情感和人际交往特征，以及社会偏差行为。它由经过培训的评估人员根据个别访谈和文件资料的审查进行评分。它的可靠性和有效性得到了充分的证明（哈雷，2003）。值得注意的是，研究表明，由 PCL-R 评估的精神病特质与一般罪犯群体中治疗参与的负面指标相关联（例如，哈雷、克拉克、格伦和索恩顿，2000；霍布森、闪和罗伯茨，2000；奥格洛夫、王和格林伍德，1990）。在矫正和精神科人群中，PCL-R 分数与一般犯罪和暴力犯罪再犯之间也存在很强的关联（例如，汉普希尔·哈雷和王，1998；萨莱金、罗杰斯和塞维尔，1996）。

虽然精神病人格的病因学尚不清楚，但越来越多的证据（见帕特里克，2006）支持哈雷（1993）的假设，即“遗传因素有助于大脑功能的生物学基础和基本人格结构，进而影响个人对生活经历和社会环境的反应方式和互动方式”（第 173 页）。当然，精神病人格构想对理论和概念的影响是巨大的。作为人格评估工具，PCL-R 对研究和应用环境都产生了重大影响。它是 20 世纪人格研究与临床和法医心理学交汇处的关键进展之一，与艾森克等早期思想家和科学家相比具有优势，这些思想家和科学家从艾森克一直追溯到塞萨雷·龙勃罗索（1835-1909）和弗朗茨·约瑟夫·加尔（1758-1828），乃至亚里士多德。

兴趣量表

爱德华·K·斯特朗（1884-1963）——斯特朗职业兴趣量表

爱德华·K·斯特朗是一位心理学家，他的职业生涯致力于衡量职业兴趣，自 1927 年首次出版以来，他花了 36 年的时间开发针对改进后的工具（称为斯特朗职业兴趣量表，SVIB）的经验性密钥（杜波依斯，1970；格雷戈里，2007）。为此，他使用了庞大且精心挑选的受试者群体，研究了测试的信度和效度，考察了职业兴趣随时间的变化，开发了手册和设备来帮助解释结果，并在设备及其评分方法上进行了各种改进（杜波依斯，1970）。参加测试的受试者可以在数十种职业的单独密钥上进行评分，提供一系列分数，对职业指导非常有价值（格雷戈里，2007）。现代版本，即斯特朗兴趣量表，至今仍被指导顾问广泛使用（格雷戈里，2007）。1933 年为女性推出了配套量表（杜波依斯，1970）。