跨学科问题 2020-21/智力测试中的证据

介绍

智力定义和测试的方式对现代社会中个人生计具有重大影响，因此该主题一直是争议的源泉^[1]^[2]^[3]。

智力是一个从可变方面形成的抽象概念，不同的学科对衡量智力的证据有不同的看法。有些人甚至认为应该停止智力测试。然而，它可以成为研究心理发展和评估认知能力的宝贵理论和实践工具^[4]。通过整合解决跨学科冲突可以发展出更全面的智力测试方法，这些方法可以用来造福个人和社会^[5]^[6]。测试需要在机器、动物、人类之间通用，因此学科之间需要通用，并且结果要与人类标准化。^[7] 对智力证据达成共同理解意味着我们将确信机器何时达到了智力水平。

这本将探讨心理学、计算机科学和人类学/社会学视角中智力测试中的证据，目的是突出冲突。

心理学中的智力测试证据

在心理测量学中，智力的最常用衡量标准是智商 (IQ)。有多种现代智商测试，英语世界中最常见的是韦氏智力量表，针对成人和儿童有不同的版本。大卫·韦克斯勒认为智力是由相互关联的认知能力元素组成的，这些元素可以被隔离和测量。^[8] 该测试的当前版本 WAIS-IV 由以下指标组成：言语理解、知觉推理、工作记忆和处理速度。^[9]

智商分数是根据标准差计算得出的，将个人表现与平均值进行比较。这些分数是正态分布的，其中平均分数最常见（平均值为 100，标准差为 15 个智商点）。^[10] 因此，智商分数是智力的估计值，而不是直接测量值。智商测试已被证明具有很高的统计可靠性，置信区间约为 10 个点，标准误为 3 个点。^[11] 尽管由于动机和焦虑等外部因素，个人在智商测试中的表现可能会有所不同，这让人对有效性产生怀疑，但智商分数与工作和学校的表现相关。^[12]^[13] 一些心理学家认为，这足以证明智商测试在教育和工作中的实际应用是可行的。^[14]

其他心理学家对智商测试持批评态度，韦恩·韦滕指出“智商测试是对在学术工作中取得好成绩所需的智力的有效衡量标准。但如果目的是评估更广泛意义上的智力，智商测试的有效性就值得怀疑。”智商测试可以衡量智力形式，但无法衡量更广泛的方面，包括创造力和情商。^[15] 为了应对这些批评，出现了衡量能力的其他测试。例如，梅耶-萨洛维-卡鲁索情商测试。^[16]

人类学和社会学视角

人类学和社会学理解侧重于个人与其更广泛的文化和社会之间的互动。由于智力是一个有争议的概念，其定义在文化之间和文化内部都有所不同^[17]^[18]，因此人类学中的人认为，衡量智力的测试必须是民族中心的——即，来自被测试者的文化内部^[19]。由于文化之间存在质的差异，有些人认为跨文化进行的量化比较将毫无帮助 ^[20]。从人类学角度来看，斯特恩伯格和考夫曼认为，文化“将它们认为适应那些文化生活要求的认知、社会和行为属性指定为“智力”^[21]。同样，一些社会学家认为，智力是一种社会建构，其证据是特定社会历史背景的产物，该背景关注与社会分层和不平等相关的议题^[22]。

关于衡量智力，持人类学和社会学观点的人强调了智力的可塑性^[23]，以及影响特定测试方法中表现的其他外部因素。贝里和欧文强调需要认识到影响智力表现的不同层面的背景，包括生态背景和实验背景^[24]。他们的研究表明，认知风格是如何根据环境需求发展起来的^[25]。然后，要求实验背景（测试智力的背景）与个人的学习和日常背景相一致。一个例子来自巴西街头儿童，他们虽然依赖于自己的数学技能经营自己的生意以求生存，但在学校测试时，在解决相同数学问题时表现不佳，因为所呈现的抽象问题脱离了他们的现实世界背景^[26]。因此，传统的智商和心理测量测试被认为存在问题，因为它们以智力与认知表现的非情境性假设为基础，尤其是在用于比较来自不同文化和经济背景的个人时。

计算机科学中的智力测试证据

语言作为证据

模仿游戏源于笛卡尔关于语言在新的和具有挑战性的情况下表现出的多功能性是智力首要测试的观点。^[27] 一个询问者，与一台机器和一个人类隔离开来，提出问题。通过回答，机器试图欺骗询问者，让它认为自己是人类，而人类则试图帮助询问者猜出答案。如果机器成功了，它就根据图灵的理论提供了它有智力的证据。^[28] 机器必须模仿人类，假装自己无法进行复杂的运算，并伪造看起来很自然的拼写错误。这里智力的证据是适应能力，而不是处理复杂性的智力因素观点。

HAL 项目将对话能力衡量为智力的证据，并为机器分配了人类成熟度的估计值。机器的语言会被检查以寻找证据，包括词汇量、反应类型和平均语长。^[29]

控制论

以目标为中心的系统（包括动物和机械系统），系统与环境之间的交流或对话是活动的先决条件。^[30] 系统在与不断变化的环境交互时所做出的反应/活动被视为智力的证据。^[31] 智力的证据集中在活动和有目的的行为上，而不是推理。

通用智力测试

一台机器通过与环境交互获得奖励，它必须学习环境结构以及哪些行为会获得奖励，以便最大限度地获得奖励。对于应用奥卡姆剃刀法则，会给予额外的奖励，这是一种直观但智能的方法。^[32]

智商

当一台机器完成传统的智商测试时，它很少被认为是智力的证据，这可能从 1963 年开始，当时一个人工智能程序通过了 WAIS 中的几何类比任务。

通常，结果与人类相当，但就像在数字完成的情况下一样，机器解决问题的方式可能不同，这意味着结果具有不同的误差分布。

与此相关的是心理测量 AI，即构建能够解决一系列问题（使用单一测试来评估机器毫无用处，因为它可以专门设计来解决它）的机器的领域。^[33]

结论

关于在智力测试中什么被认为是证据，仍然存在很多争议。在机器中，测试的重点是寻找实时灵活性和适应性、创造力的证据；特别是在语言和对话方面。就像人类学和社会学方法一样，计算机科学往往侧重于与外部环境的互动。这与智商测试的普遍、静态方法背道而驰，智商测试侧重于衡量孤立的智力内在特征的证据，往往忽略了情境。这些学科之间的互动，以及尚未开发的学科，可以帮助我们摆脱这种狭隘的智力理解，走向更实用的理解。

参考文献

↑ Phelps R. 测量智力：事实和谬误。JDBP。2006;27(4): 356
↑ Beeghley L, Butler EW. 智力测试在公立学校中的影响：种族隔离前后的情况。SP。1974;21(5): 740-754。
↑ Bartholemew D. 测量智力：事实和谬误。美国：剑桥大学出版社；2004。
↑ 第二章：智力测试的应用。RER。1932;5(3):199。
↑ Benson ES. 智能的智力测试。MoP。2003;34(2): 48。
↑ Sternberg RJ, Grigorenko EL. 智力和文化：文化如何塑造智力的含义，以及对幸福科学的意义。PT: BS。2004;359(1449)。
↑ Hernandez-Orallo J, Martinez-Plumed F, Schmid U, Siebers M, Dowe DL. 计算机模型解决智力测试问题：进展和意义。AI。2016;230: 74-107。
↑ Kaplan RM, Saccuzzo DP. 心理测试：原理、应用和问题。第 8 版。美国加利福尼亚州贝尔蒙特：沃兹沃斯，Cengage 学习；2010。
↑ Pearson Clinical. 韦氏成人智力量表® - 第四版英国版 [互联网]。2020 年。[访问日期：2020 年 12 月 2 日]；可从以下网站获取：https://www.pearsonclinical.co.uk/Sitedownloads/Productpdfs/wais-4ukclinical8ppfinalweb.pdf
↑ Gottfredson LS. 第 1 章：用于驳斥关于智力测试的证据的逻辑谬误。在：Phelps RF，编辑。纠正关于教育和心理测试的谬误。华盛顿特区：美国心理学会；2009 年。
↑ Pearson Clinical. WISC-V Laurie Jones（2015 年 6 月 1 日）的解释性考虑 [互联网]。2020 年。[访问日期：2020 年 12 月 2 日]；可从以下网站获取：https://images.pearsonclinical.com/images/assets/wisc-v/WISC-VInterpretiveReportSample-1.pdf
↑ Carlton SG, Gutierrez L. 心理变量和韦氏成人智力量表-IV 的表现。AN：成人。2017;24(4): 357-363。
↑ Weiten W. 心理学：主题和变异。第 10 版。美国加利福尼亚州贝尔蒙特：沃兹沃斯 Cengage 学习；2016。
↑ Kaufman AS. 智商测试 101。纽约：施普林格出版公司；2009 年。
↑ Weiten W. 心理学：主题和变异。第 10 版。美国加利福尼亚州贝尔蒙特：沃兹沃斯 Cengage 学习；2016。
↑ Mayer, JD, Salovey P, Caruso DR, Sitarenios G. 使用 MSCEIT V2.0 测量情商。E. 2003;3: 97-105。
↑ Sternberg RJ. 文化与智力。AP。2004;59(5): 325–338。
↑ Sternberg RJ, Grigorenko EL. 智力和文化：文化如何塑造智力的含义，以及对幸福科学的意义。PT: BS。2004;359(1449)。
↑ Sternberg RJ. 心理的隐喻：关于智力本质的观念。剑桥：剑桥大学出版社；1990 年。
↑ Sternberg RJ. 心理的隐喻：关于智力本质的观念。剑桥：剑桥大学出版社；1990 年。
↑ Sternberg RJ, Kaufman JC. 人类能力。ARP。1998;49: 497。
↑ Squibb PG. 智力的概念 - 从社会学视角。TSR。1973;21(1): 57-75。
↑ Sternberg RJ, Kaufman JC. 人类能力。ARP。1998;49: 497。
↑ Sternberg RJ. 心理的隐喻：关于智力本质的观念。剑桥：剑桥大学出版社；1990 年。
↑ Berry JW, Irvine SH. 文化背景中的人类能力。剑桥大学出版社；1988 年。
↑ Ceci SJ, Hembrooke HA. 智力发展的生物生态模型。APA。1995:303-345
↑ 笛卡尔 R. 正确地指导理性并寻求科学真理的方法论。莱顿：勒内·笛卡尔；1637 年。
↑ 图灵，A.，1950 年，“计算机器与智力”，《心智》，59（236）：433–60。
↑ Legg S, Hutter M. 机器智能测试。人工智能 50 年：献给人工智能 50 周年的论文集。柏林，海德堡：施普林格出版社柏林海德堡；2007 年。第 232-242 页。
↑ Pangaro P. 控制论 - 定义 [互联网]。2013 年。[访问日期：2020 年 12 月 3 日]；可从以下网站获取：https://pangaro.com/definition-cybernetics.html
↑ 与开放大学合作研究：OpenLearn。机器、思维和计算机：3.2 控制论和符号 AI [互联网]。2017 年 12 月 6 日。[访问日期：2020 年 12 月 3 日]；可从以下网站获取：https://www.open.edu/openlearn/science-maths-technology/computing-and-ict/computing/machines-minds-and-computers/content-section-3.2
↑ Legg S, Hutter M. 机器智能测试。人工智能 50 年：献给人工智能 50 周年的论文集。柏林，海德堡：施普林格出版社柏林海德堡；2007 年。第 232-242 页。
↑ Hernandez-Orallo J, Martinez-Plumed F, Schmid U, Siebers M, Dowe DL. 计算机模型解决智力测试问题：进展和意义。AI。2016;230: 74-107。

[1] Phelps R. 测量智力：事实和谬误。JDBP。2006;27(4): 356

[2] Beeghley L, Butler EW. 智力测试在公立学校中的影响：种族隔离前后的情况。SP。1974;21(5): 740-754。

[3] Bartholemew D. 测量智力：事实和谬误。美国：剑桥大学出版社；2004。

[4] 第二章：智力测试的应用。RER。1932;5(3):199。

[5] Benson ES. 智能的智力测试。MoP。2003;34(2): 48。

[6] Sternberg RJ, Grigorenko EL. 智力和文化：文化如何塑造智力的含义，以及对幸福科学的意义。PT: BS。2004;359(1449)。

[7] Hernandez-Orallo J, Martinez-Plumed F, Schmid U, Siebers M, Dowe DL. 计算机模型解决智力测试问题：进展和意义。AI。2016;230: 74-107。

[8] Kaplan RM, Saccuzzo DP. 心理测试：原理、应用和问题。第 8 版。美国加利福尼亚州贝尔蒙特：沃兹沃斯，Cengage 学习；2010。

[9] Pearson Clinical. 韦氏成人智力量表® - 第四版英国版 [互联网]。2020 年。[访问日期：2020 年 12 月 2 日]；可从以下网站获取：https://www.pearsonclinical.co.uk/Sitedownloads/Productpdfs/wais-4ukclinical8ppfinalweb.pdf

[10] Gottfredson LS. 第 1 章：用于驳斥关于智力测试的证据的逻辑谬误。在：Phelps RF，编辑。纠正关于教育和心理测试的谬误。华盛顿特区：美国心理学会；2009 年。

[11] Pearson Clinical. WISC-V Laurie Jones（2015 年 6 月 1 日）的解释性考虑 [互联网]。2020 年。[访问日期：2020 年 12 月 2 日]；可从以下网站获取：https://images.pearsonclinical.com/images/assets/wisc-v/WISC-VInterpretiveReportSample-1.pdf

[12] Carlton SG, Gutierrez L. 心理变量和韦氏成人智力量表-IV 的表现。AN：成人。2017;24(4): 357-363。

[13] Weiten W. 心理学：主题和变异。第 10 版。美国加利福尼亚州贝尔蒙特：沃兹沃斯 Cengage 学习；2016。

[14] Kaufman AS. 智商测试 101。纽约：施普林格出版公司；2009 年。

[15] Weiten W. 心理学：主题和变异。第 10 版。美国加利福尼亚州贝尔蒙特：沃兹沃斯 Cengage 学习；2016。

[16] Mayer, JD, Salovey P, Caruso DR, Sitarenios G. 使用 MSCEIT V2.0 测量情商。E. 2003;3: 97-105。

[17] Sternberg RJ. 文化与智力。AP。2004;59(5): 325–338。

[18] Sternberg RJ, Grigorenko EL. 智力和文化：文化如何塑造智力的含义，以及对幸福科学的意义。PT: BS。2004;359(1449)。

[19] Sternberg RJ. 心理的隐喻：关于智力本质的观念。剑桥：剑桥大学出版社；1990 年。

[20] Sternberg RJ. 心理的隐喻：关于智力本质的观念。剑桥：剑桥大学出版社；1990 年。

[21] Sternberg RJ, Kaufman JC. 人类能力。ARP。1998;49: 497。

[22] Squibb PG. 智力的概念 - 从社会学视角。TSR。1973;21(1): 57-75。

[23] Sternberg RJ, Kaufman JC. 人类能力。ARP。1998;49: 497。

[24] Sternberg RJ. 心理的隐喻：关于智力本质的观念。剑桥：剑桥大学出版社；1990 年。

[25] Berry JW, Irvine SH. 文化背景中的人类能力。剑桥大学出版社；1988 年。

[26] Ceci SJ, Hembrooke HA. 智力发展的生物生态模型。APA。1995:303-345

[27] 笛卡尔 R. 正确地指导理性并寻求科学真理的方法论。莱顿：勒内·笛卡尔；1637 年。

[28] 图灵，A.，1950 年，“计算机器与智力”，《心智》，59（236）：433–60。

[29] Legg S, Hutter M. 机器智能测试。人工智能 50 年：献给人工智能 50 周年的论文集。柏林，海德堡：施普林格出版社柏林海德堡；2007 年。第 232-242 页。

[30] Pangaro P. 控制论 - 定义 [互联网]。2013 年。[访问日期：2020 年 12 月 3 日]；可从以下网站获取：https://pangaro.com/definition-cybernetics.html

[31] 与开放大学合作研究：OpenLearn。机器、思维和计算机：3.2 控制论和符号 AI [互联网]。2017 年 12 月 6 日。[访问日期：2020 年 12 月 3 日]；可从以下网站获取：https://www.open.edu/openlearn/science-maths-technology/computing-and-ict/computing/machines-minds-and-computers/content-section-3.2

[32] Legg S, Hutter M. 机器智能测试。人工智能 50 年：献给人工智能 50 周年的论文集。柏林，海德堡：施普林格出版社柏林海德堡；2007 年。第 232-242 页。

[33] Hernandez-Orallo J, Martinez-Plumed F, Schmid U, Siebers M, Dowe DL. 计算机模型解决智力测试问题：进展和意义。AI。2016;230: 74-107。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]