多感官整合

概述

人类能够处理来自各种来源、跨越不同感觉模态（如视觉、触觉、嗅觉和听觉）的感官信息^[1]。这些感觉信号为我们提供了有关周围环境的重要信息，并帮助我们在生死攸关的情况下做出关键决策^[2]。完全来自一种模态的信号为我们提供了一个物体一个方面的的信息，例如它的颜色或形状。然而，仅仅依赖于来自一个传感器模态的输入并不是非常有效的，因为物体通常在各种模态上提供信号，并且不能仅通过分析这些信号中的一个来进行独占性描述。例如，椰子味的软糖豆与香草味的豆子形状相同，在触碰下变形方式也相同，但味道却截然不同。为了正确识别豆子，一个人必须触摸和品尝它，并将由此产生的刺激结合起来，才能对该物体的真实情况有一个连贯的解释。只有这样，大脑才能决定如何做出反应。这种跨越多个模态处理和融合感官数据的任务被称为多感官整合^[1]。

功能性多感官整合对于让人类对周围环境产生连贯而稳健的感知至关重要。人类的感觉系统不断受到来自周围环境的各种刺激的轰炸，而大脑必须正确地确定这些刺激对应于哪些来源，并过滤掉那些与其行为控制相关的刺激。

多感官错觉

多感官整合的复杂性往往会导致神秘的现象。麦格克效应，例如，描述了同时处理两个不同刺激如何产生一个与任何组成部分完全不同的融合结果。在麦格克和麦克唐纳于 1976 年进行的一项研究中，参与者观看了一段视频，视频中一个人说了一个特定的音素，同时配上了一个人说第二个音素的音频，他们报告说他们实际上听到和看到的是第三个不同的音素^[3]。“ga”音素的视觉表示与“ba”音素的听觉表示相结合，导致“da”音素的融合感知。麦格克和麦克唐纳对此的解释是，特定的音素组很容易混淆，具体取决于刺激表达的模态。例如，在视觉上很难区分“ga”和“da”，而在听觉上很难区分“ba”和“da”。因此，大脑将“da”视为这两个冲突刺激的最佳共同解释，并将其确定为最可靠的感知。

另一个常见的视听错觉被称为双闪光错觉。参与者被展示一个组合，包含 1 到 4 个闪光和 0 到 4 个哔哔声，并要求他们确定出现的闪光次数。当哔哔声次数超过闪光次数时，参与者报告看到幻觉闪光以匹配他们的听觉感知^[4]。

信息处理理论

虽然多感官整合的确切机制尚未明了，但存在各种理论来解释大脑如何选择将多个信号分离或组合成连贯的感知。

科拉维塔视觉优势效应

视觉优势是指视觉刺激在脑内被优先处理，高于其他模态^[5]。当视觉刺激与听觉或触觉刺激同时呈现时，只有视觉刺激被识别出来。F.B. 科拉维塔在 1973 年进行的一项研究中，让受试者接触三种类型的刺激：纯粹的听觉、纯粹的视觉或同时出现的视听刺激^[6]。在每次测试后，受试者被要求识别发生了哪种类型的刺激。科拉维塔发现，虽然受试者对两种单模态目标都做出了正确反应，但当听觉刺激与视觉刺激同时出现时，他们经常无法识别听觉刺激。当测试触觉和视觉刺激的组合时，发现同样的结果。该研究表明，在多模态感官中，视觉在脑内具有某种优先地位，甚至可以完全消除受试者对其他刺激的感知。Harther-O’Brien 等人将科拉维塔效应归因于各种模态之间处理资源访问的不平衡^[7]。视觉传感器可能比其他模态的同步刺激拥有更好的处理和意识访问，导致这种感官优势。此外，视觉是最准确和可靠的模态之一，因为只有很少的外部干扰可以改变刺激，从而向大脑提供错误的信息（将其与听觉信号进行比较，听觉信号可以从墙壁上反射或被强风带走，欺骗听者关于声源的真实位置）^[8]。科拉维塔效应的神经学基础尚不完全清楚；即使是在效应发生在反射性水平还是自愿水平上，结果仍然没有定论。

在包括牛、鸟类和人类在内的各种物种中都观察到了普遍的视觉优势^[9]^[10]。然而，一些研究表明，科拉维塔效应也可以逆转：例如，Sinnet 和 Ngo 表明，在某些条件下，参与者对听觉刺激的反应比视觉刺激更强^[11]。这可能是由于人类和动物在特别紧张的情况下最依赖听觉刺激，这表明视觉优势是依赖于情境的。

模态适宜性

1980 年，韦尔什和沃伦提出了模态适宜性理论，该理论指出，模态在多感官整合中的优先级取决于该模态对特定情况的适用性^[12]。该理论得到了最大的支持是，不同的感觉模态更适合于不同的特定感官任务。例如，在确定声源的确切位置（一项称为空间处理的任务）时，视觉刺激支配所有其他刺激——即使是定位声源。这种效应在电视中得到了很好的体现：一个演员的声音似乎来自演员的嘴巴而不是电视音响系统，因为我们的视觉系统识别了移动的嘴唇并支配了感官处理。类似地，听觉刺激在确定事件的确切时间或事件的顺序（时间处理）中占主导地位。

Alais 和 Durr 最近的研究表明，模态优势随着感官不确定性的增加而减弱^[13]。当参与者解决空间处理任务时，他们最初最依赖视觉刺激，正如模态适宜性和视觉优势理论所预期的那样。然而，当通过模糊和过滤有意地降低视觉刺激的质量时，参与者开始优先考虑来自伴随听觉刺激的信息。因此，模态适宜性理论表明，大脑不断优先考虑和权衡每个刺激的可靠性，以产生最可信的组合^[14]。

贝叶斯整合

贝叶斯整合为模态适宜性理论提供了统计基础。它表明，大脑使用贝叶斯推理来确定一组多模态刺激中最可能的共同来源。贝叶斯推理是一种基于贝叶斯定理的统计推断方法^[15]

$P(H|E)={\frac {P(E|H)\cdot P(H)}{P(E)}}$

贝叶斯公式根据假设 H 的先验概率 P(H)、证据 E 的概率 P(E) 以及假设为真时观察到证据的概率 P(E|H)，计算出给定证据 E 时当前假设 H 的概率。随着更多数据的可用以及证据集的扩展，假设概率可以根据新数据是否进一步支持或削弱当前假设而得到改进。贝叶斯更新是确定如何最好地理解数据以确定最可能解释的一种有用方法^[16]。

应用于多感官整合，贝叶斯推理评估多模态刺激 E 与特定源事件 H 相对应的概率，并根据这些刺激在 E 中的组合或分离来产生具有最大概率的假设。因此，贝叶斯整合在接触过丰富感官体验的大脑中最为有效，因此可以访问大量统计数据集来生成先验概率^[17]。

三个一般原则

虽然没有一个提出的理论解释所有研究过的多感官体验，但它们有助于得出三个一直被证明有效的普遍原则。

空间规则^[18]：当各种单感官刺激源于大致相同的位置时，多感官整合最强。
时间规则^[19]：当各种单感官刺激在大致相同的时间发生时，多感官整合最强。
逆效原理^[20]：当组成单感官刺激单独提供微弱信号时，多感官整合最强。

视觉-听觉整合的细节

尽管视觉线索本身通常很可靠，但当伴随着听觉线索时，刺激会感知得更强、更可靠。事实上，由同时出现的听觉和视觉线索表示的刺激的检测阈值远低于由单一模态表示的相同刺激的阈值^[21]。许多提出的理论和效应侧重于将视觉和听觉刺激整合到连贯的知觉中。实际上，视听整合是最常研究的感官整合之一，因为两种模态通常传递有关相同事件的信息，并且这两者的适当组合对于日常生活至关重要。这两种感官系统各自提供了另一系统无法获得的关键信息：例如，视觉系统无法确定隐藏在阴影中的物体的方位，而听觉系统可以补充此信息^[22]。

单模态感官信息首先在皮层中进行处理，正如对听觉和视觉刺激所详细描述的那样。多感官整合主要发生在中脑中的上丘 (SC)（虽然在脑的其他一些区域也发现了不太了解的多感官处理集群）^[23]。SC 由七层交替的白色和灰色物质组成。信息直接从视网膜和其他皮层区域到达 SC 的外层，因此构成了整个视野的拓扑图^[24]。SC 的更深层包含来自视觉、听觉和体感模态组合的二维多感官地图^[25]。

SC 中多模态刺激的汇聚遵循所谓的“空间规则”，要求来自不同模态的刺激必须落在 SC 内的相同或相邻的感受野上才能激发神经元^[25]。然后，信号从 SC 发送到脊髓、小脑、丘脑和枕叶的附近神经元。然后，这些神经元沿着肌肉和进一步的神经结构传播它们的信号，以指导一个人对刺激做出反应的定向或行为^[26]。

如果视觉刺激先于听觉刺激到达，则产生的神经兴奋最强且最统一^[22]。这种时间偏移被认为是必要的，以便抵消视觉刺激相对较慢的处理时间。虽然听觉刺激的处理是一个完全机械的过程，持续时间约为 1 毫秒，但视觉处理需要视网膜内的光转导以及各种神经化学过程，因此持续时间约为 50 毫秒。因此，视觉刺激必须在大约 50 毫秒前发生，以便这两个刺激被感知为同时发生。幸运的是，光速比声速快，即使是由单个事件引起的，也会导致两种知觉自然地以轻微的偏移到达。然而，这种自然偏移并不总是 50 毫秒，研究表明大脑可以弥补这个问题的一种关键方法。Alais 和 Burr 提供的数据表明，大脑内存在一个主动过程，可以利用听觉刺激的深度线索将其在时间上与视觉对齐^[27]。通过信号中直接能量和混响能量的能量比，可以可靠地推断出听觉刺激源的距离^[28]。然后，大脑似乎利用对声速的固有知识来确定特定距离引起的时滞。这种声速的近似值很可能是基于经验的，并在每次连续的感官体验中得到改进^[29]。

SC 的中间层也在注意力分配方面起着重要作用，包括自动（外源性）和自愿（内源性）^[22]。在自愿注意的情况下，大脑可以主动地从 SC 层选择某些刺激，以将注意力和处理集中在这些刺激上。此外，更引人注目的刺激往往被认为比那些不太显着的刺激发生得早，即使它们实际上是同时发生的。这样，如果物体的颜色和运动方向同时改变，颜色变化被认为先发生，因为它吸引了大脑更多的直接注意力^[22]。

低级感官整合

前面的例子讨论了通过各种复杂程度的神经过程实现的感官整合。但感官整合也发生在更低、更本能的水平上。

例如，前庭系统提供了大量的感官信息。它负责检测我们身体的运动、保持平衡并确定我们在空间中的方位。为了做到这一点，它主要依赖于我们内耳中的机械系统，该系统解释半规管和耳石中的流体流动以确定我们头部相应的运动^[30]。前庭系统和视觉系统高度整合，最显著的是通过前庭-眼反射，该反射在检测到头部运动时引起眼球运动，以保持当前视野中的图像并保持平衡^[31]。（这类似于当我们旋转时被告知专注于一个特定点以防止或减少通常引起的恶心时）。当半规管检测到头部旋转时，刺激通过前庭神经发送到脑干中的前庭核。前庭核接收刺激，进而刺激对侧动眼神经核，其中包含诱导眼肌活动的神经元^[32]。这种跨模态刺激是自动发生的，无需真正对刺激进行神经处理，这与上面描述的其他多感官效应不同。

这种相互作用也会反过来发生，提供了低级多感官整合的一个很好的例子：即使我们没有移动，某些视觉运动也会刺激前庭系统^[33]。例如，当我们坐在静止的火车上，看着相邻的火车慢慢驶出车站时，我们会感觉到我们的火车正在移动。移动的图像刺激沿着 NOT（视束核）发送，导致前庭核中通常由头部运动引起的活动。我们的身体也会对诱发的刺激做出反应，调整我们的姿势以抵消感知到的（但实际上不存在的）加速度。同样，观看过山车的视角视频可能会让我们感到头晕，即使我们坐着不动。这样，前庭刺激可以直接驱动眼肌运动，而无需深层脑处理的参与。

↑ ^a ^b Stein, BE.; Stanford, TR,; Rowland, BA. (2009 年 12 月). “中脑多感官整合的神经基础：其组织和成熟”. Hear Res. 258(1-2):4-15.
↑ Lewkowicz DJ, Ghazanfar AA (2009 年 11 月). “通过感知狭窄出现的多种感觉系统”. Trends Cogn. Sci. (Regul. Ed.). 13 (11):470-8.
↑ McGurk H, MacDonald J (1976). “听到嘴唇，看到声音”. Nature. 264 (5588): 746-8.
↑ Shams L, Kamitani Y, Shimojo S (2000 年 12 月). “错觉。你看到的就是你听到的”. Nature. 408 (6814):788.
↑ Witten, IB.; Knudsen, El. (2005 年 11 月). “为什么看到就是相信：融合听觉和视觉词语”. Neuron. 48 (3):489-96.
↑ Colavita, F.B. Perception & Psychophysics (1974) 16: 409. doi:10.3758/BF03203962
↑ Occelli, V.; Harcher O'Brien, J.; Spence, C.; Zampini, M. “评估近空间和远空间中的听觉触觉 Colavita 效应”. Experimental brain research. 203 (3):517-532.
↑ Huddleston WE, Lewis JW, Phinney RE, DeYoe EA (2008). “基于听觉和视觉注意的表观运动共享功能平行性”. Perception & Psychophysics. 70 (7):1207-1216.
↑ Uetake, K.; Kudo, Y. (1994). “视觉在牛的摄食程序中对听觉的支配”. Applied Animal Behaviour Science. (42):1-9.
↑ Miller, L. (1973). “对维持在不同反应杠杆上反应的辨别性刺激的复合”. Journal of the Experimental Analysis of Behaviour. 20 (1):57-69.
↑ Ngo, MK.; Cadieux, ML.; Sinnet, S.; Soto-Faraco, S.; Spence, C. (2011). “逆转 Colavita 视觉支配效应”. Exp Brain Res. 214 (4):607-18.
↑ Welsh, RB.; Warren, DH. (1980). “对感觉间差异的直接知觉反应”. Psychol Bull. 88 (3):638-67.
↑ Alais, D.; Burr, D. (2003). “‘闪光滞后’效应发生在听觉和跨模态”. Curr. Biol. 13 (2003):59-63.
↑ Alais, D.; Burr, D. (2004). “腹语效应来自近乎最佳的双模态整合”. Curr. Biol. 14 (3):257-262.
↑ Stuart, A.; Ord, K. (1994). “肯德尔的统计学高级理论：第一卷 - 分布理论”.Edward Arnold, 8.7.
↑ Lee, Peter M. (2012). “第 1 章”. 贝叶斯统计. Wiley. ISBN 978-1-1183-3257-3.
↑ Deneve, S.; Pouget, A. (2004). “贝叶斯多感官整合和跨模态空间联系”. J. Physiol. Paris. 98 (1-3):249-258.
↑ Meredith, MA.; Stein, BE. (1986). “空间因素决定了猫上丘多感官神经元的活动”. Brain Res. 365 (2):530-533.
↑ Meredith, MA.; Nemitz, JW.; Stein, BE. (1987). “上丘神经元多感官整合的决定因素。I. 时间因素”. J Neurosci. 7 (10):3215-3229.
↑ Meredith, MA.; Stein, BE. (1983). “上丘中会聚感觉输入之间的相互作用”. Science. 221 (4608): 389-391.
↑ Bulkin, DA.; Groh, JM. (2006). “看到声音：视觉和听觉在脑中的相互作用”. Neurobiology. 16 (4):415-419.
↑ ^a ^b ^c ^d Burr, D.; Alais, D. (2006). “第 14 章。结合视觉和听觉信息”. 脑研究进展 155 (B):243-258.
↑ Bergman, RA.; Afifi, AK. (2005). 功能神经解剖学：文本与图谱. 纽约：麦格劳-希尔。ISBN 0-07-140812-6.
↑ Miller, LM.; D'Esposito, M. (2005). “感知融合和跨模态语音整合中的刺激重合”. J. Neurosci. 25 (25):5884-5893.
↑ ^a ^b Giard, MH.; Peronnet, F. (1999). “人类在多模态物体识别过程中的听觉-视觉整合：行为和电生理研究”. J Cogn Neurosci. 11 (5):473-490.
↑ Wallace, MT. (2004). “冗余目标效应和颜色与亮度的处理”. Exp Brain Res. 187 (1):153-160.
↑ Alais, D.; Carlile, S. (2005). “与真实事件同步：主观视听对齐随感知到的听觉深度和声速而变化”. Proc. Natl. Acad. Sci. USA. 102 (6):2244-2247.
↑ Bronkhorst, AW.; Houtgast, T. (1999). “房间中的听觉距离感知”. Nature. 397 (6719):517-520.
↑ Jacobs, RA. Fine, I. (1999). “纹理和运动线索对深度的经验依赖性整合”. Vision Res. 39 (24):4062-4075.
↑ http://neuroscience.uth.tmc.edu/s2/chapter10.html
↑ Straka H.; Dieringer N (2004). “VOR 的基本组织原则：来自青蛙的教训”. Prog. Neurobiol. 73 (4): 259–309.
↑ Angelaki, DE (2004 年 7 月). “眼睛盯着目标：在直线运动中神经元在眼球震颤反射中必须做些什么”. Journal of Neurophysiology. 92 (1): 20–35.
↑ Lawson, B.D.; Riecke, B.E. (2014). “身体运动的感知”. 虚拟环境手册. CRC 出版社。163-196.

[:0-1] Stein, BE.; Stanford, TR,; Rowland, BA. (2009 年 12 月). “中脑多感官整合的神经基础：其组织和成熟”. Hear Res. 258(1-2):4-15.

[2] Lewkowicz DJ, Ghazanfar AA (2009 年 11 月). “通过感知狭窄出现的多种感觉系统”. Trends Cogn. Sci. (Regul. Ed.). 13 (11):470-8.

[3] McGurk H, MacDonald J (1976). “听到嘴唇，看到声音”. Nature. 264 (5588): 746-8.

[4] Shams L, Kamitani Y, Shimojo S (2000 年 12 月). “错觉。你看到的就是你听到的”. Nature. 408 (6814):788.

[5] Witten, IB.; Knudsen, El. (2005 年 11 月). “为什么看到就是相信：融合听觉和视觉词语”. Neuron. 48 (3):489-96.

[6] Colavita, F.B. Perception & Psychophysics (1974) 16: 409. doi:10.3758/BF03203962

[7] Occelli, V.; Harcher O'Brien, J.; Spence, C.; Zampini, M. “评估近空间和远空间中的听觉触觉 Colavita 效应”. Experimental brain research. 203 (3):517-532.

[8] Huddleston WE, Lewis JW, Phinney RE, DeYoe EA (2008). “基于听觉和视觉注意的表观运动共享功能平行性”. Perception & Psychophysics. 70 (7):1207-1216.

[9] Uetake, K.; Kudo, Y. (1994). “视觉在牛的摄食程序中对听觉的支配”. Applied Animal Behaviour Science. (42):1-9.

[10] Miller, L. (1973). “对维持在不同反应杠杆上反应的辨别性刺激的复合”. Journal of the Experimental Analysis of Behaviour. 20 (1):57-69.

[11] Ngo, MK.; Cadieux, ML.; Sinnet, S.; Soto-Faraco, S.; Spence, C. (2011). “逆转 Colavita 视觉支配效应”. Exp Brain Res. 214 (4):607-18.

[12] Welsh, RB.; Warren, DH. (1980). “对感觉间差异的直接知觉反应”. Psychol Bull. 88 (3):638-67.

[13] Alais, D.; Burr, D. (2003). “‘闪光滞后’效应发生在听觉和跨模态”. Curr. Biol. 13 (2003):59-63.

[14] Alais, D.; Burr, D. (2004). “腹语效应来自近乎最佳的双模态整合”. Curr. Biol. 14 (3):257-262.

[15] Stuart, A.; Ord, K. (1994). “肯德尔的统计学高级理论：第一卷 - 分布理论”.Edward Arnold, 8.7.

[16] Lee, Peter M. (2012). “第 1 章”. 贝叶斯统计. Wiley. ISBN 978-1-1183-3257-3.

[17] Deneve, S.; Pouget, A. (2004). “贝叶斯多感官整合和跨模态空间联系”. J. Physiol. Paris. 98 (1-3):249-258.

[18] Meredith, MA.; Stein, BE. (1986). “空间因素决定了猫上丘多感官神经元的活动”. Brain Res. 365 (2):530-533.

[19] Meredith, MA.; Nemitz, JW.; Stein, BE. (1987). “上丘神经元多感官整合的决定因素。I. 时间因素”. J Neurosci. 7 (10):3215-3229.

[20] Meredith, MA.; Stein, BE. (1983). “上丘中会聚感觉输入之间的相互作用”. Science. 221 (4608): 389-391.

[21] Bulkin, DA.; Groh, JM. (2006). “看到声音：视觉和听觉在脑中的相互作用”. Neurobiology. 16 (4):415-419.

[:1-22] Burr, D.; Alais, D. (2006). “第 14 章。结合视觉和听觉信息”. 脑研究进展 155 (B):243-258.

[23] Bergman, RA.; Afifi, AK. (2005). 功能神经解剖学：文本与图谱. 纽约：麦格劳-希尔。ISBN 0-07-140812-6.

[24] Miller, LM.; D'Esposito, M. (2005). “感知融合和跨模态语音整合中的刺激重合”. J. Neurosci. 25 (25):5884-5893.

[:2-25] Giard, MH.; Peronnet, F. (1999). “人类在多模态物体识别过程中的听觉-视觉整合：行为和电生理研究”. J Cogn Neurosci. 11 (5):473-490.

[26] Wallace, MT. (2004). “冗余目标效应和颜色与亮度的处理”. Exp Brain Res. 187 (1):153-160.

[27] Alais, D.; Carlile, S. (2005). “与真实事件同步：主观视听对齐随感知到的听觉深度和声速而变化”. Proc. Natl. Acad. Sci. USA. 102 (6):2244-2247.

[28] Bronkhorst, AW.; Houtgast, T. (1999). “房间中的听觉距离感知”. Nature. 397 (6719):517-520.

[29] Jacobs, RA. Fine, I. (1999). “纹理和运动线索对深度的经验依赖性整合”. Vision Res. 39 (24):4062-4075.

[30] ttp://neuroscience.uth.tmc.edu/s2/chapter10.html

[31] Straka H.; Dieringer N (2004). “VOR 的基本组织原则：来自青蛙的教训”. Prog. Neurobiol. 73 (4): 259–309.

[32] Angelaki, DE (2004 年 7 月). “眼睛盯着目标：在直线运动中神经元在眼球震颤反射中必须做些什么”. Journal of Neurophysiology. 92 (1): 20–35.

[33] Lawson, B.D.; Riecke, B.E. (2014). “身体运动的感知”. 虚拟环境手册. CRC 出版社。163-196.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]