跳转到内容

感觉系统/听觉系统

来自维基教科书,开放的书籍,面向开放的世界

听觉的感官系统是听觉系统。本维基教科书涵盖了听觉系统的生理学及其在最成功的脑神经假体——人工耳蜗中的应用。声学的物理和工程学在另一本维基教科书“声学”中介绍。一个优秀的图像和动画来源是“进入听觉世界之旅” [1]

听觉能力在动物界不像其他感官(如触觉、味觉和嗅觉)那样广泛。它主要局限于脊椎动物和昆虫。[需要引用] 在这些动物中,哺乳动物和鸟类的听觉能力发展得最为完善。下表显示了人类和一些选定动物的频率范围:[需要引用]

人类 20-20'000 赫兹
鲸鱼 20-100'000 赫兹
蝙蝠 1'500-100'000 赫兹
鱼类 20-3'000 赫兹

检测声音的器官是耳朵。它充当收集声学信息并将其通过神经系统传递到大脑的接收器。耳朵包含听觉和平衡感的结构。它不仅作为听觉系统的一部分在接收声音方面起着重要作用,还在平衡感和身体位置感知中起着重要作用。

母子
正在唱歌的座头鲸
大耳镇森蝙蝠
红绿灯鱼

人类有一对耳朵对称地分布在头部的两侧,这使得定位声源成为可能。大脑提取和处理不同形式的数据以定位声音,例如

  • 鼓膜(耳膜)的声谱形状
  • 左右耳朵之间的声强差异
  • 左右耳朵之间的到达时间差异
  • 耳朵本身反射的到达时间差异(换句话说:耳廓(褶皱和脊的模式)以一种有助于定位声源的方式捕捉声波,特别是在垂直轴上。)


健康、年轻的人类能够听到 20 赫兹到 20 千赫兹之间的频率范围的声音。[需要引用] 我们对 2000 到 4000 赫兹之间的频率最为敏感[需要引用],这是口语词语的频率范围。频率分辨率为 0.2%[需要引用],这意味着人们可以区分 1000 赫兹和 1002 赫兹的音调。如果一个 1 千赫兹的声音使鼓膜(耳膜)偏转小于 1 埃[需要引用],这小于氢原子的大小,就可以检测到它。耳朵的这种极端敏感性可能解释了为什么它包含人体内最小的骨头:镫骨(镫骨)。它长 0.25 到 0.33 厘米,重量在 1.9 到 4.3 毫克之间。[需要引用]

以下视频概述了将在下一节中更详细介绍的概念。

此动画视频说明了声音如何传递到内耳,然后传递到大脑,在那里被解释和理解。内耳中的耳蜗是一个螺旋状的器官,包含感知声音振动的毛细胞。毛细胞将声音振动转换为听觉神经可以理解的化学信号。

听觉系统的解剖

[编辑 | 编辑源代码]
人类(外部)耳朵

本节的目的是解释人类听觉系统的解剖结构。本章说明了听觉器官的组成,按照声音感知过程中声学信息传递的顺序。
请注意,“感觉器官组成部分”的核心信息也可以在维基百科页面“听觉系统”上找到,除了本文中进行的一些更改,例如扩展和规范。(另请参见:维基百科 听觉系统

听觉系统感知声波,即气压变化,并将这些变化转换为电信号。然后,大脑可以处理、分析和解释这些信号。目前,让我们关注听觉系统的结构和组成部分。听觉系统主要由两部分组成:

  • 耳朵和
  • 听觉神经系统(中枢听觉系统)

耳朵是发生声音初级处理和感觉受体所在的位置。它由三部分组成

  • 外耳
  • 中耳
  • 内耳
人耳解剖图(绿色:外耳/红色:中耳/紫色:内耳)

功能:收集声能和放大声压。

围绕耳道(外耳道,外耳道)的软骨褶皱称为耳廓。它是耳朵的可见部分。声波在撞击耳廓时会反射和衰减,这些变化提供了额外的信息,帮助大脑确定声音来自哪个方向。声波进入听觉通道,这是一个看似简单的管道。耳道放大 3 到 12 千赫兹之间的声音。在耳道的尽头是鼓膜(耳膜),它标志着中耳的开始。

显示听小骨链相对位置的微型 CT 图像。

功能:将声能从空气传递到耳蜗。
声波在耳道中传播时会撞击耳膜(鼓膜)。这些波形信息通过一系列骨骼——锤骨、砧骨和镫骨——穿过充满空气的鼓室(中耳腔)。这些听小骨充当杠杆和电传打字机,将低压耳膜声音振动转换为高压声音振动,作用于另一层较小的膜,称为卵圆窗(或椭圆窗),它是通向内耳耳蜗的两个开口之一。第二个开口称为圆窗。它允许耳蜗中的液体移动。

锤骨通过锤柄与耳膜相连,而镫骨通过其基底板与卵圆窗相连。由于卵圆窗以外的内耳含有液体而不是空气,因此需要更高的压力。声音在听小骨链中并非均匀放大。中耳肌肉的镫骨反射有助于保护内耳免受损伤。

中耳仍然以波的形式包含声音信息;它在耳蜗中被转换为神经冲动。

耳蜗的结构图 耳蜗的横截面 MRI 扫描中的耳蜗和前庭系统

功能:将机械波(声音)转换为电信号(神经信号)。

内耳由耳蜗和几个非听觉结构组成。耳蜗是内耳中一个蜗牛形状的部分。它有三个充满液体的部分:鼓阶(下层廊)、蜗管(中层廊,耳蜗管)和前庭阶(上层廊)。耳蜗支撑一个由基底膜驱动的流体波,基底膜隔开两个部分(鼓阶和蜗管)。基底膜长约 3 厘米,宽度在 0.5 到 0.04 毫米之间。瑞氏膜(前庭膜)隔开蜗管和前庭阶。

蜗管中含有称为内淋巴液的细胞外液,以纪念安东尼奥·斯卡帕,也称为斯卡帕液。柯蒂氏器位于此管中,将机械波转换为神经元中的电信号。另外两个部分,鼓阶和前庭阶,位于充满称为外淋巴液的液体的骨迷路内。两种液体内淋巴液(在蜗管中)和外淋巴液(在鼓阶和前庭阶中)之间的化学差异对内耳的功能很重要。

柯蒂氏器

[编辑 | 编辑源代码]

柯蒂氏器形成一条感觉上皮带,沿着整个耳蜗纵向延伸。柯蒂氏器的毛细胞将流体波转换为神经信号。十亿条神经的旅程从这一步开始;从这里,进一步的处理会导致一系列听觉反应和感觉。

从耳朵到听觉神经系统的过渡

[编辑 | 编辑源代码]
通过柯蒂氏螺旋器横截面

毛细胞

[编辑 | 编辑源代码]

毛细胞是柱状细胞,每个细胞顶端都有 100-200 个特化的纤毛,因此得名。这些纤毛是听觉的机械感受器。较短的称为立体纤毛,最长的一个位于每个毛细胞束末端,称为动纤毛。动纤毛的位置决定了开启方向,即引起最大毛细胞兴奋的偏转方向。盖在最长纤毛上方的,是盖膜,它随着声音的每个周期来回移动,倾斜纤毛,使电流进入毛细胞。

毛细胞的功能至今尚未完全确定。目前,对毛细胞功能的了解使人们能够在听力损失的情况下用人工耳蜗来替换细胞。然而,更多关于毛细胞功能的研究可能有一天甚至可以使细胞得以修复。目前的模型是纤毛通过“顶端连接”相互连接,顶端连接是将一个纤毛的顶端连接到另一个纤毛的结构。顶端连接的拉伸和压缩,然后打开离子通道,在毛细胞中产生感受器电位。请注意,100 纳米的偏转已经可以激发 90% 的全部感受器电位。

神经元

[编辑 | 编辑源代码]

神经系统区分传递信息走向中枢神经系统的神经纤维和传递信息远离中枢神经系统的神经纤维

  • 传入神经元(也称为感觉神经元或感受器神经元)将神经冲动从感受器(感觉器官)传递到中枢神经系统
  • 传出神经元(也称为运动神经元或效应器神经元)将神经冲动中枢神经系统传递到效应器,如肌肉或腺体(以及内耳的纤毛细胞)

传入神经元支配耳蜗内毛细胞,在突触处,神经递质谷氨酸将信号从毛细胞传递到初级听觉神经元树突。

耳蜗中的内毛细胞数量远少于传入神经纤维。神经树突属于听神经的神经元,而听神经又与前庭神经汇合形成前庭耳蜗神经,即第八对脑神经。

来自大脑到耳蜗的传出投射也参与声音的感知。传出突触位于外毛细胞和内毛细胞下方的传入(朝向大脑)树突上。

听觉神经系统

[编辑 | 编辑源代码]

现在,声音信息以电信号的形式重新编码,沿着听神经(听觉神经、前庭耳蜗神经、第八对脑神经)传递,经过脑干的蜗核和上橄榄复合体等中间站以及中脑的下丘,在每个路点进一步处理。信息最终到达丘脑,然后被传递到皮层。在人脑中,初级听觉皮层位于颞叶。

初级听觉皮层

[编辑 | 编辑源代码]

初级听觉皮层是接收听觉输入的大脑皮层的第一区域。

声音感知与右侧颞上回后部(STG)相关。颞上回包含大脑中几个重要的结构,包括布罗德曼 41 区和 42 区,标记着初级听觉皮层的部位,即负责感知声音基本特征(如音调和节奏)的皮层区域。

听觉联想区位于大脑的颞叶内,在一个被称为韦尼克区或 22 区的区域。这个区域靠近外侧大脑沟,是处理声学信号的重要区域,因此可以将其区分为语音、音乐或噪音。

听觉信号处理

[编辑 | 编辑源代码]

现在已经勾勒出听觉系统的解剖结构,这个主题深入探讨了感知声学信息并将其转换为大脑可以处理的数据的过程中发生的生理过程。听觉从压力波撞击耳道开始,最终被大脑感知。本节详细介绍了将振动转换为感知的过程。

头部的影响

[编辑 | 编辑源代码]

波长短于头部的声波会在远离声源的耳朵上形成声影。当波长长于头部时,声波的衍射会导致两耳的声强近似相等。

响度和时间的差异有助于我们定位声音信号的来源。

耳廓的声波接收

[编辑 | 编辑源代码]

耳廓通过其波纹形状收集空气中的声波,对来自背后的声音和来自前面的声音产生不同的影响。声波被反射和衰减或放大。这些变化将在以后帮助声音定位。

在外耳道中,3 到 12 kHz 之间的频率——对人类交流至关重要的范围——被放大。它充当共振器,放大传入的频率。

声音传导到耳蜗

[编辑 | 编辑源代码]

以波的形式进入耳廓的声音沿着耳道传播,直到到达中耳的起点,即耳膜(鼓膜)。由于内耳充满液体,所以中耳是一种阻抗匹配装置,用于解决声音能量在从空气到液体的过渡中反射的问题。例如,在从空气到水的过渡中,99.9% 的传入声音能量被反射。这可以通过以下公式计算


其中,Ir 表示反射声的强度,Ii 表示入射声的强度,Zk 表示两种介质的声阻抗(Zair = 414 kg m-2 s-1 和 Zwater = 1.48*106 kg m-2 s-1)。影响阻抗匹配的三个因素是:

  • 鼓膜和卵圆窗之间的相对尺寸差异
  • 中耳听骨的杠杆作用,以及
  • 鼓膜的形状。
中耳放大效应的力学原理。

声波的气压纵向变化会导致鼓膜振动,进而使连接的三个听骨——锤骨、砧骨和镫骨——同步振动。这些骨骼作为一个整体振动,将能量从鼓膜传递到卵圆窗。此外,声能还会因膜与镫骨足板的面积差异而进一步增强。中耳充当阻抗转换器,将鼓膜收集的声能转换为更大的力和小幅度的运动。这种机制有助于将空气中的声波转换为耳蜗内液体的振动。这种转换是由镫骨足板的活塞式进出运动实现的,镫骨足板位于卵圆窗中。足板的这种运动使耳蜗内的液体运动起来。

通过人身上最小的肌肉——镫骨肌,中耳具有门控功能:收缩该肌肉会改变中耳的阻抗,从而保护内耳免受响亮声音的损伤。

耳蜗的频率分析

[edit | edit source]

耳蜗的三个充满液体的腔室(前庭阶、中阶、鼓阶)由基底膜和瑞氏膜隔开。耳蜗的功能是根据声音频谱分离声音,并将其转化为神经编码。当镫骨足板压入前庭阶的淋巴液时,瑞氏膜会随之弯曲进入中阶。瑞氏膜的这种伸长会导致中阶内的内淋巴液流动,并引起基底膜的位移。耳蜗内声频的分离归因于基底膜的特殊性质。耳蜗内的液体振动(由于镫骨足板的进出运动)使基底膜运动,就像一个行波一样。波从基底开始,向耳蜗顶端传播。基底膜内的横向波以


的速度传播,其中 μ 表示剪切模量,ρ 表示材料密度。由于基底膜的宽度和张力发生变化,沿着膜传播的波速也发生变化,从卵圆窗附近的约 100 m/s 变为顶端附近的约 10 m/s。

在基底膜上,有一个点,波的幅度在该点急剧下降。在这一点上,耳蜗液体的声波会产生基底膜的最大位移(峰值幅度)。波在到达该特征点之前传播的距离取决于入射声的频率。因此,基底膜的每个点对应于一个特定的激励频率值。低频声波在到达其特征点之前比高频声波传播的距离更远。频率沿着基底膜进行标度,高频位于基底,低频位于耳蜗顶端。

行波最大幅度的位置 x 与激励频率呈一对一对应关系。

通过基底膜最大位移的位置来识别频率,称为频率的音调编码。它自动解决了两个问题:

  • 它自动将后续的频率处理并行化。这种音调编码一直保持到皮层。
  • 我们的神经系统用动作电位传递信息,动作电位的频率限制在 500 Hz 以下。通过音调编码,更高的频率也可以被准确地表示。
动作电位具有恒定的形状。由于在不应期期间,Na 离子通道被主动阻断,动作电位的最大频率约为 500 Hz,远低于人类语音所需的频率。

耳蜗的感官转导

[edit | edit source]

大多数日常声音是由多个频率组成的。大脑处理的是不同的频率,而不是完整的声音。由于其非均质特性,基底膜执行了对傅里叶变换的近似。因此,声音被分解成不同的频率,膜上的每个毛细胞对应于一个特定的频率。频率的响度由相应传入纤维的发射率编码。这是由于基底膜上行波的幅度取决于入射声音的响度。

听觉或前庭毛细胞的转导机制。使毛细胞朝向动纤毛倾斜会打开钾离子通道。这会改变毛细胞的受体电位。由此产生的神经递质释放会导致突触后细胞产生动作电位 (AP)。
听觉毛细胞与前庭系统的毛细胞非常相似。这是一张青蛙耳囊毛细胞的电子显微镜图像。
青蛙毛细胞的另一个例子。

听觉系统的感官细胞,称为毛细胞,位于柯蒂氏器内的基底膜上。每个柯蒂氏器包含约 16,000 个这样的细胞,由约 30,000 个传入神经纤维支配。毛细胞有两种在解剖学和功能上截然不同的类型:内毛细胞和外毛细胞。沿着基底膜,这两种类型排列成一排内细胞和三到五排外细胞。大部分传入神经支配来自内毛细胞,而大部分传出神经支配来自外毛细胞。内毛细胞影响连接到这些毛细胞的单个听觉神经纤维的放电率。因此,内毛细胞将声音信息传递到更高的听觉神经中枢。相比之下,外毛细胞通过向膜运动注入能量并减少摩擦损失来放大基底膜的运动,但不参与声音信息的传递。基底膜的运动会使立体纤毛(毛细胞上的毛发)偏转,并导致毛细胞的细胞内电位降低(去极化)或升高(超极化),具体取决于偏转的方向。当立体纤毛处于静止位置时,会有一股稳定的电流流过细胞的通道。因此,立体纤毛的运动会调节该稳定电流周围的电流流动。

让我们分别看看两种不同毛细胞类型的作用方式。

  • 内毛细胞

毛细胞立体纤毛的偏转会打开机械门控离子通道,允许少量带正电的钾离子 (K+) 进入细胞,导致细胞去极化。与许多其他电活性细胞不同,毛细胞本身不会产生动作电位。相反,来自中阶内淋巴液的正离子流入会使细胞去极化,导致受体电位产生。这种受体电位会打开电压门控钙通道;钙离子 (Ca2+) 然后进入细胞并触发细胞基底端的神经递质释放。神经递质会扩散到毛细胞和神经末梢之间的狭窄空间,在那里它们与受体结合,从而触发神经中的动作电位。通过这种方式,神经递质会增加第八对脑神经的发射率,并将机械声音信号转换为电神经信号。
毛细胞的复极化以一种特殊的方式完成。鼓阶的淋巴液中正离子浓度非常低。电化学梯度使正离子通过通道流向淋巴液。(另请参阅:维基百科 毛细胞

  • 外毛细胞

在人类的外毛细胞中,受体电位触发细胞体的主动振动。这种对电信号的机械响应被称为体细胞电动力学,并驱动细胞长度的振荡,这种振荡发生在传入声音的频率上,并提供机械反馈放大。外毛细胞仅在哺乳动物中进化。如果没有功能正常的外毛细胞,灵敏度将下降约 50 dB(由于基底膜中更大的摩擦损失,这将抑制膜的运动)。它们还提高了频率选择性(频率辨别能力),这对人类来说尤其有利,因为它能够实现复杂的语音和音乐。(另请参见:维基百科 毛细胞

在没有外部刺激的情况下,听觉神经纤维以随机时间序列发射动作电位。这种随机时间发射称为自发活动。纤维的自发放电率从非常慢的速率到每秒高达 100 次不等。根据纤维是否以高、中或低速率自发发射,将其分为三组。具有高自发率(> 每秒 18 次)的纤维往往比其他纤维对声音刺激更敏感。

神经冲动的听觉通路

[编辑 | 编辑源代码]
外侧丘系以红色表示,因为它连接着耳蜗核、上橄榄核和下丘。从后面看。

因此,在内毛细胞中,机械声音信号最终转化为电神经信号。内毛细胞与听觉神经纤维相连,这些纤维的细胞核形成螺旋神经节。在螺旋神经节中,电信号(电脉冲、动作电位)产生,并沿着听觉神经的耳蜗支(第八对脑神经)传到脑干的耳蜗核。

从那里,听觉信息至少分成两条流

  • 腹侧耳蜗核

一条流是腹侧耳蜗核,它进一步分成腹后侧耳蜗核 (PVCN) 和腹前侧耳蜗核 (AVCN)。腹侧耳蜗核细胞投射到一组称为上橄榄复合体的核中。

上橄榄复合体:声音定位

[编辑 | 编辑源代码]

上橄榄复合体 - 一小块灰质 - 被认为参与方位平面(即它们向左或向右的程度)上的声音定位。声音定位有两个主要线索:双耳强度差 (ILD) 和双耳时间差 (ITD)。ILD 测量耳朵之间声音强度的差异。这对高频声音(超过 1.6 kHz)有效,此时波长小于耳朵之间的距离,造成头部阴影 - 这意味着高频声音以较低的强度击中偏转的耳朵。低频声音不会投射阴影,因为它们会绕过头部。然而,由于波长大于耳朵之间的距离,进入耳朵的声音波之间存在相位差 - ITD 测量的时间差。这对于低于 800 Hz 的频率非常精确,此时耳朵距离小于波长的一半。通过外耳帮助确定中平面(前方、上方、后方、下方)的声音定位,外耳形成方向选择性滤波器。

在那里,比较每个耳朵中声音信息的时差和响度差异。声音强度的差异在侧上橄榄复合体的细胞中处理,时间差(运行时间延迟)在中上橄榄复合体中处理。人类可以检测到左右耳之间的时间差低至 10 μs,对应于声音位置约 1 度的差异。这种对来自双耳的声音信息的比较,可以确定声音来自哪个方向。上橄榄核是第一个双耳信号汇聚并可进行比较的节点。作为下一步,上橄榄复合体通过称为外侧丘系的轴突束将信息传递到下丘。下丘的功能是在将信息发送到丘脑和听觉皮层之前整合信息。有趣的是,附近的丘显示出听觉和视觉刺激的相互作用。

  • 背侧耳蜗核

背侧耳蜗核 (DCN) 分析声音的质量,并通过外侧丘系直接投射到下丘。

从下丘,来自腹侧和背侧耳蜗核的听觉信息传递到丘脑的听觉核,即内侧膝状核。内侧膝状核进一步将信息传递到初级听觉皮层,这是负责处理听觉信息的人类大脑区域,位于颞叶。初级听觉皮层是参与声音意识感知的第一个中继站。

初级听觉皮层和高级听觉区域

[编辑 | 编辑源代码]

到达初级听觉皮层(布罗德曼区 41 和 42)的声音信息。初级听觉皮层是参与声音意识感知的第一个中继站。已知它具有音调排列,并执行听觉的基本功能:音调和音量。根据声音的性质(语音、音乐、噪音),它将被进一步传递到高级听觉区域。是词语的声音由韦尼克区(布罗德曼区 22)处理。该区域参与理解书面语言和口语(语言理解)。声音的产生(语言表达)与布罗卡区(布罗德曼区 44 和 45)相关。说话时产生所需声音的肌肉由运动皮层的颜面区域收缩,运动皮层的区域是参与计划、控制和执行随意运动功能的大脑皮层的区域。

大脑的侧面,布罗德曼区编号。

音高感知

[编辑 | 编辑源代码]

本节回顾了听觉神经科学中的一个关键主题:音高感知。假定对听觉系统有一些基本了解,因此鼓励读者首先阅读上面关于“听觉系统的解剖结构”和“听觉信号处理”的部分。

音高是一种主观感知,由具有近似周期性的声音引起。对于许多自然发生的声音,声音的周期性是音高的主要决定因素。然而,声音刺激和音高之间的关系相当抽象:特别地,音高对其他声音参数(如响度或频谱音色)的变化非常鲁棒,这两种变化可能会显着改变声音波形的物理特性。这在没有共享频谱成分的声音可以引起相同音高的案例中尤为明显。因此,必须从多个频率通道中表示的频谱和/或时间线索中提取音高相关信息。

对听觉系统中音高编码的研究主要集中在识别反映这些提取过程的神经过程,或找到这种过程的“终点”:对听众感知的音高的明确、稳健的表示。这两种努力都取得了一些成功,越来越多的证据表明在推定的“音高区域”中存在“音高选择性神经元”。然而,这些区域的活动是否真正与音高有关,或者它们是否只是表现出对音高相关参数的选择性表示,这仍然存在争议。一方面,证明特定神经元或神经区域对许多引起音高的声音的激活,这些声音的物理特征往往存在很大差异,提供了这些区域确实在编码音高的令人信服的相关证据。另一方面,证明这些神经元代表音高的因果证据很困难,可能需要结合体内记录方法来证明这些反应与音高判断的对应关系(即,心理物理学反应,而不仅仅是刺激周期性),以及直接操纵这些细胞的活动来证明音高感知中可预测的偏差或损害。

由于音调的抽象性,我们不会立即深入探讨这个尚未解决的活跃研究领域。相反,我们将从音调感知的最直接的物理对应物开始我们的讨论——即声音频率(对于纯音)以及更普遍的,刺激周期性。具体来说,我们将区分并更具体地定义周期性和音调的概念。在此之后,我们将简要概述听觉系统可能采用的主要计算机制,以从声音刺激中提取这种与音调相关的 信息。随后,我们将概述音调参数在耳蜗上升的皮层下听觉通路中的表示和处理,最后,概述在初级听觉皮层及更高级区域的更具争议性的发现,并评估这些皮质区域中“音调神经元”或“音调区域”的证据。

周期性和音调

[编辑 | 编辑源代码]

音调是一种新出现的听觉心理物理特性。音调的显著性和“高度”取决于几个因素,但在谐波和基频的特定范围内,称为“存在区域”,音调的显著性主要由声音片段重复的规律性决定;音调高度则由重复率决定,也称为调制频率。能够引起音调感知的声音集合是多种多样的,并且在频谱上是异质的。许多不同的刺激——包括纯音、点击序列、迭代的波纹噪声、幅度调制声音等等——都能引起音调感知,而其他声学信号,即使具有与这些刺激非常相似的物理特性,也可能不会引起音调感知。大多数自然存在的引起音调的声音是谐波复音——包含一系列频率的声音,这些频率是基频 F0 的整数倍。音调研究的一个重要发现是“缺失基频”现象(见下文):在一定频率范围内,谐波复音中 F0 的所有频谱能量都可以被移除,但仍然可以在人类听众中引起与 F0 相关的音调[2]。这一发现似乎可以推广到许多非人类听觉系统[3][4]

缺失基频的音调。“玛丽有一只小羊羔”旋律的音频频谱图。(左) 旋律用纯音(基频)演奏,(中) 旋律用基频和前六个谐波泛音演奏,(右) 旋律只用谐波泛音演奏,基频处的频谱能量被移除。正如左侧对应音频片段中所展示的那样,这三种旋律的音色不同,但音调不变,尽管缺失基频和纯音旋律在频谱成分上没有共同之处。





“缺失基频”现象有两个重要意义。首先,它是评估特定神经元或大脑区域是否专门用于音调处理的重要基准,因为这些单元应该表现出反映 F0(因此是音调)的活动,而不管其在声音和其他声学参数中是否存在。更一般地说,一个“音调神经元”或“音调中心”应该对所有引起特定音调高度感知的刺激表现出一致的活动。正如我们将讨论的那样,这已经成为识别推定的音调神经元或区域的一些分歧的根源。其次,我们能够感知到与 F0 相对应的音调,即使它不存在于听觉刺激中,也提供了强有力的证据,证明大脑并没有采用一种机制来“选择”F0 来直接推断音调。相反,音调必须从时间或频谱线索(或两者)中提取[5]

音调提取机制:频谱和时间线索

[编辑 | 编辑源代码]
已解析和未解析的谐波。复音的示意图频谱、激发模式和模拟基底膜(BM)振动,其 F0 为 100 Hz,谐波幅度相等。正如激发模式和 BM 振动中所看到的,高阶谐波是“未解析的”——也就是说,各个谐波之间没有有效的分离。(描述改编自原始作者。可从以下网站获得: http://www.europeanmedical.info/auditory-nerves/resolved-and-unresolved-harmonics-341-defining-resolvability.html)

这两个线索(频谱和时间)是两大类音调提取模型的基础[5]。第一个是时域方法,它们使用时间线索来评估声音是否包含重复的片段,如果有,则评估重复率。一种常用的方法是自相关。自相关函数本质上是找到两个采样点之间的时延,这些时延将产生最大相关性:例如,频率为 100 Hz(或周期 T=10 毫秒)的声音波在间隔 10 毫秒取样时将具有最大相关性。对于 200 Hz 波,产生最大相关性的时延将为 5 毫秒——但也将在 10 毫秒、15 毫秒等等。因此,如果对 F0=100 Hz 的谐波复音的所有组成频率执行这样的函数(因此具有 200 Hz、300 Hz、400 Hz 等等的谐波泛音),并且对产生最大相关性的时间间隔进行求和,它们将共同“投票”给 10 毫秒——声音的周期性。第二类音调提取策略是频域方法,其中通过分析声音的频谱来计算 F0,从而提取音调。例如,“模板匹配”过程——例如“谐波筛”——提出,声音的频谱只是与谐波模板匹配——最佳匹配将产生正确的 F0[6]

这两类解释都有局限性。频域方法要求谐波频率被解析——也就是说,每个谐波都表示为一个独立的频带(见图,右)。然而,高阶谐波由于更高频率的生理表示具有更宽的带宽(基底膜的对数音调拓扑结构组织的结果)而未解析,仍然可以引起与 F0 相对应的音调。时间模型没有这个问题,因为无论在单个频率通道还是跨越多个频率通道执行函数,自相关函数都应该产生相同的周期性。然而,很难将音调诱发频率的下限归因于自相关:听觉心理物理研究表明,我们可以从基频缺失的谐波复音中感知到低至 30Hz 的音调;这对应于超过 33 毫秒的采样延迟——远长于神经信号中通常观察到的 ~10 毫秒延迟[5]。    

正弦相位(左)和交替相位(右)谐波。这些复音具有相同的 F0(125 Hz)和相同的谐波数,但右侧复音的音调比左侧复音高八度。两个复音都在 3900 到 5400 Hz 之间进行滤波。(描述来自原始作者。可从以下网站获得: http://www.europeanmedical.info/auditory-nerves/resolved-and-unresolved-harmonics-341-defining-resolvability.html)

确定听觉系统采用这两种策略中的哪一种的一种策略是使用交替相位谐波:将奇数谐波呈现为正弦相位,将偶数谐波呈现为余弦相位。由于这不会影响刺激的频谱内容,因此如果听者主要依赖频谱线索,音调感知不应该发生变化。另一方面,时间包络重复率将翻倍。因此,如果采用时间包络线索,听者对交替相位谐波的感知音调将比具有相同频谱组成的全余弦谐波的感知音调高八度(即,频率的两倍)。听觉心理物理研究已经调查了音调感知对不同 F0 和谐波范围内的这种相位变化的敏感性,为人类[7]和其他灵长类动物[8]采用双重策略提供了证据:频谱线索用于低阶、已解析的谐波,而时间包络线索用于高阶、未解析的谐波。

上升听觉通路中的音调提取

[编辑 | 编辑源代码]

人类的音调辨别韦伯分数据报道低于 1%[9]。鉴于这种对音调变化的高度敏感性,以及频谱和时间线索都用于音调提取的证明,我们可以预测,听觉系统以非常精确的方式表示声学刺激的频谱组成和时间精细结构,直到这些表示最终被明确地传达给周期性或音调选择性神经元。

电生理实验已经识别出上升听觉系统中的神经元反应,这些反应与这一概念一致。从耳蜗的水平来看,基底膜 (BM) 对听觉刺激的反应呈音调映射,在 BM 轴上建立了一个 位置编码,用于表示频率成分。这些表示进一步被 相位锁定 增强,听觉神经纤维 (ANFs) 与其响应的频率成分相位锁定。这种表示频率成分的时间机制以多种方式进一步增强,例如毛细胞/螺旋神经节细胞突触处的 侧抑制[10],支持了这一精确表示对音高编码至关重要的观点。

因此,在这个阶段,ANFs 的相位锁定时间尖峰模式可能包含一个隐含的周期性表示。Cariani 和 Delgutte[11] 直接测试了这一点。通过分析猫 ANFs 中所有阶间尖峰间隔 (ISI) 的分布,他们发现最常见的 ISI 是刺激的周期性,这些分布的峰值与平均值的比率对于引起更显著音高感知的复杂刺激会增加。基于这些发现,这些作者提出了“主要间隔假说”,其中所有阶 ISIs 的汇总编码“投票”以确定周期性——当然,这一发现是 ANFs 相位锁定响应的必然结果。此外,有证据表明,频率成分的位置编码也至关重要。通过将低频刺激与高频载波交叉,Oxenham 等人将低频正弦波的时间精细结构转移到 BM 沿轴的高频区域。[12] 这导致音高辨别能力明显下降。因此,位置编码和时间编码都在 ANFs 中表示与音高相关的的信息。

听觉神经将信息传送到耳蜗核 (CN)。在这里,许多细胞类型以不同的方式表示与音高相关的的信息。例如,许多丛状细胞似乎在听觉神经纤维的放电特性上几乎没有差异——信息可能会在没有重大修改的情况下传送到更高阶的大脑区域[5]。腹侧耳蜗核中的持续斩波细胞特别令人感兴趣。根据 Winter 及其同事的研究,这些细胞中的一阶尖峰间隔对应于对迭代纹波噪声刺激 (IRN) 的反应中的周期性,以及对余弦相位和随机相位谐波复合体的反应,并且对声级相当不变[13]。虽然需要进一步表征这些细胞对不同音高诱发刺激的反应,但有一些迹象表明,音高提取可能早在 CN 水平就开始了。

在下丘 (IC) 中,有一些证据表明,神经元的平均反应速率等于刺激的周期性[14]。随后,通过比较 IC 神经元对同相和异相谐波复合体的反应进行的研究表明,这些细胞可能正在响应整体能量水平 (即包络) 的周期性,而不是真正的调制频率,但目前尚不清楚这是否仅适用于未解析的谐波 (正如心理物理学实验所预测的那样) 还是也适用于已解析的谐波[5]。关于 IC 中周期性的表示仍然存在很多不确定性。

听觉皮层中的音高编码

[edit | edit source]

因此,在上升听觉系统中,F0 的表示往往会增强,尽管其确切性质尚不清楚。然而,在上升听觉通路中的这些皮层下阶段,没有证据表明存在一个明确的表示,能够持续编码与感知音高相对应的信息。这些表示可能发生在“更高”的听觉区域,从初级听觉皮层开始。

事实上,损伤研究表明听觉皮层对音高感知的必要性。当然,听觉皮层损伤后音高检测能力的损害可能仅仅反映了皮层的一种被动传递作用:皮层下信息必须“通过”才能影响行为。然而,Whitfield 等人进行的研究所表明情况可能并非如此:虽然去皮层猫可以重新训练(在切除其听觉皮层后)识别由三个频率成分组成的复杂音调,但这些动物选择性地失去了将这些音调泛化到具有相同音高的其他复合体的能力[15]。换句话说,虽然谐波成分会影响行为,但谐波关系 (即音高线索) 却无法影响行为。例如,损伤的动物可以正确地响应 100Hz 的纯音,但不会响应由其谐波泛音组成的谐波复合体 (200Hz、300Hz 等)。这强烈地表明听觉皮层在进一步提取与音高相关的信息中起作用。

早期对初级听觉皮层的 MEG 研究表明,A1 包含一个音高图。这是基于以下发现:纯音与其缺失基频谐波复合体 (MF) 在相同位置诱发刺激诱发兴奋 (称为 N100m),而 MF 的成分频率单独呈现时在不同位置诱发兴奋[16]。然而,这些概念被使用更高空间分辨率技术的实验结果所掩盖:局部场电位 (LFP)多单元记录 (MUA) 表明,A1 的映射是音调的——也就是说,基于神经元的最佳频率 (BF),而不是最佳“音高”[17]。然而,这些技术确实表明,出现了反映提取时间和频谱线索的不同编码机制:在音调图的较高 BF 区域记录了时间包络重复率的相位锁定表示,而点击序列的谐波结构则在较低 BF 区域表示[18]。因此,音高提取的线索可能在这个阶段得到进一步增强。

多峰神经元示意图。 蓝色虚线显示了一个经典的频率选择性神经元的“单峰”调谐曲线,其最佳频率 (BF) 约为 500Hz,如该神经元对围绕该 BF 的频率的最大响应所示。红色实线显示了 Kadia 和 Wang (2003) 识别出的多峰神经元的示意图响应。除了 300Hz 的 BF 之外,该神经元还会被 600Hz 和 900Hz 的音调激发——即与主 BF 呈谐波关系的频率。虽然这里没有说明,但这些神经元对谐波复合体 (在本例中,例如,由 300、600 和 900 Hz 组成) 的响应通常具有加成效应,产生的响应大于单独的 300Hz 纯音 (即 BF)。请参见参考文献 [18]

Kadia 和 Wang 在狨猴的初级听觉皮层中描述了一个可能促进这种增强的神经元基质的例子[19]。这里大约 20% 的神经元可以被归类为“多峰”单元:神经元具有多个频率响应区域,通常呈谐波关系 (见图,右)。此外,这些频谱峰值的激发被证明对神经元的响应具有协同效应。因此,这将有助于提取声学刺激中谐波相关的音调,使这些神经元能够充当提取频谱线索的“谐波模板”。此外,这些作者观察到,在大多数“单峰”神经元 (即在 BF 处具有单个频谱调谐峰的神经元) 中,第二音调可能会对神经元对其 BF 的响应产生调节作用 (促进或抑制)。同样,这些调节频率通常与 BF 呈谐波关系。因此,这些促进机制可能会适应提取某些谐波成分,而通过抑制调节来拒绝其他频谱组合可能会促进与其他谐波复合体或非谐波复合体 (如宽带噪声) 的区分。

人类颞上平面中推定的“音高区域”。 (A) 左半球的侧视图,STG 以红色表示。(B–D) 左颞上平面的顶视图,在移除大部分顶叶皮层后。PP、HG 和 PT 分别以蓝色、黄色和绿色表示。主要的脑沟以黑色描绘 (FTS,第一横脑沟;SI,中间脑沟;HS,海希尔氏脑沟;HS1,第一海希尔氏脑沟;HS2,第二海希尔氏脑沟)。面板包括分别在 (B–D) 中具有一个 HG、HG 未完全分离和两个 HG 的半球。

然而,鉴于整个皮质下听觉系统中已证明增强 F0 的趋势,我们可能期望在皮层中更接近于对音高的更明确的表示。神经影像学实验已经探索了这一想法,利用音高的涌现特性:一种减法方法可以识别大脑中对音高诱发刺激有 BOLD 反应 的区域,但对另一个具有非常相似频谱特性的声音没有反应,但不会引起音高感知。Patterson、Griffiths 及其同事使用了这种策略:通过从呈现宽带噪声期间获得的 BOLD 信号中减去呈现 IRN 期间获得的信号,他们发现对后一类音高诱发声音的 [20] 的外侧(以及在某种程度上是内侧)Heschl 回旋(HG)的选择性激活。此外,随着时间的推移改变 IRN 的重复率以创造旋律,会导致颞上回 (STG) 和极顶 (PP) 的额外激活,这表明音高在听觉皮层中的分层处理。与之相符,Krumbholz 等人的 MEG 记录表明,随着 IRN 刺激的重复率增加,当重复率超过音高感知的下限时,在 HG 周围检测到一个新的 N100m,并且这种“音高启动反应”的幅度随着音高显著性而增加 [21]

然而,关于音高选择区域的精确位置存在一些争议。正如 Hall 和 Plack 指出,仅使用 IRN 刺激来识别音高敏感皮层区域不足以捕捉可以诱发音高感知的广泛刺激:HG 的激活可能特定于重复的宽带刺激 [22]。事实上,根据对多种音高诱发刺激的反应观察到的 BOLD 信号,Hall 和 Plack 认为颞平面 (PT) 与音高处理更相关。

尽管关于音高编码的特定神经区域的精确位置存在持续的争论,但这些证据表明,位于 A1 前外侧的区域可能专门用于音高感知。对狨猴听觉皮层中 A1 前外侧边界处发现的“音高选择性”神经元提供了对这一概念的进一步支持。这些神经元对纯音和具有相似周期性的缺失 F0 泛音都有选择性地反应 [23]。这些神经元中的许多也对其他音高诱发刺激(如点击列车或 IRN 噪声)的周期性敏感。这提供了强有力的证据表明,这些神经元不仅仅对声学信号的任何特定成分做出反应,而是专门代表与音高相关的信息。

周期性编码还是音高编码?

[edit | edit source]

越来越多的证据表明,可能存在专门用于提取 F0 的神经元和神经区域,很可能位于 A1 低 BF 区域的前外侧。然而,仍然难以将这些神经元或区域称为“音高选择性”。虽然刺激 F0 当然是音高的关键决定因素,但它并不一定等同于听众感知的音高。

然而,有几条证据表明,这些区域实际上是在编码音高,而不仅仅是 F0。例如,Bendor 及其同事对狨猴音高选择单元的进一步研究表明,这些神经元中的活动与动物的心理物理反应相一致 [8]。这些作者测试了动物在持续呈现相同相位泛音的同时检测交替相位谐波复音的能力,以区分动物何时更多地依赖时间包络线索进行音高感知,而不是频谱线索。与人类的心理物理实验一致,狨猴主要使用时间包络线索来感知低 F0 的高阶未解析泛音,而使用频谱线索来从高 F0 复音的低阶泛音中提取音高。记录这些音高选择性神经元显示,对于调整到低 F0 的神经元,交替相位泛音的 F0 调谐比相同相位泛音降低了一个八度。因此,这些神经元反应模式与心理物理结果一致,并表明时间和频谱线索在这 些神经元中被整合以影响音高感知。

然而,同样,这项研究无法明确区分这些音高选择性神经元是否明确地代表音高,还是仅仅代表 F0 信息的整合,然后会被随后解码以感知音高。Bizley 等人采取了一种更直接的方法来解决这个问题,他们分析了雪貂的听觉皮层 LFP 和 MUA 测量如何独立地用于估计刺激 F0 和音高感知 [24]。当雪貂参与音高辨别任务(指示目标人工元音声音的音高是否高于或低于 二择一强迫选择范式 中的参考)时,接收者操作特征 (ROC) 分析被用来估计神经活动在预测 F0 变化或实际行为选择(即感知音高的替代物)方面的可辨别性。他们发现,整个听觉皮层的神经反应都包含有关两者信息。最初,活动比动物的选择更能辨别 F0,但有关动物选择的信息在整个刺激后间隔内稳步增长,最终变得比 F0 变化的方向更具辨别性 [24]

比较所研究的皮层区域之间 ROC 的差异表明,后部区域的活动更好地辨别了雪貂的选择。这可以从两种方式解释。由于与选择相关的活动在后部区域(位于 A1 的低 BF 边缘附近)比在初级区域更高,因此这可以被视为 A1 低 BF 边缘附近存在音高选择性的进一步证据。另一方面,事实上在初级听觉区域也观察到与音高相关的信息,这可能表明到目前为止已经建立了足够的与音高相关的信息,或者多个听觉区域的分布式代码编码了音高。事实上,虽然分布在整个听觉皮层的单个神经元通常对多个声学参数敏感(因此不是“音高选择性”),但信息理论或神经度量分析(利用神经数据推断与刺激相关的信息)表明,音高信息仍然可以通过 群体编码 来稳健地表示,甚至可以通过单个神经元通过时间复用(即在不同的时间窗口中表示多个声音特征)来表示 [25] [26]。因此,在没有对这些假定的音高选择性神经元或区域进行刺激或失活以证明这种干预会导致音高预测性偏差或损伤的情况下,音高可能在听觉皮层中以空间和时间上的分布式代码表示,而不是依赖于专门的局部表示。

因此,电生理记录和神经影像学研究都表明,在 A1 的低 BF 边缘附近可能存在一个音高的明确神经代码。当然,对各种音高诱发刺激的一致且选择性反应表明,这些假定的音高选择性神经元和区域不仅仅反映了声学信号的任何直接可用的物理特征。此外,有证据表明,这些假定的音高选择性神经元从频谱和时间线索中提取信息的方式与动物相同。然而,由于音高与声学信号之间的抽象关系,这种刺激与神经反应之间的相关证据只能被解释为听觉系统具有形成对音高相关参数的增强表示的能力的证据。如果没有更多关于这些假定的音高选择性神经元和神经区域决定音高感知的直接因果证据,我们无法得出结论,动物是否真的依赖于这种局部的明确代码来感知音高,或者音高在整个听觉皮层的稳健分布式表示是否标志着听觉系统中音高的最终编码。    

参考文献

[edit | edit source]
  1. NeurOreille 和作者 (2010)。 "聆听世界之旅".
  2. Schouten, J. F. (1938)。主观音调的感知。荷兰皇家科学院院刊41,1086-1093。  
  3. Cynx, J. & Shapiro, M. 一种鸣禽物种 (Sturnus vulgaris) 对缺失基音的感知。J Comp Psychol 100, 356–360 (1986).
  4. Heffner, H. 和 Whitfield, I. C. (1976)。猫对缺失基频的感知。 美国声学学会杂志59(4), 915-919。
  5. a b c d e Schnupp, J., Nelken, I. 和 King, A。听觉神经科学:理解声音。 (麻省理工学院出版社,2011 年)。
  6. Gerlach, S., Bitzer, J., Goetze, S. 和 Doclo, S。音调和到达方向的联合估计:提高多说话人场景的稳健性和准确性。EURASIP 音频、语音和音乐处理杂志2014,1 (2014)。
  7. Carlyon RP,Shackleton TM (1994)。“比较已解析和未解析泛音的基频:两种音调机制的证据?” 美国声学学会杂志 95:3541-3554    
  8. a b Bendor D, Osmanski MS, Wang X (2012)。“灵长类动物听觉皮层中的双音调处理机制”, 神经科学杂志 32:16149-61。
  9. Tramo, M. J., Shah, G. D. 和 Braida, L. D. (2002)。听觉皮层在频率处理和音调感知中的功能作用。 神经生理学杂志87(1), 122-139。
  10. Rask-Andersen, H., Tylstedt, S., Kinnefors, A. 和 Illing, R. B. (2000)。人类螺旋神经节细胞的突触:透射电子显微镜和免疫组织化学研究。 听觉研究141(1), 1-11。
  11. Cariani, P. A. 和 Delgutte, B. (1996)。复杂音调音调的神经相关性。I。音调和音调显著性。 神经生理学杂志76(3), 1698-1716。
  12. Oxenham, A. J., Bernstein, J. G. 和 Penagos, H. (2004)。正确的 tonotopic 表征对于复杂音调感知是必要的。 美国国家科学院院刊101(5), 1421-1425。    
  13. Winter, I. M., Wiegrebe, L. 和 Patterson, R. D. (2001)。豚鼠腹侧耳蜗核中迭代起伏噪声延迟的时间表征。生理学杂志, 537(2), 553-566。
  14. Schreiner, C. E. 和 Langner, G。猫下丘的周期性编码。II。地形组织。神经生理学杂志60,1823–1840 (1988)。
  15. Whitfield IC (1980)。“听觉皮层和复杂音调的音调。”J Acoust Soc Am. 67(2):644-7。
  16. Pantev, C., Hoke, M., Lutkenhoner, B. 和 Lehnertz, K. (1989)。听觉皮层的 tonotopic 组织:音调与频率表征。科学246(4929), 486-488。
  17. Fishman YI, Reser DH, Arezzo JC, Steinschneider M (1998)。“清醒猴子初级听觉皮层中谐波复杂音调的音调与频谱编码”,大脑研究 786:18-30。    
  18. Steinschneider M, Reser DH, Fishman YI, Schroeder CE, Arezzo JC (1998) 清醒猴子初级听觉皮层的点击列车编码:支持两种音调感知机制的证据。J Acoust Soc Am 104:2935–2955。    
  19. Kadia, S. C. 和 Wang, X. (2003)。清醒灵长类动物 A1 中的频谱整合:具有单峰和多峰调谐特征的神经元。 神经生理学杂志89(3), 1603-1622。    
  20. Patterson RD, Uppenkamp S, Johnsrude IS, Griffiths TD。 (2002) “听觉皮层中时间音调和旋律信息的处理”,神经元 36:767-776。    
  21. Krumbholz, K., Patterson, R. D., Seither-Preisler, A., Lammertmann, C. 和 Lütkenhöner, B. (2003)。神经磁证据表明海希尔回旋中有音调处理中心。 大脑皮层13(7), 765-772。
  22. Hall DA, Plack CJ (2009)。“人脑听觉皮层的音调处理部位”,Cereb Cortex 19(3):576-85。    
  23. Bendor D, Wang X (2005)。“灵长类动物听觉皮层中音调的神经表征”,自然 436(7054):1161-5。    
  24. a b Bizley JK, Walker KMM, Nodal FR, King AJ, Schnupp JWH (2012)。“听觉皮层既代表音调判断,也代表相应的声学线索”,当代生物学 23:620-625。
  25. Walker KMM, Bizley JK, King AJ 和 Schnupp JWH。 (2011)。听觉皮层中声音特征的多路复用和稳健表征。神经科学杂志 31(41): 14565-76 
  26. Bizley JK, Walker KM, King AJ 和 Schnupp JW。 (2010)。“听觉皮层中刺激周期性的神经集合编码。”神经科学杂志 30(14): 5078-91。    


视觉系统 · 前庭系统

华夏公益教科书