感觉系统/听觉系统/音高处理
本节回顾听觉神经科学中的一个关键主题:音高感知。假设读者对听觉系统有一定的基本了解,因此建议读者首先阅读上述关于“听觉系统的解剖结构”和“听觉信号处理”部分。
音高是一种主观感知,由具有近似周期性的声音引起。对于许多自然发生的声音,声音的周期性是音高的主要决定因素。然而,声学刺激与音高之间的关系是相当抽象的:特别是,音高对其他声学参数的变化(如响度或音色)相当稳健,这些参数可能会显着改变声波的物理特性。这在没有共享频谱成分的声音可以引起相同音高的情况下尤其明显。因此,音高相关信息必须从跨多个频率通道表示的频谱和/或时间线索中提取。
对听觉系统中音高编码的研究主要集中在识别反映这些提取过程的神经过程,或者找到这种过程的“终点”:一个明确的、稳健的音高表示,正如听众感知的那样。这两项工作都取得了一些成功,证据表明在推定的“音高区域”中存在“音高选择性神经元”。然而,这些区域的活动是否真正与音高相关,或者它们只是表现出对音高相关参数的选择性表示,仍然存在争议。一方面,证明特定神经元或神经区域对许多引起音高的声音的反应,这些声音的物理特征往往有很大差异,这提供了令人信服的相关证据,表明这些区域确实在编码音高。另一方面,证明这些神经元代表音高的因果证据是困难的,可能需要结合体内记录方法来证明这些反应与音高判断(即心理物理反应,而不仅仅是刺激周期性)的对应关系,以及直接操纵这些细胞的活动以证明音高感知中可预测的偏差或损伤。
由于音高的抽象性质,我们不会立即深入这个尚未解决的活跃研究领域。相反,我们从音高感知的最直接的物理对应物开始讨论——即声音频率(对于纯音)以及更一般地,刺激周期性。具体来说,我们将区分和更具体地定义周期性和音高的概念。接下来,我们将简要概述听觉系统可能实施的主要计算机制,以从声音刺激中提取这些音高相关信息。随后,我们将概述在耳蜗、上升皮质下听觉通路以及最终在初级听觉皮层以及更深层的争议性发现中音高参数的表示和处理,并评估这些皮层区域中“音高神经元”或“音高区域”的证据。
音高是一种新兴的心理物理特性。音高的显著性和“高度”取决于几个因素,但在特定范围的谐波和基频(称为“存在区域”)内,音高的显著性主要由声音片段重复的规律性决定;音高高度由重复率决定,也称为调制频率。能够引起音高感知的声音集是多种多样的,并且在频谱上是异质的。许多不同的刺激——包括纯音、点击序列、迭代波纹噪声、幅度调制声音等等——都可以引起音高感知,而另一种声学信号,即使具有与这些刺激非常相似的物理特性,也可能不会引起音高。大多数自然发生的引起音高的声音是谐波复合体——包含一系列频率的声音,这些频率是基频 F0 的整数倍。音高研究的一个重要发现是“缺失基频”现象(见下文):在一定频率范围内,可以从谐波复合体中去除所有 F0 处的频谱能量,并且仍然可以在人类听众中引起与 F0 相关的音高[1]。这一发现似乎可以推广到许多非人类的听觉系统[2][3]。
演示:缺失基频的音高
|
|
无法收听这些文件?请查看媒体帮助。 |
“缺失基频”现象之所以重要,有两个原因。首先,它是一个重要的基准,用于评估特定神经元或大脑区域是否专门用于音高处理,因为这些单位应该预期表现出反映 F0(因此是音高)的活动,无论它是否存在于声音和其他声学参数中。更一般地说,“音高神经元”或“音高中心”应该对所有引起特定音高高度感知的刺激表现出一致的活动。正如我们将要讨论的那样,这在识别推定的音高神经元或区域方面一直存在一些分歧。其次,即使在听觉刺激中不存在 F0,我们也能感知到与 F0 相对应的音高,这为大脑实施了一种“选择”F0 以直接推断音高的机制提供了强有力的证据。相反,音高必须从时间或频谱线索(或两者)中提取出来[4]。
这两种线索(频谱和时间)是两种主要音高提取模型的基础[4]。其中第一个是时域方法,它利用时间线索来评估声音是否包含重复的片段,如果是,则评估重复的速率。一个常用的方法是自相关。自相关函数本质上是寻找两个采样点之间的时间延迟,以获得最大相关性:例如,频率为 100Hz(或周期,T=10 毫秒)的声音波,如果样本间隔 10 毫秒,将具有最大相关性。对于 200Hz 波,产生最大相关性的延迟将是 5 毫秒——但也将在 10 毫秒、15 毫秒等等。因此,如果对具有 F0=100Hz 的谐波复音的所有分量频率(因此具有 200Hz, 300Hz, 400Hz 等谐波泛音)执行此类函数,并且对产生最大相关性的时间间隔进行累加,它们将共同“投票”支持 10 毫秒——声音的周期性。第二类音高提取策略是频域方法,其中通过分析声音的频谱来计算 F0 来提取音高。例如,诸如“谐波筛”之类的“模板匹配”过程——提出声音的频谱只是与谐波模板相匹配——最佳匹配产生正确的 F0[5]。
两种解释方法都有局限性。频域方法要求谐波频率能够被解析——也就是说,每个谐波被表示为一个不同的频带(见图,右侧)。然而,由于更高频率的生理表征中具有更宽的带宽(这是基底膜的音调拓扑组织的对数结果),无法解析的更高阶谐波仍然可以唤起与 F0 相对应的音高。时间模型没有这个问题,因为自相关函数无论是在一个还是多个频率通道中执行,都应该产生相同的周期性。然而,很难将音高唤起频率的下限归因于自相关:心理物理学研究表明,我们可以感知来自具有缺失基音的谐波复音的音高,低至 30Hz;这对应于超过 33 毫秒的采样延迟——远长于神经信号中常见的约 10 毫秒延迟[4]。
确定听觉系统采用这两种策略中的哪一种策略的一种方法是使用交替相位谐波:将奇数谐波呈现为正弦相位,将偶数谐波呈现为余弦相位。由于这不会影响刺激的频谱内容,因此如果听众主要依靠频谱线索,音高感知不应该发生任何变化。另一方面,时间包络重复率会加倍。因此,如果采用时间包络线索,听众对交替相位谐波的感知音高将比具有相同频谱成分的全余弦谐波感知的音高高一个八度音(即频率的两倍)。心理物理学研究已经调查了音高感知对不同 F0 和谐波范围的这种相移的敏感性,提供了一些证据表明,人类[6]和其他灵长类动物[7]采用双重策略:频谱线索用于较低阶的已解析谐波,而时间包络线索用于较高阶的未解析谐波。
上升听觉通路中的音高提取
[edit | edit source]人类音高辨别的韦伯分数据报道低于 1%[8]。鉴于这种对音高变化的高度敏感性,以及频谱线索和时间线索都用于音高提取的证明,我们可以预测,听觉系统以高度精确的方式表示声学刺激的频谱成分和时间精细结构,直到这些表征最终被明确地传递到周期性或音高选择性神经元。
电生理实验已经确定了上升听觉系统中的神经元反应,这些反应与这种概念一致。从耳蜗水平开始,基底膜(BM)对听觉刺激的音调映射运动建立了位置编码,用于沿 BM 轴的频率组成。这些表征通过听觉神经纤维 (ANF) 对其响应的频率成分的相位锁定进一步增强。这种用于频率成分的时间表示机制通过多种方式得到进一步增强,例如毛细胞/螺旋神经节细胞突触的侧向抑制[9],支持了这种精确的表示对于音高编码至关重要的概念。
因此,在这个阶段,ANF 的相位锁定时间尖峰模式可能带有周期性的隐式表示。Cariani 和 Delgutte[10]直接测试了这一点。通过分析猫 ANF 中所有阶数的尖峰间间隔 (ISI) 的分布,他们表明最常见的 ISI 是刺激的周期性,并且这些分布的峰值与平均值比率对于唤起更明显音高感知的复杂刺激而言有所增加。基于这些发现,这些作者提出了“主要间隔假说”,其中所有阶数 ISI 的汇总编码“投票”支持周期性——当然,这一发现是 ANF 相位锁定响应的必然结果。此外,有证据表明频率成分的位置编码也很重要。通过将低频刺激与高频载波交叉,Oxenham 等人将低频正弦波的时间精细结构转置到 BM 沿的高频区域。[11] 这导致音高辨别能力明显下降。因此,位置编码和时间编码都在 ANF 中表示音高相关信息。
听觉神经将信息传递到耳蜗核 (CN)。在这里,许多细胞类型以不同的方式表示音高相关信息。例如,许多丛状细胞似乎在听觉神经纤维的放电特性方面几乎没有差异——信息可以传递到更高阶的大脑区域而不会发生重大改变[4]。腹侧耳蜗核中的持续斩波细胞特别令人感兴趣。根据 Winter 及其同事的说法,这些细胞中的一阶尖峰间隔对应于对迭代波纹噪声刺激 (IRN) 的响应的周期性,以及对余弦相位和随机相位谐波复音的响应,并且对声音水平几乎保持不变[12]。虽然需要进一步描述这些细胞对不同音高唤起刺激的反应,但因此有一些迹象表明音高提取可能早在 CN 水平就开始了。
在下丘 (IC) 中,有一些证据表明神经元的平均反应速率等于刺激的周期性[13]。随后的研究比较了 IC 神经元对同相和交替相位谐波复音的反应,表明这些细胞可能对整体能量水平(即包络)的周期性做出反应,而不是真正的调制频率,但目前尚不清楚这是否仅适用于未解析的谐波(正如心理物理学实验所预测的那样),还是也适用于已解析的谐波[4]。关于 IC 中周期性的表征,仍存在许多不确定性。
听觉皮层的音高编码
[edit | edit source]因此,在整个上升听觉系统中,存在着增强 F0 表征的趋势,尽管这种趋势的确切性质尚不清楚。然而,在上升听觉通路这些皮层下阶段,没有证据表明存在一个明确的表征,能够始终如一地编码对应于感知音高信息。这种表征可能发生在更高级的听觉区域,从初级听觉皮层开始。
事实上,病灶研究表明听觉皮层对于音高感知的必要性。当然,听觉皮层病灶后音高检测能力的损害,可能仅仅反映了皮层在被动传递中的作用:皮层下信息必须“通过”皮层才能影响行为。然而,Whitfield 等人的研究表明,情况可能并非如此:尽管去皮层猫能够在去除听觉皮层后重新训练以识别包含三个频率成分的复杂音调,但这些动物选择性地失去了将这些音调概括到具有相同音高的其他复杂音调的能力[14]。换句话说,虽然谐波组成可以影响行为,但谐波关系(即音高线索)却不能。例如,病灶动物可以正确地对 100Hz 的纯音作出反应,但不会对包含其谐波泛音的谐波复合体(200Hz、300Hz 等)作出反应。这强烈地表明听觉皮层在进一步提取音高相关信息中起着作用。
早期的 MEG 研究表明初级听觉皮层 (A1) 包含一个音高图。这是基于以下发现:纯音及其缺失基频谐波复合体 (MF) 在同一位置引起刺激诱发兴奋(称为 N100m),而 MF 的频率成分单独呈现时在不同位置引起兴奋[15]。然而,这种观点被使用更高空间分辨率技术的实验结果所掩盖:局部场电位 (LFP) 和 多单元记录 (MUA) 表明 A1 的映射是音调的——也就是说,基于神经元的最佳频率 (BF),而不是最佳“音高”[16]。然而,这些技术确实表明了反映提取时间和频谱线索的不同编码机制的出现:在音调图的较高 BF 区域记录到时间包络重复率的相位锁定表示,而在较低 BF 区域记录到点击序列的谐波结构[17]。因此,音高提取线索可能在这个阶段得到进一步增强。
Kadia 和 Wang 在狨猴的初级听觉皮层中描述了一种可能促进这种增强的神经基质[18]。这里约 20% 的神经元可以被归类为“多峰”单元:这些神经元具有多个频率响应区域,通常呈谐波关系(见图,右)。此外,两个频谱峰值的激发对神经元的响应具有协同效应。因此,这将促进从声学刺激中提取谐波相关的音调,使这些神经元充当提取频谱线索的“谐波模板”。此外,这些作者观察到,在大多数“单峰”神经元(即在 BF 处具有单个频谱调谐峰的神经元)中,二次音调可以对神经元对其 BF 的响应产生调节(促进或抑制)作用。同样,这些调节频率通常与 BF 呈谐波关系。因此,这些促进机制可以适应提取某些谐波成分,而通过抑制调节拒绝其他频谱组合可以促进与其他谐波复合体或非谐波复合体(如宽带噪声)的区分。
然而,鉴于 F0 增强的趋势已在整个皮层下听觉系统中得到证实,我们可能期望在皮层中更接近对音高的更明确的表示。神经影像学实验已经探索了这个想法,利用了音高的涌现特性:一种减法方法可以识别大脑中的区域,这些区域在响应于引起音高的刺激时显示出 BOLD 反应,但不会对具有非常相似频谱特性的其他声音做出反应,但不会引起音高感知。Patterson、Griffiths 及其同事使用了这种策略:通过从呈现 IRN 时获得的信号中减去呈现宽带噪声时获得的 BOLD 信号,他们发现对后一类引起音高的声音,外侧(以及在某种程度上,内侧)海希尔氏回 (HG) 的选择性激活[19]。此外,随着时间的推移,改变 IRN 的重复率以创建旋律导致颞上回 (STG) 和极平面 (PP) 的额外激活,表明音高通过听觉皮层的等级处理。与之相符,Krumbholz 等人的 MEG 记录表明,随着 IRN 刺激的重复率增加,当重复率超过音高感知的较低阈值时,在 HG 周围检测到一个新的 N100m,并且这种“音高起始反应”的幅度随着音高显著性而增加[20]。
然而,关于音高选择性区域的确切位置存在一些争议。正如 Hall 和 Plack 指出的那样,仅使用 IRN 刺激来识别音高敏感的皮层区域不足以捕捉能够诱发音高感知的广泛刺激范围:HG 的激活可能特定于重复的宽带刺激[21]。事实上,基于对多种引起音高的刺激的 BOLD 信号的观察,Hall 和 Plack 认为颞平面 (PT) 与音高处理更相关。
尽管关于音高编码专门的神经区域存在持续的争论,但这些证据表明,位于 A1 之前外侧的区域可能专门用于音高感知。狨猴听觉皮层 A1 之前外侧边界处“音高选择性”神经元的识别为这种观点提供了进一步的支持。这些神经元对纯音和具有相似周期性的缺失 F0 谐波都有选择性地响应[22]。这些神经元中的许多还对其他引起音高的刺激(如点击序列或 IRN 噪声)的周期性敏感。这提供了强有力的证据表明,这些神经元不仅仅对声学信号的任何特定成分做出反应,而是专门代表音高相关信息。
周期性编码还是音高编码?
[edit | edit source]因此,越来越多的证据表明,存在专门提取 F0 的神经元和神经区域,可能位于 A1 低 BF 区域的正前方外侧。然而,仍然难以将这些神经元或区域称为“音高选择性”。虽然刺激 F0 确实是音高的关键决定因素,但它不一定等同于听众感知的音高。
然而,有几条证据表明这些区域确实在编码音高,而不仅仅是 F0。例如,Bendor 及其同事对狨猴音高选择性单元的进一步研究表明,这些神经元的活动与动物的心理物理反应非常吻合[7]。这些作者测试了动物在持续呈现相同相位谐波的情况下检测交替相位谐波复合体的能力,以区分动物何时更多地依赖时间包络线索来感知音高,而不是频谱线索。与人类的心理物理实验一致,狨猴主要使用时间包络线索来感知低 F0 的高阶、未解析的谐波,而使用频谱线索来从高 F0 复合体中提取低阶谐波的音高。对这些音高选择性神经元的记录表明,对于调谐到低 F0 的神经元,交替相位谐波的 F0 调谐向下移了一个八度,而相同相位谐波则没有。因此,神经元响应的这些模式与心理物理结果一致,表明时间和频谱线索在这些神经元中被整合以影响音高感知。
然而,这项研究仍然无法明确区分这些音高选择性神经元是否明确地代表音高,或者仅仅是整合了 F0 信息,然后被随后解码以感知音高。 Bizley 等人采取了一种更直接的方法来解决这个问题,他们分析了在雪貂中听觉皮层 LFP 和 MUA 测量如何独立地用于估计刺激 F0 和音高感知[23]。当雪貂参与音高辨别任务(以指示目标人工元音声音的音高是否高于或低于 2-alternative forced choice paradigm 中的参考)时,receiver operating characteristic (ROC) 分析被用来估计神经活动在预测 F0 变化或实际行为选择(即感知音高的替代)方面的可辨别性。他们发现,听觉皮层的神经反应在这两者方面都具有信息量。最初,神经活动比动物的选择更能区分 F0,但关于动物选择的信息在整个刺激后间隔内稳步增长,最终比 F0 变化的方向更容易辨别[23]。
比较所研究的皮层区域之间的 ROC 差异表明,后部区域的活动更好地区分了雪貂的选择。这可以用两种方式解释。由于与选择相关的活动在后部区域(位于 A1 的低 BF 边界附近)更高,与主要区域相比,这可以被视为 A1 低 BF 边界附近音高选择性的进一步证据。另一方面,在初级听觉区域也观察到音高相关信息这一事实可能表明,在这个阶段已经建立了足够多的音高相关信息,或者多个听觉区域之间的分布式编码代表音高。事实上,虽然分布在整个听觉皮层上的单个神经元通常对多个声学参数敏感(因此不是“音高选择性的”),但信息论或神经度量分析(利用神经数据推断与刺激相关的信息)表明,音高信息可以通过 population coding 稳健地表示,甚至可以通过单个神经元通过时间复用(即在不同的时间窗口中表示多个声音特征)来表示[24][25]。因此,在没有对这些推定的音高选择性神经元或区域进行刺激或失活以证明这种干预会导致音高中的可预测偏差或损害的情况下,音高可能通过听觉皮层上的空间和时间分布式编码来表示,而不是依赖于专门的局部表示。
因此,脑电生理记录和神经影像学研究都表明,可能存在一个明确的音高神经编码,位于 A1 的低 BF 边界附近。当然,对各种音高诱发刺激的一致且选择性反应表明,这些推定的音高选择性神经元和区域不仅仅反映了声学信号中任何立即可用的物理特征。此外,有证据表明,这些推定的音高选择性神经元以与动物相同的方式从频谱和时间线索中提取信息。然而,由于音高与声学信号之间的抽象关系,刺激与神经反应之间的这种相关证据只能被解释为证据,表明听觉系统有能力形成对音高相关参数的增强表示。如果没有更多关于这些推定的音高选择性神经元和神经区域决定音高感知的直接因果证据,我们不能得出结论,动物是否确实依靠这种局部明确编码来表示音高,或者听觉皮层中音高的稳健分布式表示是否标志着听觉系统中音高的最终编码。
参考文献
[edit | edit source]- ↑ Schouten, J. F. (1938). The perception of subjective tones. Proceedings of the Koninklijke Nederlandse Akademie van Wetenschappen, 41, 1086-1093.
- ↑ Cynx, J. & Shapiro, M. Perception of missing fundamental by a species of songbird (Sturnus vulgaris). J Comp Psychol 100, 356–360 (1986).
- ↑ Heffner, H., & Whitfield, I. C. (1976). Perception of the missing fundamental by cats. The Journal of the Acoustical Society of America, 59(4), 915-919.
- ↑ a b c d e Schnupp, J., Nelken, I. & King, A. Auditory neuroscience: Making sense of sound. (MIT press, 2011).
- ↑ Gerlach, S., Bitzer, J., Goetze, S. & Doclo, S. Joint estimation of pitch and direction of arrival: improving robustness and accuracy for multi-speaker scenarios. EURASIP Journal on Audio, Speech, and Music Processing 2014, 1 (2014).
- ↑ Carlyon RP, Shackleton TM (1994). "Comparing the fundamental frequencies of resolved and unresolved harmonics: Evidence for two pitch mechanisms?" Journal of the Acoustical Society of America 95:3541-3554
- ↑ a b Bendor D, Osmanski MS, Wang X (2012). "Dual-pitch processing mechanisms in primate auditory cortex," Journal of Neuroscience 32:16149-61.
- ↑ Tramo, M. J., Shah, G. D., & Braida, L. D. (2002). Functional role of auditory cortex in frequency processing and pitch perception. Journal of Neurophysiology, 87(1), 122-139.
- ↑ Rask-Andersen, H., Tylstedt, S., Kinnefors, A., & Illing, R. B. (2000). Synapses on human spiral ganglion cells: a transmission electron microscopy and immunohistochemical study. Hearing research, 141(1), 1-11.
- ↑ Cariani, P. A., & Delgutte, B. (1996). Neural correlates of the pitch of complex tones. I. Pitch and pitch salience. Journal of Neurophysiology, 76(3), 1698-1716.
- ↑ Oxenham, A. J., Bernstein, J. G., & Penagos, H. (2004). Correct tonotopic representation is necessary for complex pitch perception. Proceedings of the National Academy of Sciences of the United States of America, 101(5), 1421-1425.
- ↑ Winter, I. M., Wiegrebe, L., & Patterson, R. D. (2001). The temporal representation of the delay of iterated rippled noise in the ventral cochlear nucleus of the guinea-pig. The Journal of physiology, 537(2), 553-566.
- ↑ Schreiner, C. E. & Langner, G. Periodicity coding in the inferior colliculus of the cat. II. Topographical organization. Journal of neurophysiology 60, 1823–1840 (1988).
- ↑ Whitfield IC (1980). "Auditory cortex and the pitch of complex tones." J Acoust Soc Am. 67(2):644-7.
- ↑ Pantev, C., Hoke, M., Lutkenhoner, B., & Lehnertz, K. (1989). Tonotopic organization of the auditory cortex: pitch versus frequency representation.Science, 246(4929), 486-488.
- ↑ Fishman YI, Reser DH, Arezzo JC, Steinschneider M (1998). "Pitch vs. spectral encoding of harmonic complex tones in primary auditory cortex of the awake monkey," Brain Res 786:18-30.
- ↑ Steinschneider M, Reser DH, Fishman YI, Schroeder CE, Arezzo JC (1998) Click train encoding in primary auditory cortex of the awake monkey: evidence for two mechanisms subserving pitch perception. J Acoust Soc Am 104:2935–2955.
- ↑ Kadia, S. C., & Wang, X. (2003). Spectral integration in A1 of awake primates: neurons with single-and multipeaked tuning characteristics. Journal of neurophysiology, 89(3), 1603-1622.
- ↑ Patterson RD, Uppenkamp S, Johnsrude IS, Griffiths TD. (2002) "The processing of temporal pitch and melody information in auditory cortex," Neuron 36:767-776.
- ↑ Krumbholz, K., Patterson, R. D., Seither-Preisler, A., Lammertmann, C., & Lütkenhöner, B. (2003). Neuromagnetic evidence for a pitch processing center in Heschl’s gyrus. Cerebral Cortex, 13(7), 765-772.
- ↑ Hall DA, Plack CJ (2009). "Pitch processing sites in the human auditory brain," Cereb Cortex 19(3):576-85.
- ↑ Bendor D, Wang X (2005). "The neuronal representation of pitch in primate auditory cortex," Nature 436(7054):1161-5.
- ↑ a b Bizley JK, Walker KMM, Nodal FR, King AJ, Schnupp JWH (2012). "Auditory Cortex Represents Both Pitch Judgments and the Corresponding Acoustic Cues," Current Biology 23:620-625.
- ↑ Walker KMM, Bizley JK, King AJ, and Schnupp JWH. (2011). Multiplexed and robust representations of sound features in auditory cortex. Journal of Neurosci 31(41): 14565-76
- ↑ Bizley JK, Walker KM, King AJ, and Schnupp JW. (2010). "Neural ensemble codes for stimulus periodicity in auditory cortex." J Neurosci 30(14): 5078-91.