感觉系统/计算机模型/语音感知

人类语音

发声器官

人类的声音是由发声器官产生的。虽然说话看起来毫不费力，但它需要肺、舌头、腭、嘴唇和牙齿的复杂运动协调。在皮层水平上，这种运动协调发生在布罗卡区。

术语

响度

声音的强度通常用分贝 (dB) 表示，定义为

SPL=20*log{\frac {p}{p_{0}}}

其中 SPL = “声压级”（以 dB 为单位），参考压力为 $p_{0}=2*10^{-5}N/m^{2}$ 。请注意，这远小于气压（约 10⁵ N/m²）！还要注意，声音通常以“听觉级”而不是 SPL 表示。

0 - 20 dB SPL ... 听觉级（正弦波形为 0 dB，从 1 kHz – 4 kHz）
60 dB SPL ... 中等响度的声音，日常谈话

基频，来自喉部声带的振动，成年男性约为 120 Hz，成年女性约为 250 Hz，儿童高达 400 Hz。

共振峰

共振峰是人类语音中的主导频率，是由声带在口腔等部位的信号共振引起的。共振峰在声音的频谱中显示为明显的能量峰值。它们按升序编号，从最低频率开始。

音素

语音通常被认为是由一系列称为“音节”的声学单元组成，它们对应于称为“音素”的语言单元。音素是最小的语音单元，能够区分不同的词语。例如，单词“dog”包含三个音素。分别更改第一个、第二个和第三个音素会产生单词“log”、“dig”和“dot”。英语据说包含 40 个不同的音素，如单词“dog”中的 /d/、/o/、/g/ 所指定。

语音感知

人类解码语音信号的能力仍然远远超过迄今为止开发的任何算法。虽然自动语音识别在识别信噪比高的环境中清晰的语音方面取得了相当大的成功，但一旦条件变得不太理想，识别算法与人类相比的表现往往很差。这似乎表明我们的计算机语音识别算法尚未接近捕获人类用来识别语音的底层算法。

有证据表明，语音感知在大脑中的路径与其他声音的感知路径有很大不同。虽然关于非语音声音反应的研究通常发现反应随刺激而分级，但语音研究反复发现，当呈现分级刺激时，反应会离散化。例如，Lisker 和 Abramson^[1]播放了预先发声的“b/p”音。声音被解释为 /b/ 还是 /p/ 取决于声音起始时间 (VOT)。他们发现，当平滑地改变 VOT 时，会发生突然的变化（在辅音播放后约 20 毫秒），受试者将他们的识别从 /b/ 转换为 /p/。此外，受试者在区分同一类别中的两种声音（例如，VOT 为 -10 毫秒到 10 毫秒的声音对，都将被识别为 /b/，以及 VOT 为 10 毫秒到 30 毫秒的声音对，将被识别为 b 和 p）方面遇到了很大困难。这表明某种分类方案正在进行。在尝试构建语音感知模型时遇到的主要问题之一是所谓的“不变性缺乏”，可以更直接地称为“变异性”。这个术语指的是一个音素（例如，sPeech 中的 /p/ 或 Piety 中的 /p/）具有多种映射到它的波形，并且声波形和音素之间的映射并非显而易见，并且高度依赖于上下文，但人类听者可靠地给出正确的结果。即使在上下文相似的情况下，波形也会因说话速度、说话者的身份以及说话的语调等因素而表现出很大程度的差异。因此，虽然没有公认的语音感知模型，但现有的模型可以分为两类：被动感知和主动感知。

被动感知模型

被动感知理论通常以与大多数感官信号处理算法相同的方式描述语音感知问题：一些原始输入信号进入，并通过一个层次结构进行处理，其中每个后续步骤从输入中提取越来越抽象的信号。早期被动模型的一个例子是区别特征理论。其理念是识别某些特征的二进制值集合的存在。例如，“鼻音/口音”、“元音/非元音”。该理论认为，音素被解释为这些特征存在或不存在的二进制向量。这些特征可以从声谱图数据中提取。其他被动模型，例如 Selfridge^[2] 和 Uttley^[3] 所描述的模型，涉及一种模板匹配，其中处理层级的层次结构提取越来越抽象的特征，并且对某些无关特征（例如在分类音素时说话人的身份）具有不变性。

主动感知模型

对语音感知有完全不同的看法是主动感知理论。这些理论指出，鉴于发声的能力与识别能力紧密相关，大脑拥有两个用于语音感知和语音产生的平行系统是多余的。这些理论的支持者认为，维护两个独立的数据库——一个包含识别音素的程序，另一个包含产生音素的程序——既浪费又复杂。他们认为，语音感知实际上是通过尝试复制传入的信号来完成的，因此使用相同的电路来进行音素产生和识别。语音感知的运动理论（Liberman 等人，1967）指出，语音声音的识别不是通过任何形式的模板匹配，而是通过使用语音生成机制来尝试重新生成语音信号的副本。它指出，音素不应被视为语音中隐藏的信号，而应被视为“线索”，生成机制试图在语音前信号中复制这些线索。该理论指出，大脑的语音生成区域通过不断听到自己的语音的反馈回路，学习哪些语音前信号会产生哪些声音。据说婴儿的咿呀学语是学习从前运动信号中生成这些“线索”声音的一种方式。^[4]

Stevens 和 Halle^[5] 在分析-合成模型中提出了类似的观点。这描述了一个生成模型，该模型试图生成与传入声音相似的信号。它基本上利用了语音生成机制在人与人之间相似，以及说话者可以复制人在语音中听到的特征这一事实。当说话者听到声音时，语音中心尝试生成传入的信号。比较器不断反馈生成质量。因此，“感知单位”与其说是对传入声音的抽象，不如说是生成相同语音的前运动命令。

当一系列关于现在被称为布罗卡失语症的研究发表时，运动理论遭到了严重打击。这种疾病会损害一个人产生语音声音的能力，而不会损害理解能力，而运动理论在其原始形式中指出，产生和理解是由相同的电路完成的，因此受损的语音产生应该意味着受损的语音理解。布罗卡失语症的存在似乎与这一预测相矛盾。^[6]

当前模型

语音感知的 TRACE 模型。输入层之外的所有连接都是双向的。每个单元代表语音的某个单元，例如单词或音素。

语音感知最具影响力的计算模型之一被称为 TRACE^[7]。TRACE 是一种类似神经网络的模型，它包含三层和递归连接方案。第一层按时间顺序从输入声谱图中提取特征，基本上模拟了耳蜗。第二层从特征信息中提取音素，第三层从音素信息中提取单词。该模型包含前馈（自下而上）兴奋连接、侧向抑制连接和反馈（自上而下）兴奋连接。在这个模型中，每个计算单元对应于感知的某个单元（例如音素 /p/ 或单词“荒谬”）。基本理念是，根据它们的输入，层内的单元将竞争以获得最强的输出。侧向抑制连接导致了一种“赢者通吃”的电路，其中输入最强的单元将抑制其邻居并成为明显的赢家。反馈连接使我们能够解释上下文相关理解的影响——例如，假设音素层根据其自下而上的输入无法确定它是否听到了 /g/ 或 /k/，但该音素位于“an”之前，后面是“ry”。/g/ 和 /k/ 单元最初将被同样激活，将输入发送到单词级别，该级别已经包含对应于单词（例如“anaconda”、“angry”和“ankle”）的兴奋单元，这些单词已由之前的“an”激活。/g/ 或 /k/ 的兴奋

↑ Lisker, L. (1970). "The voicing dimension: Some experiments in comparative phonetics". Proceedings of the 6th International Congress of Phonetic Sciences. Prague: Academia. {{cite book}}: Unknown parameter |coauthors= ignored (|author= suggested) (help); Unknown parameter |editors= ignored (|editor= suggested) (help)
↑ Selfridge, O.C (1959) "Pandemonium: a paradigm for learning". in Proceedings of the Symposium on Mechanisation of Thought Process. National Physics Laboratory.
↑ Uttley, A.M. (July 1966). "The transmission of information and the effect of local feedback in theoretical and neural networks". Brain Research. 2 (1): 21–50. doi:10.1016/0006-8993(66)90060-6.
↑ Liberman, M. T.; Mattingly, I. G.; Turvey (1967). "Language codes and memory codes". In Melton, A. W.; Martin, E. (eds.). Coding Processes in Human Memory. V. H. Winston & Sons. pp. 307–334. {{cite book}}: More than one of |first1= and |first= specified (help)
↑ Stevens, K. N.; Halle, M. (1967). "分析合成和区别特征的评论". 在 Wathen-Dunn, W. (编辑). 语音和视觉形式感知模型：研讨会论文集. 坎布里奇，马萨诸塞州：麻省理工学院出版社. pp. 88–102.
↑ Hickok, Gregory (2010年1月). "镜像神经元在语音和语言处理中的作用". 脑与语言. 112 (1): 1–2. doi:10.1016/j.bandl.2009.10.006.
↑ McClelland, James L; Elman, Jeffrey L (1986年1月). "TRACE 语音感知模型". 认知心理学. 18 (1): 1–86. doi:10.1016/0010-0285(86)90015-0.

[1] Lisker, L. (1970). "The voicing dimension: Some experiments in comparative phonetics". Proceedings of the 6th International Congress of Phonetic Sciences. Prague: Academia. {{cite book}}: Unknown parameter |coauthors= ignored (|author= suggested) (help); Unknown parameter |editors= ignored (|editor= suggested) (help)

[2] Selfridge, O.C (1959) "Pandemonium: a paradigm for learning". in Proceedings of the Symposium on Mechanisation of Thought Process. National Physics Laboratory.

[3] Uttley, A.M. (July 1966). "The transmission of information and the effect of local feedback in theoretical and neural networks". Brain Research. 2 (1): 21–50. doi:10.1016/0006-8993(66)90060-6.

[4] Liberman, M. T.; Mattingly, I. G.; Turvey (1967). "Language codes and memory codes". In Melton, A. W.; Martin, E. (eds.). Coding Processes in Human Memory. V. H. Winston & Sons. pp. 307–334. {{cite book}}: More than one of |first1= and |first= specified (help)

[5] Stevens, K. N.; Halle, M. (1967). "分析合成和区别特征的评论". 在 Wathen-Dunn, W. (编辑). 语音和视觉形式感知模型：研讨会论文集. 坎布里奇，马萨诸塞州：麻省理工学院出版社. pp. 88–102.

[6] Hickok, Gregory (2010年1月). "镜像神经元在语音和语言处理中的作用". 脑与语言. 112 (1): 1–2. doi:10.1016/j.bandl.2009.10.006.

[7] McClelland, James L; Elman, Jeffrey L (1986年1月). "TRACE 语音感知模型". 认知心理学. 18 (1): 1–86. doi:10.1016/0010-0285(86)90015-0.

[1]

[2]

[3]

[4]

[5]

[6]

[7]