跳转到内容

感觉神经科学:听觉和言语/言语

来自维基教科书,开放世界中的开放书籍

语音感知是一个热门话题,因为它对人类交流至关重要。此外,也有一些有争议的说法。例如,我们可能有两个听觉系统:一个是用于言语,另一个是非言语。

语音的性质

[编辑 | 编辑源代码]

在正常的流利言语中,语音流相对不间断。单词之间没有空格 - 检测单词边界是心理语言学面临的一个主要问题。

国际音标 是一种字母,它通过单个字符唯一识别每个语音。IPA 符号将在本节中广泛使用;您最好熟悉这些符号及其用途。

音素
语言上最小的区别性声音单元。音素与字母、语素或音节不同。
字母
书面语言中的一个元素。至关重要的是,字母表中的字母与语言中的音素之间没有 的关系。
语素
具有语义意义的最小语言单元。Work 是一个语素;-ed 是另一个语素。Worked 是两个语素。
话语
一个完整的口语单位。

语言结构

[编辑 | 编辑源代码]

语言分析大致有四个级别。从最高级别开始

  • 句法 - 话语具有语法结构
  • 语义 - 一系列音素具有特定的含义
  • 音韵学 - 一个声音是一系列音素
  • 声学 - 一个声音具有某些属性

虽然自下而上的过程很明显,但也有明显的自上而下的影响。例如,音素恢复效应 非常稳健,类似的过程可以修复单个音素、单词甚至句子的输入级别。

如果你用白噪声、咳嗽或静音替换句子中的单个音素,听众仍然可以识别单词。

在句子“I scream, you scream, we all scream for ice cream”中,"I scream" 中的 /aɪ/ 与 "ice cream" 中的 /aɪ/ 之间没有区别 - 这两种情况下声音完全相同,但单词边界被认为是在不同的位置,这完全基于语境效应。

如果你在一个段落长度的语篇中插入一个语义无关的句子,听众不会理解它(但在句子之后会继续正常的感知)。

测量语音

[编辑 | 编辑源代码]

语音频谱图

[编辑 | 编辑源代码]
"I owe you" 的语音频谱图。

语音频谱图(注意这里的术语!)绘制频率与时间的关系图,并且强度(振幅,响度)由深色编码。这在质量上显示了语音随时间推移的展开方式。请注意,辅音是嘈杂的(不是响亮的!但在频率上是宽带的)。相比之下,元音具有原型化的水平能量带。这些带被称为共振峰。在辅音附近,一个或多个共振峰曲线 - 这是一个共振峰过渡。大多数元音是稳态的;它们不会随时间变化(单音节)。一些元音是双音节 - 它们在元音的过程中从一个频谱过渡到另一个频谱。

然而,语音频谱图不是很有用,因为它不是定量的。为此,我们可以使用一个语音频谱(注意这里的术语!)。

语音频谱

[编辑 | 编辑源代码]

语音频谱绘制了短时间内的 dB SPL 与频率的关系图:大约 40 毫秒。这本质上是语音频谱图的横截面切片。但是现在你无法看到声音如何随时间推移展开!

瀑布图

[编辑 | 编辑源代码]

瀑布图本质上是一系列语音频谱随时间变化,以 3D 形式排列。这克服了语音频谱图的局限性(显示了语音随时间推移的展开,但不是定量的),也克服了语音频谱的局限性(高度定性,但只显示了语音流的短片段)。

华夏公益教科书