感觉神经科学:听觉和言语/言语
语音感知是一个热门话题,因为它对人类交流至关重要。此外,也有一些有争议的说法。例如,我们可能有两个听觉系统:一个是用于言语,另一个是非言语。
在正常的流利言语中,语音流相对不间断。单词之间没有空格 - 检测单词边界是心理语言学面临的一个主要问题。
国际音标 是一种字母,它通过单个字符唯一识别每个语音。IPA 符号将在本节中广泛使用;您最好熟悉这些符号及其用途。
- 音素
- 语言上最小的区别性声音单元。音素与字母、语素或音节不同。
- 字母
- 书面语言中的一个元素。至关重要的是,字母表中的字母与语言中的音素之间没有 的关系。
- 语素
- 具有语义意义的最小语言单元。Work 是一个语素;-ed 是另一个语素。Worked 是两个语素。
- 话语
- 一个完整的口语单位。
语言分析大致有四个级别。从最高级别开始
- 句法 - 话语具有语法结构
- 语义 - 一系列音素具有特定的含义
- 音韵学 - 一个声音是一系列音素
- 声学 - 一个声音具有某些属性
虽然自下而上的过程很明显,但也有明显的自上而下的影响。例如,音素恢复效应 非常稳健,类似的过程可以修复单个音素、单词甚至句子的输入级别。
如果你用白噪声、咳嗽或静音替换句子中的单个音素,听众仍然可以识别单词。
在句子“I scream, you scream, we all scream for ice cream”中,"I scream" 中的 /aɪ/ 与 "ice cream" 中的 /aɪ/ 之间没有区别 - 这两种情况下声音完全相同,但单词边界被认为是在不同的位置,这完全基于语境效应。
如果你在一个段落长度的语篇中插入一个语义无关的句子,听众不会理解它(但在句子之后会继续正常的感知)。
语音频谱图(注意这里的术语!)绘制频率与时间的关系图,并且强度(振幅,响度)由深色编码。这在质量上显示了语音随时间推移的展开方式。请注意,辅音是嘈杂的(不是响亮的!但在频率上是宽带的)。相比之下,元音具有原型化的水平能量带。这些带被称为共振峰。在辅音附近,一个或多个共振峰曲线 - 这是一个共振峰过渡。大多数元音是稳态的;它们不会随时间变化(单音节)。一些元音是双音节 - 它们在元音的过程中从一个频谱过渡到另一个频谱。
然而,语音频谱图不是很有用,因为它不是定量的。为此,我们可以使用一个语音频谱(注意这里的术语!)。
语音频谱绘制了短时间内的 dB SPL 与频率的关系图:大约 40 毫秒。这本质上是语音频谱图的横截面切片。但是现在你无法看到声音如何随时间推移展开!
瀑布图本质上是一系列语音频谱随时间变化,以 3D 形式排列。这克服了语音频谱图的局限性(显示了语音随时间推移的展开,但不是定量的),也克服了语音频谱的局限性(高度定性,但只显示了语音流的短片段)。