跳转到内容

工程声学/源滤波理论

来自维基教科书,开放的书籍,为开放的世界

源滤波理论(Fant 1960)假设声学语音信号可以看作源信号,并用声门下方的声道腔体中的共振进行滤波。这种简单的语音合成模型基于以下假设:系统的动力学是线性的,并且可以分离为三个主要模块:声门能量(源)、声道(滤波器)和辐射声音的建模效果是相互独立的(如右侧图所示)。

声门源大致与声门下系统匹配,而声道(VT)对应于声门上系统。辐射模块可以看作一个转换器,它将体积速度转换为声压。通常,声门源的辐射特性 R(f) 和源函数 S(f) 的频谱包络是频率的平滑且单调的函数。然而,传递函数 T(f) 通常以几个峰值来表征,这些峰值对应于形成声道的声腔的共振。通过操纵这些腔体的形状,可以改变峰值的位置和幅度。左侧的图以定性的方式显示了对应于元音的声道配置。每种情况下都显示了源频谱 S(f)、传递函数 T(f)、辐射特性 R(f) 和声压 pr(f) 的形式。

传递函数 T(f) 是通过应用任意形状管道的声传播理论来确定的。对于高达 5000 Hz 的频率,声道的横向尺寸小于声音波长。因此,声传播可以看作是平行于管道轴线的平面波,声道可以看作是直径变化的声学管道。

声道传递函数

[编辑 | 编辑源代码]

声道近似为一个给定长度的声学管道,由多个不同截面积的截面组成。这等效于将采样声道传递函数 (H(s)) 建模为给定数量的频谱极点和零点的叠加,在频谱域中可以表示为

其中 K 为常数,sa1,sa2,..是 H(s) 的零点,s1,s2,... 是极点。对于这个等式,极点和零点主要以复共轭对的形式出现,这些复频率的实部远小于虚部,这意味着在一个周期内损失的峰值能量远小于在一个周期内的存储能量。因此,H(s) 的极点可以表示为以下形式

其中 Kp 为常数,星号表示复共轭。声道的固有频率由极点表示,虚部表示共振频率,即在没有激励的情况下发生振荡的频率,实部给出这些振荡的衰减速率。换句话说,根据声学管道的形状(主要受舌位的影响),通过它的声波会以某种方式反射,从而在某些频率上产生干涉,从而产生共振。这些共振被称为共振峰。它们的位置在很大程度上决定了听到的语音声音。

传递函数的声学解释

[编辑 | 编辑源代码]
文件:Vocal tract as tubes with varying cross section.jpg
声道作为横截面变化的管道

根据管道的声学原理,管道末端(x=L)的压力和体积速度可以与管道开始处(x=0)的变量相关联。以下传递矩阵表示频率域中管道两侧之间的声学关系

其中 K 为波数,L 为管长。上述关系式可用于计算已知场状态的另一个位置处的波场状态。

由于声道可以被视为具有不同横截面的 n 个管子(见右侧图),因此传递函数可用于关联声门和辐射声之间的状态。

声道的总方程变为

在此方程中,Zrad 为辐射阻抗。在约 6000 Hz 的频率下,声辐射阻抗可以近似写为

其中 A 为嘴部开口面积,a 为有效半径,Ks(f) 为无量纲频率相关因子,用于考虑头部对声音的阻挡效果。

系统的传递函数可以计算如下

因此,方程得出

可以看出,上面的方程用声源、滤波器和声源的辐射特性来表示嘴巴前部的压力。此方程描述了第一节中提到的源滤波理论。

声道壁和其他损失的影响

[edit | edit source]

在上一节中,声道被建模为一个没有损失的系统,除了终止阻抗项。然而,还有一些其他二阶效应是精确建模所必需的,例如壁面效应、热传导和粘度、声门开口。这些损失会改变共振频率的带宽。此外,它们也会改变或移动共振频率。

管中空气的共振频率

[edit | edit source]

声道形状与传递函数之间的关系很复杂——我们将在考虑均匀管子的简单情况下进行讨论。元音中的声道可以近似为一个一端封闭(声门)另一端开放(嘴唇)的管子。对于相对没有收缩的声道,17 厘米声道的共振发生在以下频率

f= n * c / 4 * L for n = 1, 3, 5, ...

f = 共振频率,单位为 Hz c = 声速,34000 厘米/秒 L = 声道长度,单位为厘米

因此,17 厘米声道的最低共振频率为

f = c / 4 * L = 34000 / 4 * 17 = 500 Hz

共振频率之间的间距为:f = 2 *c / 4 * L = c / 2 * L(始终是最低 f 的两倍)= 1000 Hz

因此,共振频率为:F1=500,F2=1500,F3=2500,F4=3500。

元音的双管声道模型

[edit | edit source]
File:Tube a.jpg
元音 /a/ 的双管模型
File:Tube i.jpg
元音 /i/ 的双管模型

两个不同横截面积的共振器或均匀管可以连接起来近似一些元音或辅音。在这种情况下,由于声学耦合,整个系统的自然频率并不仅仅是每个管的频率。figures() 显示了模拟元音/a/、/i/的不同管路配置。

典型值(对于成年男性声道的元音/a/)为 l1 = 8 cm,l2 = 9 cm,A1 = 5 cm2,A2 = 0.5 cm2。声学理论预测在 944 Hz、1063 Hz、2833 Hz 处会有共振。窄管和宽管可以被认为是具有共振频率的独立管,服从前一节中关于管的陈述。但是,两管之间的边界处的声学阻抗并不为零,因此影响了管的自然频率。组合系统的自然频率是连接处电抗之和为零的频率,即

需要注意的是,当管的自然频率彼此相距较远时,耦合的影响很小。

人声道的元音/i/的典型值为 l1 = 9 cm,l2 = 8 cm,A1 = 5 cm2,A2 = 0.5 cm2。因此,理论上,F1 = 202 Hz,F2 = 1890 Hz,F3 = 2125 Hz。

四管声道模型的元音

[edit | edit source]
File:Four tube model model.jpg
四管模型

四管元音模型比两管模型更能更好地估计更广泛元音的共振频率,因此是更受欢迎的元音建模方法。这种模型由一个唇管(管 1)、一个舌头收缩管(管 3)以及收缩管两侧的未收缩管组成。该模型由三个参数控制。它们是:i)管 3 中心的位置;ii)管 3 的横截面积;iii)唇部分的长度与横截面积之比。对于极端的背部收缩,管 4 会消失,而对于极端的正面收缩,管 2 会消失。

使用四管模型计算共振频率相当复杂,因此 Fant (1960) 提供了三个参数与所得共振频率之间关系的(相当复杂)图形表示。这些图形表示被称为列线图。这些列线图的原始版本为连续范围的 x 收缩位置(即从舌头收缩中心到声门的距离)提供了连续范围的所得 F1 到 F5 值。原始列线图针对 5 个唇面积 (A1) 值和两个舌头收缩横截面积 (A3) 值进行了此操作。对于不同的声管长度,需要计算不同的列线图。

四管、三参数模型能够对大多数元音声音进行足够准确的预测,但无法模拟元音的鼻化。

参考文献

[edit | edit source]

1- Kenneth N. Stevens,2000,声学语音学,麻省理工学院出版社。

2- Kinsler *等*,2000,声学基础,John Wiley & Sons。

3- Titze,I.R.(1994)。发声原理,Prentice Hall(目前由 NCVS.org 出版),ISBN 978-0137178933

4- James L. Flangam 和 Lawrence R. Rabiner,1973,语音合成。

华夏公益教科书