数字信号处理/声音处理
数字领域的声音存储在一个或多个离散样本数组中,每个样本数组对应一个声道(例如,立体声需要两个声道,因此需要两个样本数组)。每个样本之间的时间间隔是常数,由要表示的数据类型决定。由于我们对声音感兴趣,并且人类听觉的极限上限通常被认为是 20 kHz,因此可以使用奈奎斯特-香农采样定理来确定样本之间的间隔,以便准确地重建我们感兴趣的信号。
该定理指出:
“ | 如果信号是基带的,并且采样频率大于信号带宽的两倍,则可以从其样本中精确地重建连续时间信号。 | ” |
本质上,这意味着一个限制在一定范围内的信号(可听声音:~20 Hz 到 20 kHz)可以在以大于带宽两倍的速率采样时无误地重建。 红皮书音频 CD 标准将采样率设置为 44,100 Hz。选择此频率是为了留下足够的开销(如奈奎斯特-香农定理所要求的那样),但至少可以支持高达 22 kHz。
44.1 kHz 是消费级设备上数字音频采样率的通用标准,但是 48 kHz 在处理电影或视频时很常见。此外,许多录音工程师更喜欢以 88.2 或 96 kHz 记录古典音乐或其他复杂的音乐——有些人声称能够感知到差异。
从 48 kHz 转换为 44.1 kHz 时,有时会发生声音模糊效应,因为计算是浮点运算,这在计算机上本质上是不精确的。从 88.2 kHz 转换为 44.1 kHz 或 96 kHz 转换为 48 kHz 更容易执行,因为执行转换的计算机或设备只需要丢弃一半的样本。为了绕过这个问题,可以使用高质量的数模转换器将例如 48 kHz 信号还原为模拟形式,然后馈送到另一个高质量的模数转换器以 44.1 kHz 的速率重新采样信号。这种技术是录音棚的常见做法,在录音棚中,可以信任高端设备完美地进行转换,但在其他情况下,软件或硬件中音频转换引起的声音失真可能无关紧要。
采样频率决定音频信号的时间分量,而每样本位数用于描述幅度。 红皮书音频 CD 将每个样本存储为 16 位有符号整数。这意味着,当将音频信号转换为在 CD 上使用时,每个样本的值都被量化为整数以适合 -32768 到 +32767 的范围。
波形文件包含代表音频声音的数据。此数据存储格式是一种未压缩格式。这意味着数据可以发送到数模处理器进行播放,而无需额外的解压缩步骤。这也意味着此格式将消耗大量的内存。