跳转到内容

声音合成理论/数字领域的声音

来自维基教科书,为开放世界提供开放书籍

数字领域的声音

[编辑 | 编辑源代码]

数字系统(如计算机)和格式(如 CD)显然是最流行和最普遍的存储和操作音频的方法。自 1980 年代初引入光盘以来,数字格式提供了越来越大的存储容量以及以可接受的质量存储音频信息的能力。虽然模拟格式仍然存在(黑胶磁带),但它们通常服务于利基受众。数字系统在现代音乐技术中无处不在。必须强调的是,关于模拟域或数字域是否优越没有争议,但以下内容提供了一些在数字域中处理音频的理想特征。

  • 存储。现代硬盘驱动器能够存储的数字音频数据量远远大于磁带系统。此外,我们可以选择捕获音频数据的质量,这与文件大小和其他因素直接相关。
  • 控制。通过以数字方式存储音频信息,我们可以对数据执行强大且复杂的操作,否则这些操作将非常难以实现。
  • 耐用性。数字音频可以在设备之间复制,没有任何信息丢失。此外,许多系统采用纠错码来弥补光盘等物理数字格式的磨损。

数字 <-> 模拟转换

[编辑 | 编辑源代码]

声学信息(声波)被视为信号。如前一章所示,我们传统上将这些信号视为随时间变化的幅度。在模拟系统中,这通常意味着幅度由连续电压表示;但在数字系统内部,信号必须存储为离散值的流。


图 2.1。数字 <-> 模拟转换过程的概述。


以这种方式存储的数字数据没有真正的物理意义;人们可以将计算机上的歌曲描述为仅仅是一个数组数字;这些数字没有意义,除非系统中存在一个能够适当地解释每个数字的过程。图 2.1 显示了捕获模拟声音并将其转换为数字值流以在这样的系统中存储和操作的过程概述。步骤如下


  1. 麦克风等输入将声学气压变化(声波)转换为电压变化。
  2. 模数转换器 (ADC) 通过在某个时间点对电压进行“快照”并根据其幅度为其分配一个值,将变化的电压转换为数字值的流。它通常每秒进行数千次这样的“快照”,其速率称为采样率
  3. 数值数据存储在数字系统上,然后由用户随后进行操作或分析。
  4. 数值数据被重新读取并从数字系统中流出。
  5. 数模转换器 (DAC) 将数字值的流转换回变化的电压。
  6. 扬声器将电压转换为气压变化(声音)。


尽管每个阶段的信号以不同的形式出现(声音能量、数字值等),但信息是类似的。但是,由于转换过程的性质,这些数据可能会被操作和扭曲。例如,ADC 中的低采样率值或其他因素可能意味着连续模拟信号没有用足够的细节表示,随后信息将被扭曲。麦克风等物理设备中也存在缺陷,这些缺陷会在某种程度上进一步“染色”信号。出于这个原因,音乐家和工程师的目标是使用最优质的设备和流程,以在整个过程中保持原始声音的完整性。音乐家和工程师也必须考虑他们的音乐在消费之前将经过的其他流程(无线电传输等)。

自然声学形式的声波可以被认为是连续的;也就是说,它们的时域图在所有缩放因子上都是光滑的线,没有任何断裂跳跃。我们不能有这些断裂,或不连续性,因为声音不能在两个值之间瞬时切换。这方面的一个例子可能是理想化的波形,如方波 - 在纸上,它在某个点瞬时地在 1 和 -1 幅度之间切换;然而,扬声器不能根据物理定律在没有时间的情况下跳跃到两个点之间,锥体必须沿着一条连续的路径从一个点移动到另一个点。

图 2.2。连续波形(灰色)的离散样本(红色)。

采样是将连续的声学波形转换为离散数字值流的过程。ADC 以固定的速率测量输入的幅度,从而创建代表波形数字的数值流。然后,通过将这些值传递到 DAC 并适当驱动扬声器来创建输出。通过每秒测量幅度数千次,我们创建了声音的“图像”,其质量足以让人耳辨别。我们越增加这种采样率,波形就越精确地表示和再现。

奈奎斯特-香农采样定理

[编辑 | 编辑源代码]

信号的频率对其表示有影响,特别是在非常高的频率下。如前一章所述,正弦波的频率是每秒的周期数。如果我们的采样率为每秒 20000 个样本(20 kHz),那么很明显,像 9000 Hz 这样的高频正弦波将比 150 Hz 的正弦波具有更少的“快照”。最终,会达到一个点,即没有足够的采样点来记录波形的周期,这导致了以下重要要求


采样率必须大于表示的最大频率的两倍。


为什么呢?表示正弦波所需的最小采样点数是两个,但我们需要至少稍微多一点,这样我们就不依赖于相位(样本正好是正弦波频率的两倍,样本可能落在正弦波的峰值上,或落在零交叉点上)。在此时可能很明显,使用仅两个点来表示像正弦波这样的连续曲线会导致粗略的近似 - 方波。在数字系统内部,情况确实如此。但是,ADC 和 DAC 都有设置为采样率一半的低通滤波器(最高可表示频率)。这意味着对于输入和输出,任何高于截止频率的频率都会被移除,因此随之而来的是,粗略的正弦表示 - 理论上的方波 - 被滤波成单个频率(即正弦波)。由此,我们得到了两个数学结果



其中 是采样率, 是信号中最高频率。 奈奎斯特频率。在录音时,奈奎斯特频率以上的频率通常会被滤波器阻挡,然后转换为数字域;如果没有这样的过程,就会出现频率分量折叠,也称为混叠

采样精度和位深

[edit | edit source]

已经确定,采样率越高,数字系统中波形的表示就越准确。然而,尽管有许多理由和论据支持更高的采样率,但有两个通用标准:每秒 44100 个样本和每秒 48000 个样本,前者是最常见的。主要考虑因素是,人类听力范围最大可达(因人而异)约为 20000 Hz。高于此频率的声音是不可听的。以 44.1 kHz 为例,我们发现奈奎斯特频率为 22050 Hz,这已经超过了人类听觉系统能够感知的范围。还有其他原因导致了这种特殊的采样率,但超出了本书的范围。

图 2.3. 增加采样率和位深对表示连续模拟信号的影响。


在考虑采样过程时,还有一个重要的因素需要考虑:位深。位深表示测量振幅的精度。就像在转换过程中每秒的样本数量有限一样,样本点的振幅值也有限,值越大,精度就越高。在大多数标准数字音频系统(Hi-Fi、CD)中,常见的位分辨率是 16 个二进制 ,它允许在一个时间点有 65536 () 个单独的振幅值。较低的位值会导致更大的声音失真 - 一个 2 位系统 () 只能容纳四个不同的振幅,这会导致对输入信号的大量不准确近似。

华夏公益教科书