数字音频领域
数字系统(例如计算机)和格式(例如 CD)显然是最流行和最常见的音频存储和操作方法。自 1980 年代初推出 光盘 以来,数字格式提供了越来越大的存储容量,并且能够以可接受的质量存储音频信息。虽然 模拟 格式仍然存在(黑胶唱片,磁带),但它们通常服务于利基受众。数字系统在现代音乐技术中无处不在。必须强调的是,关于哪个领域,无论是模拟还是数字,更优越,没有争议,但以下提供了一些在数字领域处理音频的理想特性。
- 存储。现代硬盘能够存储的数字音频数据量远远大于磁带系统。此外,我们可以选择捕获的音频数据的质量,这与文件大小和其他因素直接相关。
- 控制。通过以数字方式存储音频信息,我们可以对数据执行强大而复杂的操作,这些操作在其他情况下将非常难以实现。
- 耐久性。数字音频可以在设备之间复制,没有任何信息丢失。此外,许多系统采用 纠错码 来补偿诸如光盘之类的物理数字格式的磨损。
声学信息(声波)被视为信号。如前一章所示,我们传统上将这些信号视为随时间变化的幅度。在模拟系统中,这通常意味着幅度由连续电压表示;但在数字系统内部,信号必须存储为离散值的流。
以这种方式存储的数字数据没有真正的物理意义;人们可以将计算机上的歌曲描述为一个简单的 数组 数字;这些数字毫无意义,除非系统中存在一个过程,可以适当地按顺序解释每个数字。图 2.1 显示了捕获模拟声音并将其转换为数字值流以供存储和操作的流程概述,例如在这样的系统中。步骤如下
1。诸如麦克风之类的输入将声学气压变化(声波)转换为电压变化。
2。模数转换器 (ADC) 通过在时间点对电压进行“快照”并将根据其幅度为其分配一个值来将变化的电压转换为数字值流。它通常每秒执行数千次这样的“快照”,其速率称为采样率。
3。数字数据存储在数字系统上,然后由用户进行后续操作或分析。
4。数字数据被重新读取并从数字系统中流出。
5。数模转换器 (DAC) 将数字值流转换回变化的电压。
6。扬声器将电压转换为气压变化(声音)。
虽然每个阶段的信号以不同的形式出现(声音能量、数字值等),但信息是类似的。但是,由于转换过程的性质,这些数据可能会被操纵和扭曲。例如,ADC 的低采样率值或其他因素可能意味着连续的模拟信号没有用足够的细节表示,随后信息将被扭曲。麦克风等物理设备中也存在缺陷,这些缺陷以某种方式进一步“着色”信号。正是出于这个原因,音乐家和工程师的目标是使用最优质的设备和流程,以在整个过程中保持原始声音的完整性。音乐家和工程师还必须考虑他们的音乐在消费之前将经历的其他过程(无线电传输等)。
声波以其自然声学形式可以被认为是连续的;也就是说,它们的时间域图在所有缩放因子上都是平滑的线条,没有任何断裂或跳跃。我们不能有这些断裂或不连续性,因为声音不能在两个值之间瞬时切换。这方面的例子可能是理想化的波形,如 方波 - 在纸上,它在一点上瞬时在 1 和 -1 幅度之间切换;然而,扬声器由于物理定律,不能在任何时间内跳跃两个点,锥体必须在连续的路径中从一个点移动到另一个点。
采样是将连续的声学波形转换为离散数字流的过程。ADC 以固定的速率测量输入的幅度,从而创建一个表示波形的数字值流。然后通过将这些值传递到 DAC 来创建输出,DAC 适当地驱动扬声器。通过每秒测量幅度数千次,我们创建了声音的“图像”,其质量足以让人耳识别。我们越增加这种采样率,波形就被越准确地表示和再现。
信号的频率对其表示有影响,特别是在非常高的频率下。如前一章所述,正弦波的频率是每秒的周期数。如果我们的采样率为每秒 20000 个样本(20Khz),那么很明显,像 9000 Hz 这样的高频正弦波将比 150 Hz 的正弦波具有更少的“快照”。最终,会达到一个点,即没有足够的样本点来记录波形的周期,这将我们引导出以下重要结论
为什么是这样?表示正弦波所需的最小样本点数为两个。此时可能很明显,仅使用两个点来表示诸如正弦波之类的连续曲线会导致粗略的近似 - 方波。并且,在数字系统内部,确实如此。但是,ADC 和 DAC 都有在采样率的一半(最高可表示频率)处设置的 低通滤波器。这意味着对于输入和输出,任何高于截止频率的频率都会被移除,并且由此得出,粗略的正弦表示 - 理论上的方波 - 会被滤波成一个单一频率(即正弦波)。由此,我们得到两个数学结果
和
其中 是采样率, 是信号中最高的频率。 是使用 可以表示的最高可能频率,被称为奈奎斯特频率。由于存在滤波器来阻挡高于奈奎斯特频率的频率,因此这些频率并不存在;如果没有这些过程,就会出现频率分量折叠,也就是所谓的混叠。
采样精度和位深度
[edit | edit source]已经确定,采样率越高,数字系统中波形的表示就越准确。然而,尽管有许多关于更高采样率的原因和论据,但有两个普遍的标准:每秒44100个样本和每秒48000个样本,前者最为常见。这主要考虑的是,人类听觉范围最大可达大约(因人而异)20000 Hz。高于此频率的声音是不可闻的。以 44.1 Khz 为例,我们发现奈奎斯特频率为22050 Hz,这超出了人类听觉系统能够感知的范围。这个特定的采样率还有其他原因,但这超出了本书的范围。
在考虑采样过程时,还有一个重要的因素需要考虑:位深度。位深度表示测量幅度的精度。就像在一个转换过程中每秒的样本数量有限一样,一个采样点的幅度值也有限,数量越多,精度越高。大多数标准数字音频系统(Hi-Fi、CD)中常见的位分辨率是 16 个二进制位,这允许在某个时间点有 65536 () 个单独的幅度值。较低的位值会导致更大的声音失真 - 一个两位系统 () 只能允许四个不同的幅度,这会导致对输入信号的大量不准确近似。