跳转到内容

数字音乐作曲/声音理解

来自维基教科书,开放的书籍,为开放的世界
此页面包含指向音频文件的内联链接。如果您在播放文件时遇到问题,请参见媒体帮助.

什么是声音?

[编辑 | 编辑源代码]

声音是一种压力波——一种传播的压力变化。它通过介质(任何物质物体)传播,传播速度取决于介质的特性——基本上,材料越硬或越难压缩,声音通过该材料的速度就越快。它可以通过任何物质状态传播,无论是固体、液体还是气体。它唯一无法传播的地方是没有任何物质的地方——在真空中,比如外太空。它可以在两个材料接触的地方从一个材料传递到另一个材料。因此,我们的耳朵由固体 (听小骨) 和液体 (耳蜗) 部分组成,通常从气态空气中接收声音,但它们也可以在水下工作。

这些压力波如何转化为神经信号,并由我们的大脑处理,被称为心理声学,这是一个非常复杂的过程,其微妙之处仍在不断研究中。需要说的是,一些你认为你能听到的东西,实际上你听不到,而一些你认为你听不到的东西,实际上你能听到。

声音通道

[编辑 | 编辑源代码]

声音基本上可以用标量量来表示,代表测量点上的压力,随时间变化——单个声音通道。由于我们有两个耳朵,我们可以有效地使用两个这样的量,同时代表每个耳朵的压力——两个独立的声音通道,也称为立体声声音。事实上,现在我们通常有不止两个通道,以产生环绕声.

但在我们深入研究这些复杂问题之前,让我们首先考虑单个声音通道的特征。

时域与频域

[编辑 | 编辑源代码]

一些声音在我们听起来更悦耳、更音乐,而另一些声音听起来刺耳、不和谐。如果我们将压力波随时间变化绘制成曲线,我们会注意到,更音乐的声音往往具有随着时间非常规律地重复的形状,而不太音乐的声音往往看起来更不规则。

形状重复的速率称为频率,这直接转换为音乐音符的音高。事实上,乐器发出的声音通常包含一系列频率。

所以,观察声音的另一种方式是,与其将压力幅度对时间绘制(声音的时域表示),不如将声音分解成它的频率成分,并将它们的强度对频率绘制(频域表示)。该图也被称为声谱图。存在一种数学变换,可以让我们轻松地在这两个域之间来回移动,称为傅里叶变换。您不需要理解它的数学细节,只需知道时域和频域表示之间存在一对一的映射——傅里叶变换是可逆的

锯齿波泛音

如果声音信号在时间间隔之后完全重复,则它被称为周期性,时间间隔被称为周期。在时域中是周期性的波形的另一个重要特征是其频域表示是离散的——它集中在某些特定频率上:基频(它指定了每单位时间得到的完整波形重复次数),以及此频率的整数倍:等等。这些频率被称为泛音,而基频(也称为第一泛音)告诉我们音符的音高,较高的泛音则为声音添加了“颜色”或音色,这使我们能够区分小提琴演奏的音符与单簧管演奏的相同音符。

如果波形周期的持续时间以秒为单位测量,则频率的单位为 1/秒,测量“每秒周期”或赫兹(缩写为“Hz”)。

图示中,上面的图表显示了频率为 1 Hz 的锯齿波的 3 个周期(太低,人耳听不见,但便于理解数字),下面的图表显示了傅立叶变换后前几个频率成分的振幅。在这种情况下,最强的成分是基频 (同时要注意 0 Hz 处的零成分),高次谐波逐渐减弱,但永远不会完全消失。其他周期波形可能具有完全不同的谐波分布。

频率与音高

[编辑 | 编辑源代码]

人耳能听到的频率范围通常被认为在 20 Hz 到 20,000 Hz 之间(也可以写成 20 kHz)。在音乐中,我们有音符的音高概念,音高随着频率的增加而增加,但不是成比例的。相反,音符的音高与频率的 对数 成正比。具体来说,如果一个音符的音高比另一个音符高一个八度,那么前者的频率正好是后者的两倍。因此,人耳的听觉范围略小于 个八度。

考虑目前西方音乐中最常见的音调,称为 标准音高。在这个音调中,中央 C 以上的 A(最接近它)被分配为 440 Hz 的频率。因此,低一个八度的 A 是 220 Hz,高一个八度的 A 是 880 Hz,依此类推。其他音符的频率取决于您使用的 音律:如果您使用 平均律(常见情况),那么每个半音的音程对应于 的频率比。因此,例如,参考 A 低一个半音的 A(或 G)的音高是 Hz,而参考 A 高一个半音的 A(或 B)的音高是 Hz。而中央 C 的音高比参考 A 低 9 个半音,因此它的频率是 Hz。

声学 是声音科学。它研究了我们演奏和聆听声音的 空间(室内或室外)。为什么某些音乐厅的声音比其他音乐厅更好?我们甚至如何判断一种声音是在一个大厅里录制还是在一个小房间里录制?

带有“死”声学(无混响或回声)的管风琴片段

例如,考虑这个用 ZynAddSubFX 生成的简单管风琴片段

听起来并不令人兴奋。

带有回声效果的管风琴片段

现在让我们在声音中应用“回声”效果

这增加了一些趣味(让人想起声音从长房间或大峡谷的另一端反弹回来),但听起来还是有点不自然。

带有 Audacity “小房间暗”混响的管风琴片段

现在比较一下这个版本

效果非常微妙,但声音对你来说是否显得更“鲜活”?就像是在一个真实的房间里演奏一样?这是因为一种叫做 混响(通常缩写为混响)的效果。它是来自房间不同位置的许多微弱重叠回声的混合体,一些回声更靠近声源,一些回声更远,一些回声主要反射低频,一些回声反射高频。这以一种添加趣味和真实感的方式将声音分散在时间上,因为它代表了我们通常在现实世界中听到声音的方式。

带有 Audacity “大房间”混响的管风琴片段

这是一个应用于更大房间的混响效果

带有 Audacity “大教堂”混响的管风琴片段

最后,这里是在一个 非常 大的房间(即大教堂)中听起来的效果

在任何音乐录制中,通常都需要一些混响,只要您不要过度使用它。

模拟与数字

[编辑 | 编辑源代码]

一个 模拟 信号是任何物理量。例如,麦克风可以拾取声压变化,并将其转换为电电压变化。在过去模拟音频处理的年代,这种电压可能会(经过适当的处理、混音等)转换为相应的变化磁场,记录在磁带上,或转换为黑胶唱片上的摆动凹槽。然后在播放过程中,磁场或凹槽摆动会转换为变化的电压,最终控制功率放大器驱动扬声器,以重新创建(接近)原始声压变化。

换句话说,在模拟处理中,一个变化的物理量被转换为另一个变化的物理量。名义上,这些量是 连续的,并且可以在特定范围内取任何值。但在实践中,模拟设备存在各种各样的不准确性,这会导致处理过程中的每个阶段都会出现保真度的损失。

数字 处理中,物理量在规则的时间间隔( 采样率)处被测量,并使用 模数转换器 转换为数字流。此数字只能测量到一定的精度。但一旦测量完毕,它就可以被精确地记录和复制。然后播放设备只需要将这些数字通过一个 数模转换器 将其转换回物理量,以产生我们实际可以听到的声音。因此,模拟损失仅限于转换过程的两端,并从中间阶段移除。

此类数字的计算机处理会导致 舍入误差,但在实践中,这会导致的损失比相应的模拟处理少,并且它使新的操作类型成为可能,而这些操作类型在模拟设备上是不可行的。

波形的模拟与数字表示

采样将(名义上的)连续模拟量转换为 离散的 数字表示。此表示在时间上具有有限的精度,受采样率的限制,并且每个样本都具有有限的测量精度,由 样本大小 表示,以 比特 为单位测量。但是,凭借当今的技术,这些参数可以达到足够高,以忠实地表示人耳能听到的任何声音。

模拟“特色”

[编辑 | 编辑源代码]

许多音乐家和音频工程师都喜欢模拟处理的“不完美”。他们谈论模拟失真给音频带来的“温暖”或“特色”,并描述数字音频通常是“冷淡”和“无情”的。

这种观点没有错。关键在于,**数字音频给你一个选择**:你仍然可以在处理链中引入模拟失真,但只有**在你想要的地方和时间引入**——你不会被迫在处理的每一个阶段都将模拟“特色”印在你的创作上。

华夏公益教科书