第7章频率、傅里叶与滤波器

第3章介绍了不同乐器和人声自然落入频率频谱的不同范围的想法，从像贝斯这样的低音到像踩镲这样的高音。在本章中，我们进一步探索频率频谱，这次重点是用于将音乐作品的多个层混合成一个连贯整体的技术。我们展示声音如何可以分解为其分量频率，以及我们如何使用滤波器和其他工具来塑造频率、响度和立体声平衡等声音参数。我们还将展示如何在TunePad中使用Python代码应用这些标准滤波器和效果。

7.1 音色

所有声音都由从声源向外传播直到最终到达我们内耳的气压波组成。有规律或周期性振动的声波是特殊种类的音频信号，人脑将其解释为音高。振动的速率（或频率）决定了音高听起来有多高或低。关于音符的一个令人惊讶的事情是，它们几乎从不完全由一种频率的声音组成。事实上，人们听到的作为一个音乐音符的实际上是堆叠在一起的整个频率范围。作为一个例子，图7.1显示了长笛演奏单个音符产生的声能。该图显示了整个 Hearing 范围内（从大约20 Hz到20,000 Hz）不同频率的能量水平。频率水平显示在横轴上，能量水平显示在纵轴上。图中的尖峰显示了长笛在不同频率水平产生的声音。所以即使我们只听到一个音符，声音中实际上存在整个频率范围，每个尖峰一个。

像这样的频率组合使人们能够区分不同种类的乐器。这就是你的大脑如何分辨长号和大提琴之间的区别，即使它们正在演奏完全相同的音符。单个声音的许多频率被称为其频率频谱（例如，图7.1），它们创造了所谓的音色（发音为”TAM-ber”）——通常称为音色调或音质。音色就像声音的指纹。

音色：我们感知多个频率组合在一起时产生的声音的独特指纹。
基频：我们感知为音符音的最低（且通常）最响的频率。
分音或泛音：当我们听到音符时也存在的基频之外的其他频率。
谐波：接近基频整数倍的任何频率。
非谐波：不是基频整数倍的任何分音。

我们感知为音符音高的通常是存在的最低频率。这被称为基频，或通常简称为基音。它通常也是频率中最响的。剩余的频率被称为分音或泛音。如果分音的频率接近基音的整数倍，则该分音被认为是基音的谐波。否则，分音被认为是非谐波。大多数有音高或旋律的乐器——如萨克斯管、长笛和吉他——具有非常谐波的频谱（图7.1）。无音高或打击乐器通常具有非常非谐波的频谱，这意味着你不会真正感知这些乐器的音高。你可以在此处听到这听起来如何：https://tunepad.com/examples/spectrums

为了帮助使这一点更清楚，考虑由以下频率组成的声音：200 Hz、400 Hz和500 Hz（图7.2，左）。声音的基频将是200 Hz，因为它是最低（且最响）的频率。400 Hz频率将是第一个分音，将被视为谐波，因为它是基音的整数倍（400 Hz/200 Hz = 2）。500 Hz频率将是第二个分音，但它不是谐波，因为500 Hz/200 Hz = 2.5。在图7.2（右）中，我们添加100 Hz作为新的基频。在这种情况下，200 Hz、400 Hz和500 Hz都将被视为100 Hz的谐波，因为它们都是100 Hz的简单整数比（2、4和5）。

在此处听示例：https://tunepad.com/examples/timbre

几乎所有声音都由复杂的频率组合组成。此规则的一个例外是正弦波（图7.2显示了正弦波的组合）。正弦波仅由一种频率组成，没有其他分音，由于这个原因，它们通常被描述为听起来清晰或纯净。正弦波使用电子设备或计算机很容易生成，但它们很少在自然界中发生，这意味着它们也可能听起来人工和刺耳。

事实证明，任何周期性声音都可以描述为形成分音频率的（可能无限）数量的正弦波的组合。具有非常少分音的声音，如口哨，通常非常接近正弦波。具有许多分音的声音，如萨克斯管，具有更丰富和更复杂的波形。想象这一点的一种方式是，正弦波就像你可以混合在一起形成每种其他颜色的颜料原色。图7.3显示了不同谐波频率的多个正弦波如何组合以近似更复杂的信号，如方波。

7.2 包络

声波还有其他复杂属性，有助于乐器的音色。其中最重要的一个是声音的音量如何在音符的持续时间内演化和变化。这被称为声音的包络。简化包络通常使用四个阶段描述：起音、衰减、持续和释音，或简称ADSR（图7.4）。

ADSR包络既有时间分量也有振幅（响度）分量。当你在钢琴或其他乐器上演奏音符时，起音是从首次按下键到音符达到最大音量的时间。衰减是音符达到较低二次音量所需的时间。持续是这个第二音量的响度。最后，释音是音符完全淡出所需的时间。所以，起音、衰减和释音都是时间的度量，而持续是响度的度量。

像小军鼓这样的声音具有尖锐的起音和快速的释音，而像钹或风铃这样的声音具有快速的起音，但较慢的释音，在较长时间内响起。其他声音如小提琴既有较慢的起音也有较慢的释音。包络的起音、衰减和释音部分也可以是弯曲的而不是直线，这有时更好地近似真实乐器的声音。但重要的是要记住，ADSR包络总是现实的简化。例如，钢琴音符的持续实际上随着时间的推移逐渐减小音量，直到音符最终释音。我们将在第10章中重新审视ADSR包络的想法，看看在创建合成乐器时如何应用这一点。

7.3 傅里叶

让-巴蒂斯特·约瑟夫·傅里叶是一位法国数学家和物理学家，他在19世纪的工作导致了我们现在所谓的傅里叶分析，这是一个我们可以将复杂声音信号分解为其组成个别频率的过程。这个想法是，我们可以采用任何复杂声音并确定有助于信号能量的所有频率——基本上找到可以组合以表示更复杂波形的一组正弦波。声音信号由其频率成分的组成被称为信号的频谱，它可以通过称为傅里叶变换的数学运算生成，这是所有现代音乐制作的重要组成部分。对于任何给定的时间片，频谱可能看起来像图7.1。但我们也可以将这些信息分布在许多时间片上，以可视化信号随时间变化的频率和振幅。这种可视化被称为声谱图（图7.5）。

声谱图通常在横轴上显示时间，在纵轴上显示频率，并使用热图颜色显示不同频率的强度。较暖的颜色表示更多能量，而较冷的颜色表示较少能量。

这种表示帮助制作人看到和理解声音的属性，如音色和响度。声谱图可能显示背景中不需要的噪音，或指出音频在低频率上较重并且听起来浑浊，或音频在高频率上较重并且听起来单薄。通过多年的训练，音乐制作人可以解释声谱图，以视觉上理解各种频带如何贡献给混音。

声谱图显示音频信号中频率的强度随时间的变化。热图颜色对应于不同频率的强度或能量。时间表示在横轴上，频率以千赫兹表示在纵轴上。

7.4 混音与母带处理

录制歌曲的所有部分只是创建准备好与世界分享的完成音乐作品过程的一部分。音乐制作人仍然有任务使所有各种声音层作为一个连贯的整体一起工作。贝斯线如何补充节奏？它是否会干扰打击乐声音？人声是否被器乐淹没？乐器是否相互竞争？整体混音是否太浑浊、太刺耳或太轰鸣？混音的过程是关于歌曲的整体创作结构，并在已录制、采样或生成的个人音乐元素之间找到平衡。当然，粗混音在创作过程中随着歌曲的不同部分被录制而放在一起。例如，录音室需要在叠加人声之前有鼓、贝斯和键盘的粗混音。但最终混音是所有元素都平衡、放置在空间中并混合在一起以做出艺术陈述的时候。混音可能是一个复杂的过程，涉及规划、深度倾听和大量耐心以使其正确。

深度倾听是密切关注歌曲中音乐元素之间关系的过程。这涉及同时意识到创作结构和个别声音的频率带宽。通过深度倾听，你要注意不同的组成部分以及它们如何相互关联。吉他和小号之间是否有呼唤与回应？它们在一起演奏吗？你应该通过调整均衡来将它们分开，使一个在前台突出，还是简单的音量变化就可以解决问题？也许将它们放在立体声频谱内的单独空间中会起作用，或者使用100毫秒延迟效果将其放置在与听众相对的横向空间中。有很多实验可以做，需要时间来完善混音的艺术。需要练习来发展这种倾听技能，但通过练习，你会对细微差别变得敏锐。例如，当具有相同的频率带宽的乐器重叠时，你会听到。

在这个章节中，我们将音乐的每个个人层称为音轨。录制人声、鼓、贝斯等在不同的音轨上，然后将它们混合在一起形成最终产品是常见的做法。在TunePad中，音轨是使用可以在时间线上组装为歌曲部分的单元创建的。在传统调音台上，每个音轨是一个多功能工具，用于塑造声音元素，以便将它们与其他歌曲元素凝聚地混合（图7.6）。

混音时要考虑的一些最重要的音频参数是声像定位、频率操作（均衡）和增益（每个音轨的响度）。在这里你也可以应用音频效果，如混响、回声或合唱（其中一些我们将在下一章中介绍）。

7.4.1 混音工具

在数字制作工具广泛可用之前，录音室使用多轨磁带录制歌曲的多个元素，如贝斯、鼓、吉他、键盘和人声。然后使用大型调音台录制和回放磁带上的每个元素（图7.6）。工作室基础设施将信号从个人音轨路由到调音台和从调音台路由。今天，这主要使用允许更多灵活性和精度的软件和可视化工具完成。

7.4.2 声像定位与立体声

你聆听的大部分音乐都有多个通道的音频数据。立体声录音使用两个不同通道（左和右）来重现自然声学环境中听音乐的空间体验。换句话说，当你用耳机或耳塞听音乐时，你左耳听到的与你右耳听到的微妙（或不那么微妙）不同。下次你听音乐时尝试移除一个耳塞，看看你是否能听到差异。当你体验现场音乐时，你在空间中有相对于各种音乐家、歌手和房间中其他音频源的物理位置。你的两只耳朵也指向相反的方向，意味着它们接收相同音频场景的不同版本。音乐制作人使用立体声频谱来重现这种体验。

音轨的声像定位是指其在立体声频谱中的位置。实际上，这意味着音轨有多少从左扬声器和右扬声器出来。制作人可以通过控制音轨的声像定位为歌曲创造更多深度并复制现场录音。你几乎可以把它想象成在现场观众面前的舞台上安排音乐家。人类也更好地感知更高频率的声音的方向性，意味着我们可以轻易分辨高音踩镲声音来自哪个方向，但我们很难分辨贝斯线来自哪个方向。因此，制作人经常将更高音调的声音声像定位到左或右，同时将更低音调的声音留在混音的中心。

在TunePad中，你可以使用图7.7所示的混音器界面调整不同单元的声像定位、增益和频率元素。也可以使用Python的with构造在代码中应用这些效果。这是一个将四个playNote指令的立体声平衡转移到最左扬声器的声像定位效果示例。

with pan(-1.0):
    playNote([ 31, 35, 38 ], beats = 4)
    playNote([ 31, 35, 38 ], beats = 4)

pan参数的值范围从-1.0（全左扬声器）到1.0（全右扬声器）。值0.0均匀分割声音。TunePad中的with关键字将pan效果应用于直接在其下方的所有缩进语句。

7.4.3 增益

音轨的增益与其响度有关。增益不完全是音量，但作为音频信号振幅的一种乘数。当调音台是物理设备时，增益与信号在信号流的每个阶段具有多少功率有关。现在，增益具有类似的含义，可用于使音轨更或更突出。例如，制作人可能选择使舞曲的贝斯鼓更突出，同时降低人声旋律的增益。增益通常以分贝衡量。负值降低音轨的响度，正值从原始音量增加它。

7.4.4 频带

将音轨混合在一起时，通常有助于将完整频率频谱分解为对应于不同频率范围的频带。每个频带旨在捕获特定的音乐元素，当然，这在流派和特定歌曲之间变化。制作人通常将混音分为七个频带：超低音、低音、低中频、中频、中高频、临场感和明亮度。以带宽思考的一个原因是，当声音具有相同的带宽时，会发生称为”掩蔽”的声学现象。掩蔽是一个声音压倒另一个声音，使得被压倒的声音听不到。

频带	频率范围	描述
超低音	20–60 Hz	为贝斯和鼓增加力量和深度
低音	60–250 Hz	捕获贝斯和鼓声音的核心基频
低中频	250–500 Hz	捕获较低乐器的泛音，以及中提琴和次中音萨克斯管等乐器
中频	500–2,000 Hz	捕获旋律乐器，如小提琴、长笛和人声
中高频	2,000–4,000 Hz	捕获旋律乐器的泛音以及一些较高乐器的核心
临场感	4,000–6,000 Hz	捕获较高乐器的泛音，并为声音增加精度和清晰度
明亮度	6,000–20,000 Hz	捕获所有乐器的上部泛音

人类对1 kHz和4 kHz之间的频率最敏感。查看每个频带的频率值，你可能会注意到频率范围甚至不接近相同大小。例如，超低音频带仅覆盖40 Hz的范围（从20 Hz到60 Hz），而临场感频带覆盖2,000 Hz（从4,000 Hz到6,000 Hz）。原因是对音高的感知不是线性的。当我们向上移动一个八度时，我们使音高的频率加倍，这意味着每个连续音乐八度覆盖其下面八度的频率范围（或带宽）的两倍。因此，较高频频带自然覆盖频率范围的较大部分并产生更多能量。

7.5 滤波器与均衡

如果两种乐器在其自然音高范围内重叠，可能难以区分一个与另一个，这可能导致浑浊。制作人将希望确保每个音乐元素都是独特和可听的。想想画家重现海洋场景。画家希望场景的每个元素清晰突出——也许是天空、船、海岸和海洋本身。如果海洋、天空和陆地都是相同色调的蓝色，观看者将无法解释和欣赏场景。

制作人在频率频谱中实现平衡的最重要工具是滤波器和均衡器。这些工具减少（衰减）或增加（提升）音轨中的某些频率范围，使它们在混音中更或更突出，制作人经常为每个音轨在频率频谱中”雕刻出”空间。调整信号内频带电平的过程称为均衡（或EQ）。当你调整汽车音响系统的低音和高音旋钮时，你正在均衡频率，就像制作人在调整乐器声音时可能做的那样。

你可以将音频滤波器视为类似于用于净化饮用水的滤波器。水滤波器旨在让小颗粒（如水分子和矿物质）通过，同时阻挡较大颗粒（如细菌）。音频滤波器实现类似的效果，除了声音，允许音频信号的某些频率不受影响地通过，同时阻挡或减少其他频率。滤波器的响应曲线是显示哪些频率被允许通过以及哪些被滤除的图表。音乐制作中常用的有几种类型的滤波器，包括低通、高通、低架、高架、带通、陷波和峰值。我们在下面描述其中的几个，以及在TunePad中使用Python代码应用这些滤波器的示例。大多数制作软件（包括TunePad）包括内置均衡器工具，让你可以组合和精确调整各种滤波器类型。了解每个滤波器如何工作将帮助你使用这些工具。

7.5.1 低通滤波器

低通滤波器允许低于某个阈值（称为截止频率）的频率不受影响地通过。高于此阈值的频率被降低（或衰减）。频率参数指定截止的位置，Q参数确定此截止有多尖锐或陡峭（图7.8）。

如果音轨听起来太亮，或者移除贝斯乐器的某些较高分音以为混音中的其他乐器腾出空间，甚至移除一些不需要的 studio 声音（如设备的嗡嗡声），可以应用低通滤波器。

在TunePad中，你可以直接在Python代码中添加低通滤波器。下面的示例应用具有100 Hz截止的恒定低通滤波器，以降低鼓中的较高频率。

with lowpass(frequency = 100):
    playNote(0, beats = 1)
    playNote(2, beats = 1)
    playNote(0, beats = 1)
    playNote(2, beats = 1)

with关键字启动一个特殊的Python结构，将效果应用于直接在其下方缩进的所有语句。在这种情况下，TunePad的低通滤波器应用于四个鼓声音。

所有可以在TunePad中编码的滤波器都具有相同的基本结构。你使用with关键字，后跟滤波器名称。滤波器有一个必需参数和几个可选参数。唯一必需的参数是frequency，它表示每个滤波器的截止频率。滤波器还有一个可选的Q参数，它指定截止频率周围有多尖锐或分散。参数描述如下表：

参数	描述	必需？
Frequency	以Hz指定的截止或中心频率	是
Q	通常截止频率的锐度	否
Beats	效果持续多少拍	否
Start	在启动效果之前延迟多少拍	否
Gain	某些滤波器（如峰值、低架和高架）使用增益参数以分贝指定提升或衰减的强度	否

7.5.2 高通滤波器

高通滤波器与低通滤波器相反；它传递高于截止的频率并降低以下的频率。与低通滤波器一样，频率参数设置截止频率，Q参数指定截止的锐度（图7.9）。

如果音轨由于具有太多低音而听起来浑浊，或者移除不需要的噪音（如设备的低频嗡嗡声），可以应用高通滤波器。这是一个使用高通滤波器切断低于4,000 Hz（4 kHz）的声音的TunePad示例，用于演奏旋律的乐器：

with highpass(frequency = 4000):
    playNote(31, beats = 0.5)
    playNote(35, beats = 0.5)
    playNote(38, beats = 1)
    playNote(36, beats = 1)

7.5.3 带通滤波器

带通滤波器降低指定频率带以上和以下的频率；带通等同于同时应用低通和高通滤波器。我们使用频率参数指定带的中心，使用Q参数指定带的宽度。Q越高，截止越尖锐，可以通过的频率带越窄。带通滤波器允许我们精确定位音轨的频率范围。你可以使用带通滤波器通过降低其他一切来突出歌曲的人声或旋律（图7.10）。

在下面的示例中，我们将对短旋律应用具有130 Hz中心频率（大约C3或MIDI 48）的恒定带通滤波器，以在整体音乐纹理中突出旋律。

with bandpass(frequency = 130, Q = 0.7):
    playNote(48, beats = 0.5)
    playNote(52, beats = 0.5)
    playNote(55, beats = 1)
    playNote(53, beats = 1)

7.5.4 陷波滤波器

陷波滤波器与带通滤波器相反。陷波滤波器不是突出频率带，而是降低频带，而所有其他频率自由通过。与带通一样，频率参数指定此频带的中心，Q参数设置宽度（图7.11）。

在下面的示例中，我们将对短和弦选择应用具有440 Hz中心频率（大约A4或MIDI 69）的恒定陷波滤波器，以降低整体音乐纹理中的流行度。

with notch(frequency = 440):
    playNote([69, 72, 76], beats = 4)
    playNote([69, 72, 76], beats = 4)

7.5.5 峰值滤波器

峰值滤波器经常用于参数均衡器，以提升或衰减目标频率处的声音。参数均衡器是一种均衡器，提供对中心频率和Q（滤波器围绕中心频率有多分散或紧密）的精确控制。使用这些滤波器，有第三个称为增益的参数，控制信号被提升或衰减多少（图7.12）。

增益以分贝衡量。正增益将提升滤波器目标的频率，负增益将衰减它们。

7.5.6 低架与高架滤波器

低架和高架滤波器提升或衰减目标频率之外的声音。它们被称为搁架，因为其响应曲线的高原形状。与峰值滤波器一样，频率参数指定截止，增益参数指定对目标之外频率给予多少提升或衰减。负增益值衰减，正增益值提升（图7.13）。

7.6 母带处理

在个人音轨相互调整之后，母带处理是获取此最终混音并通过调整全局参数（如动态范围和频率）来抛光它的过程。在早期，有专门从事最终混音母带处理过程的母带处理工程师。事实上，有专门从事母带处理的 studio，所以你可以想象制作过程的这最后一段值得与休息一样多的关注。母带处理特别重要，因为你希望你的混音在尽可能多的设备上听起来好，所以有一个微妙的过程来平衡混音中的元素，以优化跨不同媒体的倾听体验。你希望你的混音在扬声器上听起来与在耳机上一样好。

传统上，母带处理使用均衡、压缩、限制和立体声增强等工具完成。回想第3章，动态范围是指音频选择中最安静和最响音量之间的差异。这可以通过使用动态范围压缩或压缩器来调整。压缩器降低混音中的最高音量并放大最低音量，这缩小了音频的整体动态范围。这确保听众可以清晰地听到完整的音量范围。你可以将其视为动作电影，其中角色可能在爆炸之前低语秘密。动态范围压缩是一种可能的工具，可以通过降低爆炸的音量并增加低语的音量来确保这两个声音对观众都清晰。

制作人在创建最终产品时也考虑频率域。不是像混音中那样在逐个音轨的层面上思考，制作人可以按不同频率带来思考。到这个阶段，我们不同频率带应该已经很好平衡，目标是使用EQ和滤波器抛光整体混音。

最后，生成音轨的最终版本并导出为最终格式。一个主要考虑因素是音乐将在哪里和如何分发。制作人可能会考虑通过YouTube在笔记本电脑上观看音乐视频的人，与在汽车中听广播的人，与在线流媒体音频的人，与拥有物理CD甚至黑胶唱片的人相比。用于流媒体和的其他形式的分发的音乐几乎总是被压缩，意味着最终音频文件的大小比原始未压缩的音频数据小得多，得多。注意这与动态范围压缩无关。压缩音频意味着一些数据被丢弃，以减少必须通过互联网传输的信息量，以避免缓冲延迟或在CD上存储更多歌曲。有复杂的计算机算法决定丢弃什么数据，以便听众甚至不会注意到质量的降低。使用这种压缩形式的文件格式示例包括.MP3和.AAC文件。

一些音频格式放弃这种压缩，以支持增加的声音质量和保真度。这些文件包含原始音频数据。这些音频文件通常较大，占用更多文件空间。这方面的示例包括.WAV和.AIFF文件格式。

混音和母带处理可能是一个乏味的过程，需要注意细节和敏锐、训练有素的耳朵。成为有成就的专业人士可能需要多年的经验，我们刚刚介绍了你可以使用的几个参数和工具。不要对此感到压力，特别是在开始时！混音和母带处理是制作音乐中最困难的两个概念，但掌握它们可以大大提升你创作的音乐。获得这种熟悉度的最好方法是通过实验和深思熟虑的倾听。批判性地倾听专业制作的音乐将帮助发展你的耳朵，并为你的音乐解锁全新的可能性世界。

7.7 TunePad中的动态效果

上面描述的许多TunePad效果也可以动态应用，以创建各种各样的声音。基本想法是，我们不是传递参数的一个常数值，而是传递描述该参数将如何随时间变化的一列数字。动态效果的持续时间使用beats参数指定。你可以自己在 https://tunepad.com/examples/efects 尝试这些动态效果和滤波器。

这是一个使用低通滤波器在钢琴音符开始时创建哇音效果的示例。滤波器的截止频率在1拍的持续时间内在200 Hz和800 Hz之间快速来回移动。音符本身演奏三拍，所以只有音符的第一拍应用了效果：

# 通过在200和800hz之间快速更改低通滤波器的截止来创建哇音效果
with lowpass(frequency = [200, 800, 200, 800, 200, 800], beats=1):
    playNote(47, beats=3)

其他效果（如pan和gain）的工作方式相同。你可以通过传递一列值和beats参数来创建动态变化。例如，此代码逐渐将低通滤波器从20 Hz扫频到750 Hz，然后再扫回来。同时，它将声音在立体声声场中从左到右移动，然后再移回来。为此，它将pan效果嵌套在低通滤波器效果内。

with lowpass(frequency = [20, 750, 20], beats = 40):
    with pan(value = [-1, 1, -1], beats = 40):
        playNote(16, beats=40)

本章后面的间奏展示了如何使用Python代码将其他动态效果添加到TunePad项目。

注释 1. “音轨”这个词的这种用法与专辑中的音轨具有不同的含义。 2. 只有一个通道的音频数据的录音被称为单声道录音。

第7章 频率、傅里叶与滤波器