audioSprite / ffmpeg 中的单声道音频与立体声具有相同的比特率

Question

Peter

Asked: 2021-09-03 22:36:31 +0800 CST2021-09-03 22:36:31 +0800 CST 2021-09-03 22:36:31 +0800 CST

从许多音频文件中删除音频片段

我有很多音频文件（.mp3），它们都包含这些音频文件中不同时间戳的特定音频片段。如何在所有音频文件中自动删除这些片段？

Peregrino69 · Answer 1 · 2021-09-04T00:51:38+08:00

只能手动和逐个文件 - 如果有的话。难易程度很大程度上取决于您要删除的内容。

如果片段两端有清晰可听的静默期，您可以简单地在 Audacity、Ocenaudio 等音频编辑器中打开文件，注意在过零处剪切以避免听到咔嗒声。将截断波形的末端放在一起并保存新文件。

如果没有明确的沉默，就会变得困难。这是因为音频波形是一个非常复杂的东西，仅仅在零交叉处切割通常是不够的。过去我自己已经尝试过很多次了。在没有听到咔嗒声和爆裂声的情况下匹配音频几乎是不可能的。

如果“片段”是覆盖在样本顶部的录制水印，例如“由 ACME 制作”，则无法不破坏原始音频。

即使在专业音频制作中，这种工具也确实没有用处；除非在我不熟悉的电影后期处理中。即使存在这样的自动化工具，它也一定会非常昂贵，考虑到用于降噪等的专业工具集要花费数千美元。

编辑以澄清“为什么”。

让我们从计算机不处理音频的事实开始，它们处理数据块。位和字节，并且只有位和字节。计算机非常愚蠢。

ASCII 编码的单词“hello”由字符 104、101、108、108、111 组成。它是一个清晰的字节串，不变。因此，删除或替换大量文本文件中的单个单词是一项微不足道的任务。单词“Hello”、“hEllo”或“HelLo”不再相同，因此您需要指示计算机分别处理它们。

录制自己说“你好”三遍，完全相同的方式。人类可能听不出任何区别，但您将产生三个独特的波形，计算机将看到三个独特的位和字节串。

用手机录“你好”，用电脑录三遍。情况的任何差异 - 将手机向任何方向移动一毫米，其中一个录音的声音稍微大一点，开始播放时相差 100 秒 - 将再次产生三个独特的波形，即独特的位和字节串.

同样，您需要指示计算机分别删除每个唯一的位和字节串。

这里的问题与人脸识别非常相似。正如@Tetsujin 已经暗示的那样，这需要人工智能。

消除绝对的、完美的静音是另一项微不足道的任务，因为它总是相同的零字节字符串。去除背景噪音（几乎完美的静音）较少；您必须首先教系统什么是“噪音”；并选择适当的参数来仅去除噪声而不是其他任何东西。只有在噪音恒定的情况下它才有效......如果交流电开始吹得更高，则背景噪音已经改变，您需要调整参数。

然后是另一个实际的方面......

创建工具来执行任务。任务越常见，可用的工具就越多，价格也就越便宜。一个例子是均衡或压缩——我们一直在这样做，所以有大量的工具，从免费到中等价格不等。有需求，就会有人买；即使有很好的免费选择。

剪辑修复、划痕去除和其他此类任务仍然是工作的一部分，但比日常混音要少得多。因此，这些工具的市场要小得多，价格也更高。用于此目的的专业工具集花费数千美元，但因为有需要，人们才会购买。

从大量音频文件中删除单个单词或句子并不是一项常见的任务。即使我们确实删除和重新排列音频，它始终是每个轨道的一次性工作，永远不会像您所说的那样大规模。因此，如果有人创建这样的工具，市场将变得微不足道，这将使成本高得令人望而却步。

老实说，我什至无法想象任何法律目的。除了可能移除 F 炸弹。但是由于价格原因，它仍然更具成本效益，更不用说可靠和准确，让音响师手动完成。

我希望这能澄清它。没有“神奇”的应用程序——有满足需求的工具，以市场驱动的比例与所说的需求成比例。不需要，没有市场，没有工具。