Peter Asked: 2021-09-03 22:36:31 +0800 CST2021-09-03 22:36:31 +0800 CST 2021-09-03 22:36:31 +0800 CST 从许多音频文件中删除音频片段 772 我有很多音频文件(.mp3),它们都包含这些音频文件中不同时间戳的特定音频片段。如何在所有音频文件中自动删除这些片段? audio music 1 个回答 Voted Best Answer Peregrino69 2021-09-04T00:51:38+08:002021-09-04T00:51:38+08:00 只能手动和逐个文件 - 如果有的话。难易程度很大程度上取决于您要删除的内容。 如果片段两端有清晰可听的静默期,您可以简单地在 Audacity、Ocenaudio 等音频编辑器中打开文件,注意在过零处剪切以避免听到咔嗒声。将截断波形的末端放在一起并保存新文件。 如果没有明确的沉默,就会变得困难。这是因为音频波形是一个非常复杂的东西,仅仅在零交叉处切割通常是不够的。过去我自己已经尝试过很多次了。在没有听到咔嗒声和爆裂声的情况下匹配音频几乎是不可能的。 如果“片段”是覆盖在样本顶部的录制水印,例如“由 ACME 制作”,则无法不破坏原始音频。 即使在专业音频制作中,这种工具也确实没有用处;除非在我不熟悉的电影后期处理中。即使存在这样的自动化工具,它也一定会非常昂贵,考虑到用于降噪等的专业工具集要花费数千美元。 编辑以澄清“为什么”。 让我们从计算机不处理音频的事实开始,它们处理数据块。位和字节,并且只有位和字节。计算机非常愚蠢。 ASCII 编码的单词“hello”由字符 104、101、108、108、111 组成。它是一个清晰的字节串,不变。因此,删除或替换大量文本文件中的单个单词是一项微不足道的任务。单词“Hello”、“hEllo”或“HelLo”不再相同,因此您需要指示计算机分别处理它们。 录制自己说“你好”三遍,完全相同的方式。人类可能听不出任何区别,但您将产生三个独特的波形,计算机将看到三个独特的位和字节串。 用手机录“你好”,用电脑录三遍。情况的任何差异 - 将手机向任何方向移动一毫米,其中一个录音的声音稍微大一点,开始播放时相差 100 秒 - 将再次产生三个独特的波形,即独特的位和字节串. 同样,您需要指示计算机分别删除每个唯一的位和字节串。 这里的问题与人脸识别非常相似。正如@Tetsujin 已经暗示的那样,这需要人工智能。 消除绝对的、完美的静音是另一项微不足道的任务,因为它总是相同的零字节字符串。去除背景噪音(几乎完美的静音)较少;您必须首先教系统什么是“噪音”;并选择适当的参数来仅去除噪声而不是其他任何东西。只有在噪音恒定的情况下它才有效......如果交流电开始吹得更高,则背景噪音已经改变,您需要调整参数。 然后是另一个实际的方面...... 创建工具来执行任务。任务越常见,可用的工具就越多,价格也就越便宜。一个例子是均衡或压缩——我们一直在这样做,所以有大量的工具,从免费到中等价格不等。有需求,就会有人买;即使有很好的免费选择。 剪辑修复、划痕去除和其他此类任务仍然是工作的一部分,但比日常混音要少得多。因此,这些工具的市场要小得多,价格也更高。用于此目的的专业工具集花费数千美元,但因为有需要,人们才会购买。 从大量音频文件中删除单个单词或句子并不是一项常见的任务。即使我们确实删除和重新排列音频,它始终是每个轨道的一次性工作,永远不会像您所说的那样大规模。因此,如果有人创建这样的工具,市场将变得微不足道,这将使成本高得令人望而却步。 老实说,我什至无法想象任何法律目的。除了可能移除 F 炸弹。但是由于价格原因,它仍然更具成本效益,更不用说可靠和准确,让音响师手动完成。 我希望这能澄清它。没有“神奇”的应用程序——有满足需求的工具,以市场驱动的比例与所说的需求成比例。不需要,没有市场,没有工具。
只能手动和逐个文件 - 如果有的话。难易程度很大程度上取决于您要删除的内容。
如果片段两端有清晰可听的静默期,您可以简单地在 Audacity、Ocenaudio 等音频编辑器中打开文件,注意在过零处剪切以避免听到咔嗒声。将截断波形的末端放在一起并保存新文件。
如果没有明确的沉默,就会变得困难。这是因为音频波形是一个非常复杂的东西,仅仅在零交叉处切割通常是不够的。过去我自己已经尝试过很多次了。在没有听到咔嗒声和爆裂声的情况下匹配音频几乎是不可能的。
如果“片段”是覆盖在样本顶部的录制水印,例如“由 ACME 制作”,则无法不破坏原始音频。
即使在专业音频制作中,这种工具也确实没有用处;除非在我不熟悉的电影后期处理中。即使存在这样的自动化工具,它也一定会非常昂贵,考虑到用于降噪等的专业工具集要花费数千美元。
编辑以澄清“为什么”。
让我们从计算机不处理音频的事实开始,它们处理数据块。位和字节,并且只有位和字节。计算机非常愚蠢。
ASCII 编码的单词“hello”由字符 104、101、108、108、111 组成。它是一个清晰的字节串,不变。因此,删除或替换大量文本文件中的单个单词是一项微不足道的任务。单词“Hello”、“hEllo”或“HelLo”不再相同,因此您需要指示计算机分别处理它们。
录制自己说“你好”三遍,完全相同的方式。人类可能听不出任何区别,但您将产生三个独特的波形,计算机将看到三个独特的位和字节串。
用手机录“你好”,用电脑录三遍。情况的任何差异 - 将手机向任何方向移动一毫米,其中一个录音的声音稍微大一点,开始播放时相差 100 秒 - 将再次产生三个独特的波形,即独特的位和字节串.
同样,您需要指示计算机分别删除每个唯一的位和字节串。
这里的问题与人脸识别非常相似。正如@Tetsujin 已经暗示的那样,这需要人工智能。
消除绝对的、完美的静音是另一项微不足道的任务,因为它总是相同的零字节字符串。去除背景噪音(几乎完美的静音)较少;您必须首先教系统什么是“噪音”;并选择适当的参数来仅去除噪声而不是其他任何东西。只有在噪音恒定的情况下它才有效......如果交流电开始吹得更高,则背景噪音已经改变,您需要调整参数。
然后是另一个实际的方面......
创建工具来执行任务。任务越常见,可用的工具就越多,价格也就越便宜。一个例子是均衡或压缩——我们一直在这样做,所以有大量的工具,从免费到中等价格不等。有需求,就会有人买;即使有很好的免费选择。
剪辑修复、划痕去除和其他此类任务仍然是工作的一部分,但比日常混音要少得多。因此,这些工具的市场要小得多,价格也更高。用于此目的的专业工具集花费数千美元,但因为有需要,人们才会购买。
从大量音频文件中删除单个单词或句子并不是一项常见的任务。即使我们确实删除和重新排列音频,它始终是每个轨道的一次性工作,永远不会像您所说的那样大规模。因此,如果有人创建这样的工具,市场将变得微不足道,这将使成本高得令人望而却步。
老实说,我什至无法想象任何法律目的。除了可能移除 F 炸弹。但是由于价格原因,它仍然更具成本效益,更不用说可靠和准确,让音响师手动完成。
我希望这能澄清它。没有“神奇”的应用程序——有满足需求的工具,以市场驱动的比例与所说的需求成比例。不需要,没有市场,没有工具。