JSON数组使用jq来bash变量

Question

João

Asked: 2017-11-26 20:02:47 +0800 CST2017-11-26 20:02:47 +0800 CST 2017-11-26 20:02:47 +0800 CST

csplit 无法识别提供的正则表达式

772

我正在处理这个包含其他几个文件的大文件（ DATA.DAT ，~900MB）。它来自PS2游戏。

声音样本（.AIFF格式），正是我所追求的，构成了它的大部分大小。

在网上搜索 PS2 .DAT提取器后，我发现它们基本上依赖于开发人员，并且由于这个游戏/工具相当晦涩，并且在网上找不到太多关于它的信息，我考虑过自己自动化这个过程。

在十六进制编辑器上检查文件时，我发现了一些.AIFF标头，将这些块克隆到新的.AIFF文件中，无需任何进一步的工作，它们就可以播放了。

花了一段时间从我非常有限的 bash 知识中得到生锈，并在这里阅读了类似的问题，我想出了这个表达：

gcsplit -f "sample-" -b "%04d.aif" DATA.DAT /FORM/ '{*}'

（我在 OSX 上使用 coreutils，因此 csplit 上的 g- 前缀）

鉴于.AIFF文件以字符串“FORM”开头，并且文件中的所有样本基本上都彼此相邻（由不会在样本上产生不需要的结束噪声的可忽略的数据量隔开），我认为正则表达式

/FORM/

将文件拆分就足够了。

但是，每个拆分文件都与位于.AIFF标头之前的声音样本之间的垃圾数据一起输出，使其无法播放。

下面是分割声音样本的十六进制数据的屏幕截图：

这个实际样本大约从 1500 字节标记开始：

是什么让这个表达式用偏移量分割文件？

2 个回答

Voted

Gilles 'SO- stop being evil' · Answer 1 · 2017-11-27T04:32:19+08:00

Csplit 是一个文本实用程序。它是基于行的。模式的/FORM/意思是“包含的行FORM”。行是 LF 以外的字节序列（换行，也称为换行符，可以写成\n, ^J, ...），后跟一个 LF 字节（或文件末尾，使用 GNU 实用程序）。因此，您观察到的“垃圾”是前一个 LF 字符和FORM子字符串之间的任何内容。

手册页和--help简短描述假定您已经知道该命令的作用，因此它们仅提及“片段”而没有解释。您需要阅读完整的文档以了解这些部分是什么。

你不能用 csplit 做你想做的事。您可以使用 GNU awk 来完成。（其他版本的 awk 可能没有必要的特性——支持任意记录分隔符和处理空字节。）未经测试：

gawk -v RS='FORM' -v ORS='' '{
    print "FORM" $0 >sprintf("sample-%04d.aif", n++)
}' DATA.DAT

但是，如果压缩数据恰好包含四个字节，这可能会在虚假的地方减少FORM。这对于手动审查的一次性操作可能已经足够了，但如果您需要可靠的东西，最好使用格式感知工具。

J_H · Answer 2 · 2017-11-26T22:38:41+08:00

J_H

2017-11-26T22:38:41+08:002017-11-26T22:38:41+08:00

基于文本的实用程序不适合处理二进制文件。

使用Lib/aifc、PySoundFile或ffmpeg命令行应用程序可能会获得更好的结果。

0

csplit 无法识别提供的正则表达式