我正在处理这个包含其他几个文件的大文件( DATA.DAT ,~900MB)。它来自PS2游戏。
声音样本(.AIFF格式),正是我所追求的,构成了它的大部分大小。
在网上搜索 PS2 .DAT提取器后,我发现它们基本上依赖于开发人员,并且由于这个游戏/工具相当晦涩,并且在网上找不到太多关于它的信息,我考虑过自己自动化这个过程。
在十六进制编辑器上检查文件时,我发现了一些.AIFF标头,将这些块克隆到新的.AIFF文件中,无需任何进一步的工作,它们就可以播放了。
花了一段时间从我非常有限的 bash 知识中得到生锈,并在这里阅读了类似的问题,我想出了这个表达:
gcsplit -f "sample-" -b "%04d.aif" DATA.DAT /FORM/ '{*}'
(我在 OSX 上使用 coreutils,因此 csplit 上的 g- 前缀)
鉴于.AIFF文件以字符串“FORM”开头,并且文件中的所有样本基本上都彼此相邻(由不会在样本上产生不需要的结束噪声的可忽略的数据量隔开),我认为正则表达式
/FORM/
将文件拆分就足够了。
但是,每个拆分文件都与位于.AIFF标头之前的声音样本之间的垃圾数据一起输出,使其无法播放。
下面是分割声音样本的十六进制数据的屏幕截图:
这个实际样本大约从 1500 字节标记开始:
是什么让这个表达式用偏移量分割文件?