AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 407071
Accepted
João
João
Asked: 2017-11-26 20:02:47 +0800 CST2017-11-26 20:02:47 +0800 CST 2017-11-26 20:02:47 +0800 CST

csplit 无法识别提供的正则表达式

  • 772

我正在处理这个包含其他几个文件的大文件( DATA.DAT ,~900MB)。它来自PS2游戏。

声音样本(.AIFF格式),正是我所追求的,构成了它的大部分大小。

在网上搜索 PS2 .DAT提取器后,我发现它们基本上依赖于开发人员,并且由于这个游戏/工具相当晦涩,并且在网上找不到太多关于它的信息,我考虑过自己自动化这个过程。

在十六进制编辑器上检查文件时,我发现了一些.AIFF标头,将这些块克隆到新的.AIFF文件中,无需任何进一步的工作,它们就可以播放了。

花了一段时间从我非常有限的 bash 知识中得到生锈,并在这里阅读了类似的问题,我想出了这个表达:

gcsplit -f "sample-" -b "%04d.aif" DATA.DAT /FORM/ '{*}'

(我在 OSX 上使用 coreutils,因此 csplit 上的 g- 前缀)

鉴于.AIFF文件以字符串“FORM”开头,并且文件中的所有样本基本上都彼此相邻(由不会在样本上产生不需要的结束噪声的可忽略的数据量隔开),我认为正则表达式

/FORM/

将文件拆分就足够了。

但是,每个拆分文件都与位于.AIFF标头之前的声音样本之间的垃圾数据一起输出,使其无法播放。

下面是分割声音样本的十六进制数据的屏幕截图:

坏分裂

这个实际样本大约从 1500 字节标记开始:

样本

是什么让这个表达式用偏移量分割文件?

osx csplit
  • 2 2 个回答
  • 808 Views

2 个回答

  • Voted
  1. Best Answer
    Gilles 'SO- stop being evil'
    2017-11-27T04:32:19+08:002017-11-27T04:32:19+08:00

    Csplit 是一个文本实用程序。它是基于行的。模式的/FORM/意思是“包含 的行FORM”。行是 LF 以外的字节序列(换行,也称为换行符,可以写成\n, ^J, ...),后跟一个 LF 字节(或文件末尾,使用 GNU 实用程序)。因此,您观察到的“垃圾”是前一个 LF 字符和FORM子字符串之间的任何内容。

    手册页和--help简短描述假定您已经知道该命令的作用,因此它们仅提及“片段”而没有解释。您需要阅读完整的文档以了解这些部分是什么。

    你不能用 csplit 做你想做的事。您可以使用 GNU awk 来完成。(其他版本的 awk 可能没有必要的特性——支持任意记录分隔符和处理空字节。)未经测试:

    gawk -v RS='FORM' -v ORS='' '{
        print "FORM" $0 >sprintf("sample-%04d.aif", n++)
    }' DATA.DAT
    

    但是,如果压缩数据恰好包含四个字节,这可能会在虚假的地方减少FORM。这对于手动审查的一次性操作可能已经足够了,但如果您需要可靠的东西,最好使用格式感知工具。

    • 2
  2. J_H
    2017-11-26T22:38:41+08:002017-11-26T22:38:41+08:00

    基于文本的实用程序不适合处理二进制文件。

    使用Lib/aifc、PySoundFile或ffmpeg命令行应用程序可能会获得更好的结果。

    • 0

相关问题

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    JSON数组使用jq来bash变量

    • 4 个回答
  • Marko Smith

    日期可以为 GMT 时区格式化当前时间吗?[复制]

    • 2 个回答
  • Marko Smith

    bash + 通过 bash 脚本从文件中读取变量和值

    • 4 个回答
  • Marko Smith

    如何复制目录并在同一命令中重命名它?

    • 4 个回答
  • Marko Smith

    ssh 连接。X11 连接因身份验证错误而被拒绝

    • 3 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Marko Smith

    systemctl 命令在 RHEL 6 中不起作用

    • 3 个回答
  • Marko Smith

    rsync 端口 22 和 873 使用

    • 2 个回答
  • Marko Smith

    以 100% 的利用率捕捉 /dev/loop -- 没有可用空间

    • 1 个回答
  • Marko Smith

    jq 打印子对象中所有的键和值

    • 2 个回答
  • Martin Hope
    EHerman JSON数组使用jq来bash变量 2017-12-31 14:50:58 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST
  • Martin Hope
    Drux 日期可以为 GMT 时区格式化当前时间吗?[复制] 2017-12-26 11:35:07 +0800 CST
  • Martin Hope
    AllisonC 如何复制目录并在同一命令中重命名它? 2017-12-22 05:28:06 +0800 CST
  • Martin Hope
    Steve “root”用户的文件权限如何工作? 2017-12-22 02:46:01 +0800 CST
  • Martin Hope
    Bagas Sanjaya 为什么 Linux 使用 LF 作为换行符? 2017-12-20 05:48:21 +0800 CST
  • Martin Hope
    Cbhihe 将默认编辑器更改为 vim for _ sudo systemctl edit [unit-file] _ 2017-12-03 10:11:38 +0800 CST
  • Martin Hope
    showkey 如何下载软件包而不是使用 apt-get 命令安装它? 2017-12-03 02:15:02 +0800 CST
  • Martin Hope
    youxiao 为什么目录 /home、/usr、/var 等都具有相同的 inode 编号 (2)? 2017-12-02 05:33:41 +0800 CST
  • Martin Hope
    user223600 gpg —list-keys 命令在将私钥导入全新安装后输出 uid [未知] 2017-11-26 18:26:02 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve