AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 557632
Accepted
Andrej
Andrej
Asked: 2019-12-17 22:41:09 +0800 CST2019-12-17 22:41:09 +0800 CST 2019-12-17 22:41:09 +0800 CST

使用 csplit (或类似工具)将文件拆分为 n 个文件

  • 772

我有一个具有以下模式的大文件:

ABC
line 1
line 2
line 3
ABC
line 1
line 2
ABC
line1
ABC
line 1
line 3

使用csplit工具,我可以根据/ABC/模式将上面的文件拆分为 4 个子文件:

csplit -z input.txt /ABC/ {*}

我想知道如何手动指定所需输出文件的数量。

split csplit
  • 1 1 个回答
  • 378 Views

1 个回答

  • Voted
  1. Best Answer
    FelixJN
    2019-12-18T02:01:02+08:002019-12-18T02:01:02+08:00

    您可以使用awk- 不完全是您想要的,但可能会成功。

    想法:将 n 行打印到零件文件中,然后在创建新的零件文件之前搜索下一次出现的模式。

    缺点:

    • 如果您有大块并且只是跳过了此类块的开头,则某些文件可能会变得比其他文件大得多。
    • 原始文件未删除(即所需空间的两倍)。
    • 如所写,匹配线必须准确ABC(与同一行上的其他词相比没有公差 - 可以调整)
    • 通过设置行数而不是所需的输出文件数来工作(根据输入文件的行数估算)

    akw-脚本

    BEGIN{
        outfile="part_"++i
        j=0
        }
    { 
        j++
        #block size set to at least 10 lines in this example
        #if threshold line number reached: search for next keyword,
        #then increase part file name counter and reset line threshold counter
        if ( j>=10 && $0 == "ABC" ) { outfile="part_"++i ; j=0 }
        print > outfile
    }
    

    通过执行

    awk -f script.awk input.txt
    
    • 1

相关问题

  • 基于花括号将一条线分成许多部分?

  • csplit 的替代方法 - 在模式之后拆分

  • 为什么 gzip 不创建相同大小的文件?

  • 如何使用多个线程将文件拆分为多个文件?

  • csplit 无法识别提供的正则表达式

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve