AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 406382
Accepted
Vladislavs Dovgalecs
Vladislavs Dovgalecs
Asked: 2017-11-23 11:33:59 +0800 CST2017-11-23 11:33:59 +0800 CST 2017-11-23 11:33:59 +0800 CST

多行文件洗牌

  • 772

我有一个文本文件,其中空行分隔文本块。我想使用 *NIX 命令行工具来洗牌这个文件,同时尊重块结构。换句话说,在输出中我想看到块的改变顺序;块内的行及其顺序保持不变。

输入文件示例:

line 1
line 2

line 10
line 20
line 30

line 100
line 200

输出文件(洗牌后):

line 10
line 20
line 30

line 1
line 2

line 100
line 200

当然,重复运行应该给出不同的块顺序。

文件的第一行总是非空的。没有双空行。文件的最后一行始终为空。

我编写了一个非常简单的 Python 脚本,它读取列表列表中的所有行,将其打乱并输出。我很好奇我是否可以使用标准的 *NIX 工具来做到这一点。

awk text-processing
  • 3 3 个回答
  • 1304 Views

3 个回答

  • Voted
  1. Best Answer
    Stéphane Chazelas
    2017-11-23T14:11:06+08:002017-11-23T14:11:06+08:00

    POSIXly,您可以执行以下操作:

    <file awk '
      BEGIN{srand(); n=rand()}
      {print n, NR, $0}
      !NF {n=rand()}
      END {if (NF) print n, NR+1, ""}' |
      sort -nk1 -k2 |
      cut -d' ' -f3-
    

    也就是说,在每行<a-random-number-that-changes-with-each-paragraph>前面加上行号,然后按第一个数字和第二个数字排序,以保持段落中的行顺序并删除那些多余的数字。

    可能需要通过管道sed '$d'删除尾随的空白行。

    请注意,大多数awk实现 srand()使用 unix 纪元时间来播种伪随机数生成器,因此如果在同一秒内运行两次,您可能会得到相同的结果(尽管我很遗憾,但现在在 POSIX 规范中雕刻了一个历史错误)。

    • 8
  2. John1024
    2017-11-23T11:54:18+08:002017-11-23T11:54:18+08:00

    使用 GNU 工具,这会将段落分成 NUL 分隔的组,将它们打乱,然后删除 NUL:

    $ sed '1s/^/\n/; s/^$/\x00/' input | shuf -z | sed '1d; s/\x00//'
    line 100
    line 200
    
    line 10
    line 20
    line 30
    
    line 1
    line 2
    

    不使用 NUL 的替代方法

    由于并非所有工具都支持 NUL 字符,因此这里有一个替代方法。这在段落中读取,替换~换行符,然后随机播放,然后~在显示结果之前将回转换为换行符:

    $ awk '{gsub(/\n/, "~")} 1' RS= input | shuf | awk '{gsub(/~/, "\n")} 1' ORS="\n\n"
    line 10
    line 20
    line 30
    
    line 100
    line 200
    
    line 1
    line 2
    

    如果您的文本可能包含~,则使用文本不包含的另一个字符作为临时行分隔符。

    • 5
  3. Jeff Schaller
    2017-11-23T12:02:40+08:002017-11-23T12:02:40+08:00

    使用 perl:

    perl -MList::Util -00 -e 'chomp(my @a=<>); print join("\n\n", List::Util::shuffle @a) . "\n";' < input
    

    或者作为脚本文件展开:

    #!/usr/bin/perl
    use List::Util 'shuffle';
    local $/ = "";  ## paragraph mode
    chomp(my @a = <>);
    print join("\n\n", shuffle @a) . "\n";
    
    • 5

相关问题

  • 如何更改字符大小写(从小到大,反之亦然)?同时[重复]

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    JSON数组使用jq来bash变量

    • 4 个回答
  • Marko Smith

    日期可以为 GMT 时区格式化当前时间吗?[复制]

    • 2 个回答
  • Marko Smith

    bash + 通过 bash 脚本从文件中读取变量和值

    • 4 个回答
  • Marko Smith

    如何复制目录并在同一命令中重命名它?

    • 4 个回答
  • Marko Smith

    ssh 连接。X11 连接因身份验证错误而被拒绝

    • 3 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Marko Smith

    systemctl 命令在 RHEL 6 中不起作用

    • 3 个回答
  • Marko Smith

    rsync 端口 22 和 873 使用

    • 2 个回答
  • Marko Smith

    以 100% 的利用率捕捉 /dev/loop -- 没有可用空间

    • 1 个回答
  • Marko Smith

    jq 打印子对象中所有的键和值

    • 2 个回答
  • Martin Hope
    EHerman JSON数组使用jq来bash变量 2017-12-31 14:50:58 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST
  • Martin Hope
    Drux 日期可以为 GMT 时区格式化当前时间吗?[复制] 2017-12-26 11:35:07 +0800 CST
  • Martin Hope
    AllisonC 如何复制目录并在同一命令中重命名它? 2017-12-22 05:28:06 +0800 CST
  • Martin Hope
    Steve “root”用户的文件权限如何工作? 2017-12-22 02:46:01 +0800 CST
  • Martin Hope
    Bagas Sanjaya 为什么 Linux 使用 LF 作为换行符? 2017-12-20 05:48:21 +0800 CST
  • Martin Hope
    Cbhihe 将默认编辑器更改为 vim for _ sudo systemctl edit [unit-file] _ 2017-12-03 10:11:38 +0800 CST
  • Martin Hope
    showkey 如何下载软件包而不是使用 apt-get 命令安装它? 2017-12-03 02:15:02 +0800 CST
  • Martin Hope
    youxiao 为什么目录 /home、/usr、/var 等都具有相同的 inode 编号 (2)? 2017-12-02 05:33:41 +0800 CST
  • Martin Hope
    user223600 gpg —list-keys 命令在将私钥导入全新安装后输出 uid [未知] 2017-11-26 18:26:02 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve