列出根据特定内容行排序的文件

Question

roaima

Asked: 2018-05-31 08:03:20 +0800 CST2018-05-31 08:03:20 +0800 CST 2018-05-31 08:03:20 +0800 CST

将 comm 与以 NULL 结尾的记录一起使用

772

在对另一个问题的回答中，我想使用类似这样的结构来查找出现在list2但未出现在中的文件list1：

( cd dir1 && find . -type f -print0 ) | sort -z > list1
( cd dir2 && find . -type f -print0 ) | sort -z > list2
comm -13 list1 list2

但是，我遇到了麻烦，因为我的版本comm无法处理以 NULL 结尾的记录。（一些背景：我将一个计算列表传递给rm，所以我特别希望能够处理可能包含嵌入式换行符的文件名。）

如果你想要一个简单的例子，试试这个

mkdir dir1 dir2
touch dir1/{a,b,c} dir2/{a,c,d}
( cd dir1 && find . -type f ) | sort > list1
( cd dir2 && find . -type f ) | sort > list2
comm -13 list1 list2

如果没有以 NULL 结尾的行，此处的输出是./d仅出现在list2.

我希望能够用来find ... -print0 | sort -z生成列表。

我怎样才能最好地重新实现等效于输出出现在但未comm出现在中的以 NULL 结尾的记录的等效项？list2list1

1 个回答

Voted

Stéphane Chazelas · Answer 1 · 2018-05-31T08:33:53+08:00

GNU comm（从 GNU coreutils 8.25 开始）现在有一个-z/--zero-terminated选项。

对于旧版本的 GNU comm，您应该能够交换 NUL 和 NL：

comm -13 <(cd dir1 && find . -type f -print0 | tr '\n\0' '\0\n' | sort) \
         <(cd dir2 && find . -type f -print0 | tr '\n\0' '\0\n' | sort) |
  tr '\n\0' '\0\n'

这种方式comm仍然适用于以换行符分隔的记录，但输入中的实际换行符编码为 NUL，因此我们仍然可以安全地使用包含换行符的文件名。

您可能还想将语言环境设置为，C因为至少在 GNU 系统和大多数 UTF-8 语言环境中，有不同的字符串排序相同，会在此处引起问题¹。

这是一个非常常见的技巧（参见Invert matching lines, NUL-separated另一个例子comm），但是需要在输入中支持 NUL 的实用程序，这在 GNU 系统之外是相对罕见的。

¹ 示例：

$ touch dir1/{①,②} dir2/{②,③}
$ comm -12 <(cd dir1 && find . -type f -print0 | tr '\n\0' '\0\n' | sort) \
           <(cd dir2 && find . -type f -print0 | tr '\n\0' '\0\n' | sort)  
./③
./②
$ (export LC_ALL=C
    comm -12 <(cd dir1 && find . -type f -print0 | tr '\n\0' '\0\n' | sort) \
             <(cd dir2 && find . -type f -print0 | tr '\n\0' '\0\n' | sort))
./②

（2019 年编辑：①②③ 的相对顺序已在较新版本的 GNU libc 中得到修复，但您可以使用 ? ? ? 代替，例如在较新版本（至少 2.30）中仍然存在 95% 的 Unicode 代码点等问题)

将 comm 与以 NULL 结尾的记录一起使用

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

将 comm 与以 NULL 结尾的记录一起使用

1 个回答

相关问题