grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

Question

user3776738

Asked: 2019-06-18 10:38:25 +0800 CST2019-06-18 10:38:25 +0800 CST 2019-06-18 10:38:25 +0800 CST

如何删除文本文件中的重复行并获取已删除行的数量？

772

我知道

awk '!seen[$0]++' filename > output.txt

可以从文本文件中删除所有重复项。但是我如何获取已删除行的列表，以便使用此信息删除另一个文件中的相同行。

我需要这个，因为我想删除用一种语言编写的大型文本文件中的所有重复项，然后使用该语言的翻译删除文件中的相同行，而不会丢失翻译的匹配。

为了更清楚：（文件 1）

line A
line B
line A
line C
...

（文件 2）：

line 1
line 2
line 3
line 4
...

从文件 1 中删除“line A”并从文件 2 中删除“line 3”。需要翻译：

line A -> line 1
line B -> line 2
line C -> line 4
...

文件 1B（已删除重复项）将如下所示：

line A
line B
line C
...

文件 2B（已删除重复项）将如下所示：

line 1
line 2
line 4
...

2 个回答

Voted

Kusalananda · Answer 1 · 2019-06-18T11:25:29+08:00

Best Answer

Kusalananda

2019-06-18T11:25:29+08:002019-06-18T11:25:29+08:00

$ awk 'FNR==NR && !seen[$0]++ { keep[FNR]=$0; next } (FNR in keep) { printf("%s -> %s\n", keep[FNR], $0) }' file1 file2
line A -> line 1
line B -> line 2
line C -> line 4

这将使用程序重现问题中间的输出awk。

程序读取第一个文件 ( file1) 并在第一个块中找到重复的行。该块还保存要保留在数组中keep的行，按行号索引。

在读取第二个文件（代码中的第二个块）时，如果行号是我们想要保留的行号，则将第一个文件中保存的行与第二个文件中的行一起输出。

保存两个新文件的变体：

awk 'FNR==NR && !seen[$0]++ { keep[FNR]=$0; print >FILENAME ".new"; next } (FNR in keep) { print >FILENAME ".new" }' file1 file2

这将file1.new仅使用中的唯一行file1写入，并且将file2.new使用相同的行写入，但来自file2。

此解决方案的唯一缺点是它需要 2 个x内存，其中x是第一个文件中唯一行的数量，即，它将存储每个唯一行的两个副本（作为数组file1中的索引seen和值）。keep

0

glenn jackman · Answer 2 · 2019-06-18T11:33:16+08:00

glenn jackman

2019-06-18T11:33:16+08:002019-06-18T11:33:16+08:00

这是一个两步的过程：

一个 awk 脚本来生成一个 sed 脚本来删除不需要的行
```
awk 'seen[$0]++ {print NR "d"}' file1 > remove.sed 
```
然后使用 sed 脚本删除所需文件中的行
```
sed -i -f remove.sed file1 file2
```

0

如何删除文本文件中的重复行并获取已删除行的数量？

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何删除文本文件中的重复行并获取已删除行的数量？

2 个回答

相关问题