重新排列字母并比较两个单词

Question

Just a learner

Asked: 2019-05-06 12:00:25 +0800 CST2019-05-06 12:00:25 +0800 CST 2019-05-06 12:00:25 +0800 CST

如何使用awk根据另一个文件的内容从一个文件中提取数据？

772

我有两个文件。一个文件包含结构化数据，并且是一个样本。

article 1 title
article 1 body line 1
article 1 body line 2
+++
article 2 title
article 2 body line 1
article 2 body line 2
article 2 body line 3
+++
article 3 title
article 3 body line 1
article 3 body line 2
+++
article 4 title
article 4 body line 1
article 4 body line 2
article 4 body line 3

如您所见，+++是记录的分隔符。对于每条记录，第一行是标题，所有其他行都是该记录的内容。另一个文件是带有标题列表的简单文本文件。例如：

article 1 title
article 3 title
article 4 title

我想要的是第二个文件中列出的标题记录。所以对于前面提到的例子，预期的结果是：

article 1 title
article 1 body line 1
article 1 body line 2
+++
article 3 title
article 3 body line 1
article 3 body line 2
+++
article 4 title
article 4 body line 1
article 4 body line 2
article 4 body line 3

我认为awk可能可以解决我的问题，但我不知道如何。

我试过的是这样的：

awk 'BEGIN{RS="(\r?\n)?\+{3}(\r?\n)?"; FS="\r?\n"; ORS="+++"} NR==FNR{a[$0];next} ...' title_list.txt data.txt

我的问题是这RS两个文件的文件应该不同，我不知道如何使它工作。

3 个回答

Voted

John1024 · Answer 1 · 2019-05-06T13:26:11+08:00

Best Answer

John1024

2019-05-06T13:26:11+08:002019-05-06T13:26:11+08:00

您可以为每个文件分别设置 RS 等变量。例如：

$ awk 'NR==FNR{a[$0];next} $1 in a' RS='\r?\n' title_list.txt RS='+++\r?\n' FS='\r?\n' ORS='+++\n' data.txt
article 1 title
article 1 body line 1
article 1 body line 2
+++
article 3 title
article 3 body line 1
article 3 body line 2
+++
article 4 title
article 4 body line 1
article 4 body line 2
article 4 body line 3
+++

4

jimmij · Answer 2 · 2019-05-06T13:36:09+08:00

jimmij

2019-05-06T13:36:09+08:002019-05-06T13:36:09+08:00

在gawk您可以使用特殊块BEGINFILE并ENDFILE在读取新文件之前/之后设置您需要的任何规则，例如：

$ awk 'NR==FNR{a[$0]++;next}ENDFILE{RS="+++\n";FS="\n"}a[$1]{printf $0RT}' title_list.txt data.txt 

article 1 title
article 1 body line 1
article 1 body line 2
+++
article 3 title
article 3 body line 1
article 3 body line 2
+++
article 4 title
article 4 body line 1
article 4 body line 2
article 4 body line 3

3

Praveen Kumar BS · Answer 3 · 2019-05-07T07:01:34+08:00

Praveen Kumar BS

2019-05-07T07:01:34+08:002019-05-07T07:01:34+08:00

通过以下方法使用 sed 和 awk 的组合完成

命令

 k=`awk '{print NR}' file2| sed -n '$p'`

for ((i=1;i<=$k;i++)); do j=`awk -v i="$i" 'NR==i{print $0}' file2`;  sed -n "/$j/,/+++/p" file1; done


output

for ((i=1;i<=$k;i++)); do j=`awk -v i="$i" 'NR==i{print $0}' file2`;  sed -n "/$j/,/+++/p" file1; done
article 1 title
article 1 body line 1
article 1 body line 2
+++
article 3 title
article 3 body line 1
article 3 body line 2
+++
article 4 title
article 4 body line 1
article 4 body line 2
article 4 body line 3

-1

如何使用awk根据另一个文件的内容从一个文件中提取数据？

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何使用awk根据另一个文件的内容从一个文件中提取数据？

3 个回答

相关问题