Reorganize as letras e compare duas palavras

Question

Just a learner

Asked: 2019-05-06 12:00:25 +0800 CST2019-05-06 12:00:25 +0800 CST 2019-05-06 12:00:25 +0800 CST

Como usar o awk para extrair dados de um arquivo com base no conteúdo de outro arquivo?

772

Eu tenho dois arquivos. Um arquivo inclui dados estruturados e baixo é uma amostra.

article 1 title
article 1 body line 1
article 1 body line 2
+++
article 2 title
article 2 body line 1
article 2 body line 2
article 2 body line 3
+++
article 3 title
article 3 body line 1
article 3 body line 2
+++
article 4 title
article 4 body line 1
article 4 body line 2
article 4 body line 3

Como você pode ver, +++é o separador de registros. Para cada registro, a primeira linha é o título, todas as outras linhas são o conteúdo deste registro. Outro arquivo é um arquivo de texto simples com uma lista de títulos. Por exemplo:

article 1 title
article 3 title
article 4 title

O que eu quero são os registros com seus títulos listados no segundo arquivo. Assim, para o exemplo acima, o resultado esperado é:

article 1 title
article 1 body line 1
article 1 body line 2
+++
article 3 title
article 3 body line 1
article 3 body line 2
+++
article 4 title
article 4 body line 1
article 4 body line 2
article 4 body line 3

Acho que awkprovavelmente poderia resolver meu problema, mas não sei como.

O que eu tentei é isso:

awk 'BEGIN{RS="(\r?\n)?\+{3}(\r?\n)?"; FS="\r?\n"; ORS="+++"} NR==FNR{a[$0];next} ...' title_list.txt data.txt

Meu problema é que o RSpara os dois arquivos deve ser diferente e não sei como fazê-lo funcionar.

3 respostas

Voted

John1024 · Answer 1 · 2019-05-06T13:26:11+08:00

Best Answer

John1024

2019-05-06T13:26:11+08:002019-05-06T13:26:11+08:00

Você pode definir variáveis como RS separadamente para cada arquivo. Por exemplo:

$ awk 'NR==FNR{a[$0];next} $1 in a' RS='\r?\n' title_list.txt RS='+++\r?\n' FS='\r?\n' ORS='+++\n' data.txt
article 1 title
article 1 body line 1
article 1 body line 2
+++
article 3 title
article 3 body line 1
article 3 body line 2
+++
article 4 title
article 4 body line 1
article 4 body line 2
article 4 body line 3
+++

4

jimmij · Answer 2 · 2019-05-06T13:36:09+08:00

jimmij

2019-05-06T13:36:09+08:002019-05-06T13:36:09+08:00

Em gawkvocê pode usar blocos especiais BEGINFILEe ENDFILEdefinir as regras necessárias antes/depois de ler um novo arquivo, por exemplo:

$ awk 'NR==FNR{a[$0]++;next}ENDFILE{RS="+++\n";FS="\n"}a[$1]{printf $0RT}' title_list.txt data.txt 

article 1 title
article 1 body line 1
article 1 body line 2
+++
article 3 title
article 3 body line 1
article 3 body line 2
+++
article 4 title
article 4 body line 1
article 4 body line 2
article 4 body line 3

3

Praveen Kumar BS · Answer 3 · 2019-05-07T07:01:34+08:00

Praveen Kumar BS

2019-05-07T07:01:34+08:002019-05-07T07:01:34+08:00

Feito pelo método abaixo usando a combinação de sed e awk

comando

 k=`awk '{print NR}' file2| sed -n '$p'`

for ((i=1;i<=$k;i++)); do j=`awk -v i="$i" 'NR==i{print $0}' file2`;  sed -n "/$j/,/+++/p" file1; done


output

for ((i=1;i<=$k;i++)); do j=`awk -v i="$i" 'NR==i{print $0}' file2`;  sed -n "/$j/,/+++/p" file1; done
article 1 title
article 1 body line 1
article 1 body line 2
+++
article 3 title
article 3 body line 1
article 3 body line 2
+++
article 4 title
article 4 body line 1
article 4 body line 2
article 4 body line 3

-1

Como usar o awk para extrair dados de um arquivo com base no conteúdo de outro arquivo?

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Como usar o awk para extrair dados de um arquivo com base no conteúdo de outro arquivo?

3 respostas

relate perguntas