AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / unix / Perguntas / 436716
Accepted
Matt Zabojnik
Matt Zabojnik
Asked: 2018-04-11 00:18:09 +0800 CST2018-04-11 00:18:09 +0800 CST 2018-04-11 00:18:09 +0800 CST

Combine arquivos de texto por título usando grep awk sed

  • 772

Estou tentando combinar vários arquivos em um arquivo final. Cada arquivo tem muitas entradas dentro deles, a maioria com títulos sobrepostos. Eu gostaria de mesclar o conteúdo entre ambos, sob os cabeçalhos do título. Pense em combinar dois dicionários e faz mais sentido. Entradas para uma única palavra podem ser encontradas em ambos, mas as definições diferem ligeiramente em cada um. Algumas entradas existem em um e não no outro, etc.

Por exemplo, gostaria de mesclar esses dois arquivos para produzir um único arquivo de saída:

Arquivo 1

Entry 1
Green Trees
Entry 3
Orange Fibers

Arquivo 2

Entry 1
Red Trees
Entry 2
Spotted Zebras
Entry 3
Blue Fibers

Arquivo de saída

Entry 1
Green Trees
Red Trees
Entry 2
Spotted Zebras
Entry 3
Orange Fibers
Blue Fibers

Observe que a Entrada 2 não existia no Arquivo 1, mas chegou ao produto final. Da mesma forma, o conteúdo de cada entrada foi mesclado em qualquer lugar correspondente ao ID da entrada.

Como posso fazer isso?

EDIT: O texto acima é uma versão simplificada para fazer a pergunta. Abaixo está uma amostra de entradas reais nos arquivos.

O $$$00001 é o título da Entrada.

Do arquivo 1

$$$00001
<b><br>- Original: Α<b><br></b></b>- Transliteration: A<b><br></b></b>- Phonetic: al'-fah<b><br></b></b>-...
$$$00002
<b><br>- Original: script<b><br></b></b>- Translitera...

Do arquivo 2

$$$00001
<b><br>α<b><br></b></b>a; indeclinable...
$$$00002
<b><br>texts<b><br></b></b>A...
text-processing
  • 1 1 respostas
  • 725 Views

1 respostas

  • Voted
  1. Best Answer
    Dario
    2018-04-11T01:14:56+08:002018-04-11T01:14:56+08:00

    Um simples awkone-liner resolve seu exemplo:

    awk '/^Entry/{k=$0;next}{g[k]=g[k]"\n"$0}END{for(k in g)print k g[k]}' file1 file2
    

    Suponho que você saiba que basicamente awkprocessa as linhas de entrada uma após a outra de acordo com um programa. Este awkprograma específico é especificado como primeiro argumento e consiste em três instruções. Vamos analisá-los um por um:

    • /^Entry/{k=$0;next}significa: se a linha processada corresponder a /^Entry/, armazene-a na variável ke vá para o próximo ciclo ignorando as instruções a seguir.

    • {g[k]=g[k]"\n"$0}não tem condição precedente, então é sempre executado, e significa: atualizar o valor armazenado no dicionário gcom a chave k: o novo valor deve ser a concatenação do valor anterior (possivelmente vazio) g[k], um retorno de carro "\n"e a linha atual .

    • END{for(k in g)print k g[k]}tem uma ENDcondição e, portanto, é executado quando todas as linhas de entrada forem processadas. Ele diz: para cada chave em g, ou seja, para cada título que apareceu nos arquivos de entrada, imprima o valor associado, que é a concatenação de todas as linhas encontradas nos arquivos de entrada sob aquele título.

    Para usá-lo IRL, você deve substituir /^Entry/pelo padrão correto (provavelmente /^\$\$\$/).

    • 1

relate perguntas

  • Grep para um conjunto de linhas de $START a $END AND que contém uma correspondência em $MIDDLE

  • Reorganize as letras e compare duas palavras

  • Subtraindo a mesma coluna entre duas linhas no awk

  • Embaralhamento de arquivo de várias linhas

  • como posso alterar o caso do caractere (de baixo para cima e vice-versa)? ao mesmo tempo [duplicado]

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como exportar uma chave privada GPG e uma chave pública para um arquivo

    • 4 respostas
  • Marko Smith

    ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

    • 4 respostas
  • Marko Smith

    Como podemos executar um comando armazenado em uma variável?

    • 5 respostas
  • Marko Smith

    Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

    • 3 respostas
  • Marko Smith

    Como descarregar o módulo do kernel 'nvidia-drm'?

    • 13 respostas
  • Marko Smith

    apt-get update error no Kali Linux após a atualização do dist [duplicado]

    • 2 respostas
  • Marko Smith

    Como ver as últimas linhas x do log de serviço systemctl

    • 5 respostas
  • Marko Smith

    Nano - pule para o final do arquivo

    • 8 respostas
  • Marko Smith

    erro grub: você precisa carregar o kernel primeiro

    • 4 respostas
  • Marko Smith

    Como baixar o pacote não instalá-lo com o comando apt-get?

    • 7 respostas
  • Martin Hope
    rocky Como exportar uma chave privada GPG e uma chave pública para um arquivo 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Wong Jia Hau ssh-add retorna com: "Erro ao conectar ao agente: nenhum arquivo ou diretório" 2018-08-24 23:28:13 +0800 CST
  • Martin Hope
    Evan Carroll status systemctl mostra: "Estado: degradado" 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim Como podemos executar um comando armazenado em uma variável? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S Por que /dev/null é um arquivo? Por que sua função não é implementada como um programa simples? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 Como ver as últimas linhas x do log de serviço systemctl 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - pule para o final do arquivo 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla Por que verdadeiro e falso são tão grandes? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis Substitua a string em um arquivo de texto enorme (70 GB), uma linha 2017-12-30 06:58:33 +0800 CST
  • Martin Hope
    Bagas Sanjaya Por que o Linux usa LF como caractere de nova linha? 2017-12-20 05:48:21 +0800 CST

Hot tag

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve