Estou tentando combinar vários arquivos em um arquivo final. Cada arquivo tem muitas entradas dentro deles, a maioria com títulos sobrepostos. Eu gostaria de mesclar o conteúdo entre ambos, sob os cabeçalhos do título. Pense em combinar dois dicionários e faz mais sentido. Entradas para uma única palavra podem ser encontradas em ambos, mas as definições diferem ligeiramente em cada um. Algumas entradas existem em um e não no outro, etc.
Por exemplo, gostaria de mesclar esses dois arquivos para produzir um único arquivo de saída:
Arquivo 1
Entry 1
Green Trees
Entry 3
Orange Fibers
Arquivo 2
Entry 1
Red Trees
Entry 2
Spotted Zebras
Entry 3
Blue Fibers
Arquivo de saída
Entry 1
Green Trees
Red Trees
Entry 2
Spotted Zebras
Entry 3
Orange Fibers
Blue Fibers
Observe que a Entrada 2 não existia no Arquivo 1, mas chegou ao produto final. Da mesma forma, o conteúdo de cada entrada foi mesclado em qualquer lugar correspondente ao ID da entrada.
Como posso fazer isso?
EDIT: O texto acima é uma versão simplificada para fazer a pergunta. Abaixo está uma amostra de entradas reais nos arquivos.
O $$$00001 é o título da Entrada.
Do arquivo 1
$$$00001
<b><br>- Original: Α<b><br></b></b>- Transliteration: A<b><br></b></b>- Phonetic: al'-fah<b><br></b></b>-...
$$$00002
<b><br>- Original: script<b><br></b></b>- Translitera...
Do arquivo 2
$$$00001
<b><br>α<b><br></b></b>a; indeclinable...
$$$00002
<b><br>texts<b><br></b></b>A...
Um simples
awk
one-liner resolve seu exemplo:Suponho que você saiba que basicamente
awk
processa as linhas de entrada uma após a outra de acordo com um programa. Esteawk
programa específico é especificado como primeiro argumento e consiste em três instruções. Vamos analisá-los um por um:/^Entry/{k=$0;next}
significa: se a linha processada corresponder a/^Entry/
, armazene-a na variávelk
e vá para o próximo ciclo ignorando as instruções a seguir.{g[k]=g[k]"\n"$0}
não tem condição precedente, então é sempre executado, e significa: atualizar o valor armazenado no dicionáriog
com a chavek
: o novo valor deve ser a concatenação do valor anterior (possivelmente vazio)g[k]
, um retorno de carro"\n"
e a linha atual .END{for(k in g)print k g[k]}
tem umaEND
condição e, portanto, é executado quando todas as linhas de entrada forem processadas. Ele diz: para cada chave emg
, ou seja, para cada título que apareceu nos arquivos de entrada, imprima o valor associado, que é a concatenação de todas as linhas encontradas nos arquivos de entrada sob aquele título.Para usá-lo IRL, você deve substituir
/^Entry/
pelo padrão correto (provavelmente/^\$\$\$/
).