Reorganize as letras e compare duas palavras

Question

Kiwy

Asked: 2018-05-25 03:50:10 +0800 CST2018-05-25 03:50:10 +0800 CST 2018-05-25 03:50:10 +0800 CST

Extraia o valor de FILENAME em awk e use-o como um novo campo

772

Estou trabalhando em um arquivo CSV nomeado Event_42417555_2018-05-23_16\:45\:28-log.txte formatado assim:

timestamp;fullpath;event;size
1521540649.02;/home/workdir/ScienceXMLIn/config.cfg;IN_OPEN;2324
1521540649.02;/home/workdir/ScienceXMLIn/config.cfg;IN_ACCESS;2324
1521540649.02;/home/workdir/ScienceXMLIn/config.cfg;IN_CLOSE_NOWRITE;2324
1521540649.02;/home/workdir/quad_list_14.json;IN_OPEN;2160
1521540649.03;/home/workdir/quad_list_14.json;IN_ACCESS;2160
1521540649.03;/home/workdir/quad_list_14.json;IN_CLOSE_NOWRITE;2160

O que eu quero é adicionar uma coluna a este arquivo com base em um valor no nome do arquivo extraído com regex [0-9]{8}(e remover o cabeçalho).

1521540649.02;/home/workdir/ScienceXMLIn/config.cfg;IN_OPEN;2324;42417555
1521540649.02;/home/workdir/ScienceXMLIn/config.cfg;IN_ACCESS;2324;42417555
1521540649.02;/home/workdir/ScienceXMLIn/config.cfg;IN_CLOSE_NOWRITE;2324;42417555
1521540649.02;/home/workdir/quad_list_14.json;IN_OPEN;2160;42417555
1521540649.03;/home/workdir/quad_list_14.json;IN_ACCESS;2160;42417555
1521540649.03;/home/workdir/quad_list_14.json;IN_CLOSE_NOWRITE;2160;42417555

Com as ferramentas gnu é fácil, seria assim (pouco testado e quase certo que há algum problema com aspas de alguma forma):

#!/bin/bash
#$1 being the filename
JOBID=$(grep -oE "[0-9]{8}" "${1}")
sed -E "s/(.*)/\1;$JOBID/" "${1}"

Eu quero conseguir isso awkaté agora aqui o que funcionou melhor :

awk -F";"  'JOBID=substr(FILENAME ,match(FILENAME,"[0-9]{8}"),8); \  
BEGIN { OFS=";"} { if ($1 != "timestamp") print $0,JOBID; }' \  
Event_42417555_2018-05-23_16\:45\:28-log.txt | head

timestamp;fullpath;event;size
timestamp;fullpath;event;size
1521540649.02;/home/workdir/ScienceXMLIn/config.cfg;IN_OPEN;2324
1521540649.02;/home/workdir/ScienceXMLIn/config.cfg;IN_OPEN;2324;42417555
1521540649.02;/home/workdir/ScienceXMLIn/config.cfg;IN_ACCESS;2324
1521540649.02;/home/workdir/ScienceXMLIn/config.cfg;IN_ACCESS;2324;42417555
1521540649.02;/home/workdir/ScienceXMLIn/config.cfg;IN_CLOSE_NOWRITE;2324
1521540649.02;/home/workdir/ScienceXMLIn/config.cfg;IN_CLOSE_NOWRITE;2324;42417555

Eu tenho minha variável e ela está definida corretamente, mas não consigo encontrar a posição adequada para ela.
Se eu mover o JOBID=substr(FILENAME ,match(FILENAME,"[0-9]{8}"),8);
não consigo acessar a variável.
O problema aqui é que o arquivo é processado duas vezes, uma corretamente (embora minha condição seja ignorada) e a outra onde considerou minha variável

1 respostas

Voted

Stephen Kitt · Answer 1 · 2018-05-25T04:03:00+08:00

Como é uma propriedade de cada arquivo, você deve calcular JOBIDao processar a primeira linha de qualquer arquivo, ou seja , quando FNRé 1:

awk -F";" 'BEGIN { OFS = FS }
FNR == 1 { JOBID=substr(FILENAME, match(FILENAME, "[0-9]{8}"), 8); print }
FNR > 1 { print $0, JOBID }' \
Event_42417555_2018-05-23_16\:45\:28-log.txt | head

Existem várias maneiras de extrair uma correspondência para uma expressão regular; Eu normalmente colocaria matchem uma matriz:

awk -F";" 'BEGIN { OFS = FS }
FNR == 1 { match(FILENAME, "([0-9]{8})", a); JOBID = a[1]; print }
FNR > 1 { print $0, JOBID }' \
Event_42417555_2018-05-23_16\:45\:28-log.txt | head

idealmente com algum tratamento de erro. Isso usa matchpara procurar correspondência de texto [0-9]{8}e extrai todos os valores correspondentes na matriz a( matchprocura por grupos, daí os parênteses adicionados).

Outra abordagem que deve funcionar em qualquer implementação AWK é dividir o nome do arquivo em sublinhados:

awk -F";" 'BEGIN { OFS = FS }
FNR == 1 { split(FILENAME, a, "_"); JOBID = a[2]; print }
FNR > 1 { print $0, JOBID }' \
Event_42417555_2018-05-23_16\:45\:28-log.txt | head

A saída dobrada na sua versão acontece porque JOBID=substr(FILENAME ,match(FILENAME,"[0-9]{8}"),8)é uma expressão completa com o mesmo peso de qualquer outra no seu programa AWK, com um bloco implícito ( ou seja print ); sempre corresponde, pois JOBIDé sempre não vazio e não é um valor numérico igual a zero, portanto seu bloco é sempre processado.

Extraia o valor de FILENAME em awk e use-o como um novo campo

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Extraia o valor de FILENAME em awk e use-o como um novo campo

1 respostas

relate perguntas