awk está imprimindo linhas duas vezes quando apenas um comando de impressão é usado

Question

Roger Costello

Asked: 2024-12-29 22:14:15 +0800 CST2024-12-29 22:14:15 +0800 CST 2024-12-29 22:14:15 +0800 CST

Como inserir em um programa AWK uma série de nomes de campos e fazer com que o programa AWK verifique os arquivos quanto à presença do nome do campo?

772

field-names.txt contém uma lista de nomes de campos:

AB_CODE
ACFT_CODE
AC_TYPE
ADD_INFO
AKA
ALT
ALT1_DESC
ALT2_DESC
ALT3_DESC

Para cada nome de campo, quero imprimir os arquivos cuja primeira linha contém esse nome de campo (uma lista de campos separados por espaços). Aqui está o que tentei:

Em uma bashlinha de comando, digitei isto:

cat field-names.txt | awk 'BEGIN { getline fieldname; print fieldname }
        
NR == 1 && $0 ~ /fieldname/ { print FILENAME }' **/*.TXT

Isso produz o resultado errado. Qual é a maneira correta de fazer isso?

4 respostas

Voted

anubhava · Answer 1 · 2024-12-29T22:56:18+08:00

Best Answer

anubhava

2024-12-29T22:56:18+08:002024-12-29T22:56:18+08:00

Esta awksolução deve funcionar para você:

awk 'FNR == NR {
   rx = (rx == "" ? "" : rx "|") $1
   next
}
FNR == 1 && " " $0 " " ~ " (" rx ") " {
   print FILENAME
}' field-names.txt **/*.TXT

Primeiro, construímos um regex com |entre cada linha de field-names.txtno primeiro bloco de FNR == NR. Então, usamos esse regex para corresponder a cada primeira linha usando esse regex. Prefixamos e sufixamos cada primeira linha e regex com espaço para garantir que correspondemos apenas à palavra inteira, não às parciais .

Para fins de otimização, podemos fazer assim para construir uma regex completa apenas uma vez:

awk 'FNR == NR {
   rx = (rx == "" ? "" : rx "|") $1
   pNR = NR
   next
}
NR == pNR+1 {
   rx = " (" rx ") "
}
FNR == 1 && " " $0 " " ~ rx {
   print FILENAME
   nextfile
}' field-names.txt **/*.TXT

3

Guillaume Outters · Answer 2 · 2024-12-30T06:19:54+08:00

awk \
'BEGIN {
    # afre = All Fields RegExp
    while((getline < "field-names.txt") > 0) afre = afre ? afre"|"$0 : $0;
    if(!afre) { print "# field-names.txt should contain at least one field name" > "/dev/stderr"; exit(1); }
    afre = "(^| )("afre")( |$)";
}
$0 ~ afre { print FILENAME; }
{ nextfile; }' **/*.TXT

(cálculo de afre cortesia do comentário de @Ed Morton)

Reservamos um tempo no início para calcular a regex para qualquer um dos campos considerados,
para que o "loop" principal possa então ser executado na velocidade máxima.

E como olhamos apenas na primeira linha, depois de pesquisar, usamos um nextfile incondicionalmente para alternar para o próximo arquivo de entrada, independentemente de termos uma correspondência ou não.

Qual solução escolher?

Então, a diferença com a solução de @anubhava (da qual também gostei e votei: para meus dois primeiros tópicos, a solução que você escolher é uma questão de gosto) é:

dedicar o script à pesquisa (não misturar a pesquisa com a construção do regex)
use o ^e $para corresponder como o primeiro ou último campo
, mas costumo usar o truque dos espaços adicionais também
faça nextfile independentemente de correspondermos ou não (não há sentido em continuar lendo todas as linhas de um arquivo cuja linha 1 não correspondeu)

Otimização adicional

Observe que, dependendo da implementação do awk, ele $0 ~ afre pode recompilar o regex em cada linha (por ser uma variável, ele pode... variar, portanto, o awk precisa verificar se ele não mudou se quiser armazenar em cache a versão compilada do regex).

Ao executá-lo pelo shell, você pode forçá-lo a uma regex fixa (mais facilmente otimizável) com um (reconhecidamente menos legível):

awk \
'/(^| )('"`tr \\\\012 \| < field-names.txt | sed -e 's/|$//'`"')( |$)/ { print FILENAME; }
{ nextfile; }' \
**/*.TXT

Ed Morton · Answer 3 · 2024-12-30T20:59:36+08:00

Supondo que você queira gerar um mapa de nomes de campos para os arquivos em que eles ocorrem, use qualquer awk (não testado):

awk '
    NR == FNR {
        tgtFields[$0]
        next
    }
    FNR == 1 {
        for ( fieldNr=1; fieldNr<=NF; fieldNr++ ) {
            field = $fieldNr
            if ( field in tgtFields ) {
                files[field,++numFiles[field]] = FILENAME
            }
        }
        nextfile
    }
    END {
        for ( field in tgtFields ) {
            if ( numFiles[field] == 0 ) {
                files[field,++numFiles[field]] = "* Not found *"
            }
            for ( fileNr=1; fileNr<=numFiles[field]; fileNr++ ) {
                file = files[field,fileNr]
                print field, file
            }
        }
    }
' field-names.txt **/*.TXT

Isso funcionará independentemente se os nomes dos arquivos de destino contêm metachars regexp .ou não.

Mude "* Not found *"para alguma outra string ou faça o que quiser para manipular campos de destino que não existem em nenhum arquivo de entrada. Se quiser usar algum outro separador que não seja um caractere em branco entre o nome do campo e cada nome de arquivo associado, basta definir OFSpara qualquer string que preferir.

jhnc · Answer 4 · 2024-12-29T23:26:22+08:00

jhnc

2024-12-29T23:26:22+08:002024-12-29T23:26:22+08:00

Uma alternativa que não usa regex, pois parece que a lista de nomes de campos são apenas strings simples:

awk '
    NR==FNR {
        fieldnames[$0]
        next
    }
    
    FNR==1 {
        for (i=NF; i>0 && !($i in fieldnames); --i)
            ;
        if (i)
            print FILENAME
        nextfile
    }
' field-names.txt **/*.TXT

carregar lista de nomes de campos do primeiro arquivo
processar a primeira linha de cada arquivo subsequente
- verifique se algum campo está na lista
- se i>0, o loop abortou mais cedo porque uma correspondência foi encontrada
- nem se incomode em olhar as linhas restantes

Este código também aceita nomes de campos no início e no fim de uma linha.

1

Como inserir em um programa AWK uma série de nomes de campos e fazer com que o programa AWK verifique os arquivos quanto à presença do nome do campo?

Qual solução escolher?

Otimização adicional

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Como inserir em um programa AWK uma série de nomes de campos e fazer com que o programa AWK verifique os arquivos quanto à presença do nome do campo?

4 respostas

Qual solução escolher?

Otimização adicional

relate perguntas