(macOS Bash) 2 strings aparentemente idênticas não são iguais, mostrando apenas diferenças com "set -x"

Question

Roger Costello

Asked: 2024-12-29 20:32:54 +0800 CST2024-12-29 20:32:54 +0800 CST 2024-12-29 20:32:54 +0800 CST

Como imprimir os nomes de campos exclusivos na primeira linha de muitos arquivos?

772

A primeira linha de cada arquivo contém nomes de campos. Pode haver duplicatas nos nomes de campos. Quero imprimir apenas os nomes de campos exclusivos. Aqui está o que tentei:

Em um arquivo Bash, files_and_folders.sh, digitei isto:

#!/bin/bash
for file in **/*.TXT ; do
   awk 'NR == 1 { for (i=1; i<=NF; i++) if (!seen[$i]) seen[$i] = 1} END { for (idx in seen) printf ("%s\n",idx) }' "${file}"
done

O arquivo Bash foi executado com sucesso, mas a saída contém duplicatas:

AB_CODE
ACFT_CODE
AC_TYPE
ADD_INFO
AKA
ALT
ALT
ALT
ALT
ALT
ALT
ALT
ALT1_DESC
ALT2_DESC
ALT3_DESC

Como modificar o programa AWK (no script Bash) para eliminar duplicatas?

2 respostas

Voted

Ed Morton · Answer 1 · 2024-12-30T08:14:34+08:00

Ed Morton

2024-12-30T08:14:34+08:002024-12-30T08:14:34+08:00

Provavelmente seria mais eficiente fazer:

head -q -n 1 **/*.TXT | tr -s '[:space:]' $'\n' | sort -fu

mas se você quiser usar o awk, usando qualquer awk você pode fazer isto:

awk '
    FNR == 1 {
        for ( i=1; i<=NF; i++ ) {
            names[$i]
        }
        nextfile
    }
    END {
        for ( name in names ) {
            print name
        }
    }
' **/*.TXT

ou isto:

awk '
    FNR == 1 {
        for ( i=1; i<=NF; i++ ) {
            if ( !seen[$i]++ ) {
                print $i
            }
        }
        nextfile
    }
' **/*.TXT

mas criar um seen[]array E percorrê-lo na ENDseção não faz sentido e nem faz if (!seen[$i]) seen[$i] = 1- isso é testar se seen[$i]está definido e, se não, defini-lo para que o resultado dessa instrução seja sempre seen[$i]definido como 1.

3

anubhava · Answer 2 · 2024-12-29T21:21:28+08:00

Best Answer

anubhava

2024-12-29T21:21:28+08:002024-12-29T21:21:28+08:00

Você não deve executar um loop bashe executar um novo awkprocesso para cada arquivo, caso contrário, a matriz associativa seenserá inicializada para cada um awke não reconhecerá as entradas existentes definidas por invocações anteriores de awk.

Você deve fazer isso em um único, awkcomo este:

awk 'FNR == 1 {
   for (i=1; i<=NF; ++i) {
      uniques[$i]
   }
}
END {
   for (i in uniques)
      print i
}' **/*.TXT

AC_TYPE
AKA
ALT
ADD_INFO
AB_CODE
ALT1_DESC
ALT2_DESC
ALT3_DESC
ACFT_CODE

2

Como imprimir os nomes de campos exclusivos na primeira linha de muitos arquivos?

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Como imprimir os nomes de campos exclusivos na primeira linha de muitos arquivos?

2 respostas

relate perguntas