(macOS Bash) 2 strings aparentemente idênticas não são iguais, mostrando apenas diferenças com "set -x"

Question

Chuepapiii

Asked: 2025-02-18 14:44:10 +0800 CST2025-02-18 14:44:10 +0800 CST 2025-02-18 14:44:10 +0800 CST

Como comparar padrões de um arquivo com uma coluna específica em outro arquivo usando grep?

772

file1, que contém uma única string por linha. Quero verificar se cada string existe na segunda coluna de file2. file2 contém duas strings separadas por espaços simples por linha, mas algumas linhas podem ter espaços iniciais antes da primeira coluna.

Quero usar apenas grep e/ou cut para executar a correspondência e gerar linhas correspondentes de file2 para newFile.txt, garantindo a correspondência de palavras inteiras (-w).

Eu tentei

grep -wF -f file1 file2 > newFile.txt

mas devido ao tamanho do arquivo o terminal roda infinitamente.

Eu também tentei

grep -wF -f <(cut -d ' ' -f 2 file2) | grep -wF -f - file2 > newFile.txt

Isso só funciona para algumas linhas no arquivo2 porque algumas linhas têm vários espaços antes das duas strings, embora essas strings sejam separadas apenas por um único espaço.

Arquivo1:

 aaa
 bbb
 ccc

Arquivo2:

 a aaa (should match) 
     b bbb (should match and does but the former spaces throws off cut -d, resulting in incomplete output of line in the newFile.txt)
 c cc (should not match)

Pergunta: Como posso extrair e combinar eficientemente palavras inteiras na segunda coluna de file2.txt, enquanto lido com espaços iniciais inconsistentes? Prefiro usar grep e/ou cut, mas estou aberto a pequenas modificações.

2 respostas

Voted

Zakhar Neverov · Answer 1 · 2025-02-18T15:16:45+08:00

Zakhar Neverov

2025-02-18T15:16:45+08:002025-02-18T15:16:45+08:00

Eu teria me inclinado a usar o awk, neste caso usei o comando paste. Acho que você pode usar algo como esta regex:

pattern=$(paste -sd'|' file1)
grep -E "^[[:space:]]*\S+[[:space:]]+($pattern)\b" file2 > newfile.txt

se entendi corretamente... Isso deve extrair linhas do arquivo2 onde a segunda coluna corresponde exatamente a uma das entradas do arquivo1, mesmo com espaços à esquerda

2

Ed Morton · Answer 2 · 2025-02-18T21:36:39+08:00

Pedir ajuda para fazer isso eficientemente com grep e cut é como pedir ajuda para construir uma cerca de jardim com um garfo de cozinha e um clipe de papel. Eles simplesmente não são as ferramentas certas para o trabalho e, portanto, não podem ser usados eficientemente para isso, nem podem ser usados de forma robusta (ou portátil) sem adicionar ainda mais ferramentas à mistura para ajudá-los. Uma solução somente awk, por outro lado, seria trivial, eficiente e portátil, por exemplo, o seguinte funcionará usando qualquer awk POSIX:

$ awk 'NR == FNR{ tgts[$1]; next } $2 in tgts' file1 file2
 a aaa (should match)
     b bbb (should match and does but the former spaces throws off cut -d, resulting in incomplete output of line in the newFile.txt)

Resposta original antes de eu notar que o OP dizia "Quero verificar se cada string existe na segunda coluna do arquivo2. O arquivo2 contém duas strings separadas por espaços simples por linha" e pensava que eles queriam corresponder a todas as "palavras" no arquivo2:

$ cat tst.awk
NR == FNR {
    tgts[$1]
    next
}
{
    split($0, words, /[^[:alnum:]_]+/)
    for ( i in words ) {
        if ( words[i] in tgts ) {
            print
            next
        }
    }
}

$ awk -f tst.awk file1 file2
 a aaa (should match)
     b bbb (should match and does but the former spaces throws off cut -d, resulting in incomplete output of line in the newFile.txt)

Se você tiver mais caracteres do que apenas alfanuméricos e _que você considera parte de uma "palavra", então apenas altere [^[:alnum:]_]para incluí-los, por exemplo, se uma "palavra" pode conter .e -então altere para[^[:alnum:]_.-]

Como comparar padrões de um arquivo com uma coluna específica em outro arquivo usando grep?

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Como comparar padrões de um arquivo com uma coluna específica em outro arquivo usando grep?

2 respostas

relate perguntas