Grep para um conjunto de linhas de $START a $END AND que contém uma correspondência em $MIDDLE

Question

Asked: 2024-03-16 07:30:25 +0800 CST2024-03-16 07:30:25 +0800 CST 2024-03-16 07:30:25 +0800 CST

Remova todas as palavras que aparecem n+ vezes sem excluir as linhas ou alterar a ordem dos arquivos

772

Quero deletar todas as palavras que são independentes e são vistas 3 vezes ou mais, sem manter a primeira correspondência. Com "permanecer por conta própria", quero dizer a palavra completa. Não é um padrão que faz parte de alguma palavra. Eu descobri, awk '++A[$0] < 3'mas isso analisa toda a linha, em vez de apenas o padrão. Devo primeiro contar as palavras e depois excluir tudo o que vi 3 vezes ou mais?

Quando procuro isso, trata-se de verificar palavras usando $0linhas inteiras e excluir a linha se o padrão corresponder. Não apenas palavras/padrões por si só. Não estou apenas procurando por awk. Tudo está bem, exceto perlhahaha.

Eu também quero excluir Shares fore [--- Listable Shares ---]ser excluído. Provavelmente posso encontrar isso sozinho se o comando não for muito complexo. Caso contrário, adicione-o à resposta e dê alguma explicação. Adoro continuar aprendendo aqui

entrada:

Shares for DED-SHD-ED-1:
    [--- Listable Shares ---]
        backup      backup2
Shares for DED-SHD-ED-2:
    [--- Listable Shares ---]
        ConsoleSetup        REMINST     SCCMContentLib$     SCCMContentLibC$        SEFPKGC$        SEFPKGD$        SEFPKGE$        SEFSIG$     Source      UpdateServicesPackages      WsusContent     backup      backup2
Shares for DED-SHD-BE-03:
    [--- Listable Shares ---]
        backup      backup2     print$

Resultado esperado:

Shares for DED-SHD-ED-1:
    [--- Listable Shares ---]
                
Shares for DED-SHD-ED-2:
    [--- Listable Shares ---]
        ConsoleSetup        REMINST     SCCMContentLib$     SCCMContentLibC$        SEFPKGC$        SEFPKGD$        SEFPKGE$        SEFSIG$     Source      UpdateServicesPackages      WsusContent
Shares for DED-SHD-BE-03:
    [--- Listable Shares ---]
                        print$

Apenas backupe backup2são excluídos.

Editar: print$como um todo é considerada uma palavra que precisa ser excluída caso seja vista 3 vezes ou mais. Não printsem$

Espero ouvir de vocês em breve!

2 respostas

Voted

Paul_Pedant · Answer 1 · 2024-03-16T21:15:28+08:00

Como o requisito abrange arquivos de até 1 MB, há algumas inversões de array para melhorar a eficiência. Como estamos excluindo palavras, não achei importante manter o espaçamento exato; portanto, cada palavra em uma linha substituída é precedida apenas por TAB.

É um script Bash que contém uma única função shell, que contém um único programa awk. Leva um argumento de arquivo de entrada e envia para stdout.

Não tenho certeza de como você deseja verificar os resultados. Tive bastante depuração durante o desenvolvimento: seria fácil (por exemplo) registrar no stderr as palavras excluídas, com sua frequência.

#! /bin/bash

delByFreq () {

    local Awk='
BEGIN { SEP = "|"; Freq = 3; }
#.. Store every input line.
{ Line[NR] = $0; }
#.. Do not look for words on header lines.
/^Shares for / { next; }
/--- Listable Shares ---/ { next; }

#.. Keep an index to row/column of every unique word.
#.. So like: Ref ["backup2"] = "|2|3|5|1|5|7";
function Refer (row, txt, Local, f) {
    for (f = 1; f <= NF; ++f)
        Ref[$(f)] = Ref[$(f)] SEP row SEP f;
}
{ Refer( NR, $0); }

#.. Rearrange field indexes by line.
#.. So like: Del[row] = "|3|7|11"; for field numbers.
function refByLine (Local, word, j, n, V) {
    for (word in Ref) {
        n = split (Ref[word], V, SEP);
        if (n <= 2 * Freq) continue;
        for (j = 2; j < n; j += 2)
            Del[V[j]] = Del[V[j]] SEP (V[j+1]);
    }
}
#.. For every line with deletions, cross off the frequent words.
function Deletions (Local, row, j, f, n, V, X) {
    for (row in Del) {
        split (Del[row], V, SEP);
        split ("", X, FS); for (j = 2; j in V; ++j) X[V[j]];
        #.. Rebuild the line in field order. 
        split (Line[row], V, FS); Line[row] = "";
        for (j = 1; j in V; ++j)
            if (! (j in X)) Line[row] = Line[row] "\t" V[j];
    }
}
function Output (Local, r) {
    for (r = 1; r in Line; ++r) printf ("%s\n", Line[r]);
}
END { refByLine( ); Deletions( ); Output( ); }
'
    awk -f <( printf '%s' "${Awk}" ) "${1}"
}

    delByFreq "${1}"

Ed Morton · Answer 2 · 2024-03-16T21:46:54+08:00

Usando GNU awkpara o quarto argumento para split()salvar as strings que correspondem a, FSpara que possamos ter o mesmo espaçamento na saída que estava presente na saída:

$ cat tst.awk
{ begFld = 1 }
/^Shares for/ { begFld = 3 }
/\[--- Listable Shares ---]/ { begFld = NF+1 }
NR == FNR {
    for ( i=begFld; i<=NF; i++ ) {
        cnt[$i]++
    }
    next
}
{
    split($0,unused,FS,seps)
    out = seps[0]
    for ( i=1; i<=NF; i++ ) {
        out = out ( (i >= begFld) && (cnt[$i] >= 3) ? "" : $i ) seps[i]
    }
    print out
}

$ awk -f tst.awk file file
Shares for DED-SHD-ED-1:
    [--- Listable Shares ---]

Shares for DED-SHD-ED-2:
    [--- Listable Shares ---]
        ConsoleSetup        REMINST     SCCMContentLib$     SCCMContentLibC$        SEFPKGC$        SEFPKGD$        SEFPKGE$        SEFSIG$     Source      UpdateServicesPackages      WsusContent
Shares for DED-SHD-BE-03:
    [--- Listable Shares ---]
                   print$

Você pode fazer o mesmo em qualquer awk com um while ( match(...) )loop em vez de split(...); for (...), seriam apenas mais algumas linhas de código, por exemplo, isso funcionará em qualquer awk:

$ cat tst.awk
{ begFld = 1 }
/^Shares for/ { begFld = 3 }
/\[--- Listable Shares ---]/ { begFld = NF+1 }
NR == FNR {
    for ( i=begFld; i<=NF; i++ ) {
        cnt[$i]++
    }
    next
}
{
    i = 0
    out = ""
    while ( match($0,/[^ \t]+/) ) {
        sep = substr($0,1,RSTART-1)
        fld = substr($0,RSTART,RLENGTH)
        out = out sep ( (++i >= begFld) && (cnt[fld] >= 3) ? "" : fld )
        $0 = substr($0,RSTART+RLENGTH)
    }
    print out $0
}

$ awk -f tst.awk file file
Shares for DED-SHD-ED-1:
    [--- Listable Shares ---]

Shares for DED-SHD-ED-2:
    [--- Listable Shares ---]
        ConsoleSetup        REMINST     SCCMContentLib$     SCCMContentLibC$        SEFPKGC$        SEFPKGD$        SEFPKGE$        SEFSIG$     Source      UpdateServicesPackages      WsusContent
Shares for DED-SHD-BE-03:
    [--- Listable Shares ---]
                   print$

EDIT: @Paul_Pedant e eu estávamos conversando nos comentários sobre os prós/contras de ler a entrada em um array e depois processá-la na ENDseção como o script dele faz versus ler o arquivo de entrada duas vezes como meu script acima faz, então coloquei o meu um script de shell e adicionou um shebang bash:

#!/usr/bin/env bash

awk '
    { begFld = 1 }
    ...
        print out
    }
' "$1" "$1"

em seguida, criei um arquivo de entrada com 1 milhão de cópias do arquivo de entrada de 9 linhas do OP fazendo o seguinte:

$ awk '{r=(NR>1 ? r ORS : "") $0} END{for (i=1; i<=1000000; i++) print r}' file > file1m

então cronometramos a execução do meu script nele:

$ time ./tst_ed.sh file1m > ed.out

real    1m3.814s
user    0m57.781s
sys     0m0.265s

mas quando tentei executar o script de Paul nele:

$ time ./tst_paul.sh file1m > paul.out

meu laptop começou a soar como um helicóptero decolando, então depois de 5 minutos eu o interrompi e esperei mais 3 minutos para meu laptop se acalmar novamente.

Em seguida, tentei ambos em um arquivo de 100 mil repetições:

$ awk '{r=(NR>1 ? r ORS : "") $0} END{for (i=1; i<=100000; i++) print r}' file > file100k

$ time ./tst_ed.sh file100k > ed.out                                            
real    0m6.035s
user    0m5.875s
sys     0m0.031s

$ time ./tst_paul.sh file100k > paul.out

mas novamente tive que interromper Pauls (dei 10 minutos para este).

Então tentei um arquivo de 10 mil repetições:

$ awk '{r=(NR>1 ? r ORS : "") $0} END{for (i=1; i<=10000; i++) print r}' file > file10k

$ time ./tst_ed.sh file10k > ed.out                                             
real    0m0.783s
user    0m0.609s
sys     0m0.045s

$ time ./tst_paul.sh file10k > paul.out

real    0m1.039s
user    0m0.921s
sys     0m0.031s

Desta vez, obtive resultados de ambos, então executei um diff -bdeles e descobri que a saída é diferente -

$ diff -b ed.out paul.out |head
1c1
< Shares for
---
> Shares for DED-SHD-ED-1:
4c4
< Shares for
---
> Shares for DED-SHD-ED-2:
7c7
< Shares for

O meu remove os valores duplicados no final das Shares for ...linhas, enquanto o de Paul não. não sei qual seria o comportamento desejado para o OP ou, se for importante, pode ser apenas uma entrada irreal.

Então tentei 1k repetições:

$ awk '{r=(NR>1 ? r ORS : "") $0} END{for (i=1; i<=1000; i++) print r}' file > file1k

$ time ./tst_ed.sh file1k > ed.out

real    0m0.133s
user    0m0.077s
sys     0m0.015s

$ time ./tst_paul.sh file1k > paul.out

real    0m0.133s
user    0m0.046s
sys     0m0.046s

e 100 repetições:

$ awk '{r=(NR>1 ? r ORS : "") $0} END{for (i=1; i<=100; i++) print r}' file > file100

$ time ./tst_ed.sh file100 > ed.out

real    0m0.080s
user    0m0.000s
sys     0m0.015s

$ time ./tst_paul.sh file100 > paul.out

real    0m0.081s
user    0m0.000s
sys     0m0.000s

então parece que cerca de 1k ou menos repetições dos dados OPs (ou seja, até cerca de um arquivo de entrada de linha de 10k) se você armazena os dados na memória e analisa na seção END ou lê o arquivo de entrada duas vezes é uma lavagem em relação à execução velocidade (quando você estiver no tempo de execução de décimos de segundo, quem se importa?) e em cerca de 10 mil repetições (cerca de 100 mil linhas de entrada), a abordagem de leitura duas vezes é um pouco mais rápida, mas ambas são rápidas em cerca de 1 segundo de tempo de execução. Porém, quando você chegar a tamanhos de arquivo de entrada maiores do que isso, você realmente não vai querer tentar armazená-lo na memória.

Remova todas as palavras que aparecem n+ vezes sem excluir as linhas ou alterar a ordem dos arquivos

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Remova todas as palavras que aparecem n+ vezes sem excluir as linhas ou alterar a ordem dos arquivos

2 respostas

relate perguntas