Reorganize as letras e compare duas palavras

Question

mkomarinski

Asked: 2019-01-29 06:56:23 +0800 CST2019-01-29 06:56:23 +0800 CST 2019-01-29 06:56:23 +0800 CST

Removendo superconjuntos de strings do arquivo de texto

772

Eu tenho um arquivo com uma lista de diretórios nele:

/a/b
/a/b/c
/a/b/d
/a/b/e
/a/c
/a/c/b
/a/c/d
/a/d/e
/a/d/e /f
/a/e/f/g
/a/e/f/g/h
...

Eu quero obter apenas /a/b, /a/c, /a/d/e e /a/e/f/g; ou seja, quero excluir linhas que tenham um subconjunto de outra linha antes dela. A profundidade dos subdiretórios é arbitrária, então eu poderia descer 2, 3, 4, etc. diretórios para encontrar o subdiretório exclusivo.

5 respostas

Voted

steeldriver · Answer 1 · 2019-01-29T07:28:18+08:00

Best Answer

steeldriver

2019-01-29T07:28:18+08:002019-01-29T07:28:18+08:00

Supondo que sua entrada esteja classificada, que tal verificar um prefixo e atualizá-lo quando ele mudar?

$ awk 'NR == 1 || ! match($0, "^" pfx) {print; pfx = $0}' file
/a/b
/a/c

OBSERVAÇÃO: esta é uma correspondência de expressão regular, portanto, pode ser inadequada se as entradas contiverem caracteres especiais regex - FWIW nem gawkou mawkparecem tratar o /como especial neste contexto

2

glenn jackman · Answer 2 · 2019-01-29T08:14:26+08:00

glenn jackman

2019-01-29T08:14:26+08:002019-01-29T08:14:26+08:00

gawk -F/ '
    {
        # have we seen something that is a prefix of this line?
        for (prefix in prefixes)
            if ($0 ~ "^" prefix)
                # yes we have
                next

        prefixes[$0] = 1

        # are there prefixes that get "cancelled out" by this new one?
        # e.g. /a/b/c is already a prefix but current line is /a/b
        for (prefix in prefixes)
            if (prefix ~ "^" $0 ".+")
                delete prefixes[prefix]
    }
    END {
        # GNU awk: traverse the array by index, sorted
        PROCINFO["sorted_in"] = "@ind_str_asc"
        for (p in prefixes)
            print p
    }
' list_of_dirs

saídas

/a/b
/a/c
/a/d/e
/a/e/f/g

Se você não tem GNU awk, então canalize a saída para| sort

1

DopeGhoti · Answer 3 · 2019-01-29T07:23:22+08:00

DopeGhoti

2019-01-29T07:23:22+08:002019-01-29T07:23:22+08:00

$ awk -F/ 'NF==3 { print }' filename

Definimos o separador de campo para /e, em seguida, imprimimos linhas com apenas três campos precisamente. Presumindo que o formato do arquivo de entrada seja consistente, apenas linhas como como /a/bserão impressas, pois os três campos são, em ordem, uma string vazia a, e b.

0

Scottie H · Answer 4 · 2019-01-29T07:57:40+08:00

Scottie H

2019-01-29T07:57:40+08:002019-01-29T07:57:40+08:00

Você tem que usar awk? Grep pode fazer isso. Tyy algo assim: egrep '^/a/b\$|/a/c\$'

Dependendo do seu shell, o $ pode ou não precisar ser escapado com a barra invertida.

0

Rakesh Sharma · Answer 5 · 2019-01-30T07:03:00+08:00

Você pode fazer isso usando o sededitor como mostrado:

$ sed -e '
   $!N
   \|^\(.*\)\n\1/|!{P;D;}
   s/\n.*//;H;s/.*//;x;D
' input_file

/a/b
/a/c
/a/d/e
/a/e/f/g

Trabalhando:

Certifique-se de duas linhas no espaço do padrão a qualquer momento.
Se a primeira parte não for encontrada em uma posição inicial na segunda parte do espaço do padrão => eles não são do mesmo ramo. Imprimimos a primeira parte, removemos e voltamos a ler a próxima linha no espaço do padrão e realizamos a mesma verificação.
No caso de uma correspondência, removemos a segunda parte, pois essa é a maior (devido à suposição de entrada classificada), então vamos em frente e removemos prontamente essa parte. E volte e leia a próxima linha no espaço do padrão e enxágue/repita.

Caso as entradas não venham ordenadas, você pode fazer da seguinte maneira:

$ perl -lne '
    my $l = $_;
    grep !index($l,$_), keys %h or $h{$_}++;
    }{print for sort keys %h;
' input
/a/b
/a/c
/a/d/e
/a/e/f/g

Trabalhando:

index(str, substr) retornará o índice onde o substr é encontrado dentro de str. Para corresponder no início, é retornado um 0 que é então invertido booleano para que seja lido como sucesso. grep irá iterar sobre todas as chaves atuais do hash %h cujas chaves são as substrings que queremos.

Removendo superconjuntos de strings do arquivo de texto

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Removendo superconjuntos de strings do arquivo de texto

5 respostas

relate perguntas