O comando ip suporta curingas?

Question

dpoiesz

Asked: 2018-01-22 17:36:18 +0800 CST2018-01-22 17:36:18 +0800 CST 2018-01-22 17:36:18 +0800 CST

Usando um único comando de linha de comando, como eu pesquisaria cada arquivo de texto em um banco de dados para encontrar as 10 palavras mais usadas?

772

Esta pergunta respondida explica como pesquisar e classificar um nome de arquivo específico, mas como você faria isso para um diretório inteiro? Tenho 1 milhão de arquivos de texto que preciso para pesquisar as dez palavras mais usadas.

database= /data/000/0000000/s##_date/*.txt - /data/999/0999999/s##_data/*txt

Tudo o que tentei resulta na classificação de nomes de arquivos, caminhos ou erros de diretório.

Fiz algum progresso com grep, mas partes de nomes de arquivos parecem aparecer em meus resultados.

grep -r . * | tr -c '[:alnum:]' '[\n*]' | sort | uniq -c | sort -nr | head  -10
output:
 1145 
    253 txt
    190 s01
    132 is
    126 of
    116 the
    108 and
    104 test
     92 with
     84 in

O 'txt' e 's01' vêm de nomes de arquivo e não do texto dentro do arquivo de texto. Eu sei que existem maneiras de excluir palavras comuns como "o", mas prefiro não classificar e contar os nomes dos arquivos.

1 respostas

Voted

Kusalananda · Answer 1 · 2018-02-15T13:30:36+08:00

grepmostrará o nome de arquivo de cada arquivo que corresponde ao padrão junto com a linha que contém a correspondência se mais de um arquivo for pesquisado, que é o que está acontecendo no seu caso.

Em vez de usar grep(que é uma solução inspirada, mas lenta, para não conseguir cattodos os arquivos na linha de comando de uma só vez), você pode realmente cattodos os arquivos de texto juntos e processá-los como um grande documento como este:

find /data -type f -name '*.txt' -exec cat {} + |
tr -cs '[:alnum:]' '\n' | sort | uniq -c | sort -nr | head

Eu adicionei -spara trque várias novas linhas consecutivas sejam compactadas em uma e altero todos os não alfanuméricos para novas linhas ( [\n*]fazia pouco sentido para mim). O headcomando produz dez linhas de saída por padrão, então -10(ou -n 10) não é necessário.

O findcomando localiza todos os arquivos regulares ( -type f) em qualquer lugar /datacujos nomes de arquivo correspondam ao padrão *.txt. Para o maior número possível desses arquivos por vez, caté invocado para concatená-los (é isso que -exec cat {} +faz). caté possivelmente invocado muitas vezes se você tiver um grande número de arquivos, mas isso não afeta o restante do pipeline, pois apenas lê o fluxo de saída de find+ cat.

Para evitar a contagem de linhas vazias, você pode inserir sed '/^ *$/d'um pouco antes ou logo após o primeiro sortno pipeline.

Usando um único comando de linha de comando, como eu pesquisaria cada arquivo de texto em um banco de dados para encontrar as 10 palavras mais usadas?

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Usando um único comando de linha de comando, como eu pesquisaria cada arquivo de texto em um banco de dados para encontrar as 10 palavras mais usadas?

1 respostas

relate perguntas