dpoiesz提出的问题 -unix

dpoiesz

Asked: 2018-01-22 17:36:18 +0800 CST

Usando um único comando de linha de comando, como eu pesquisaria cada arquivo de texto em um banco de dados para encontrar as 10 palavras mais usadas?

Esta pergunta respondida explica como pesquisar e classificar um nome de arquivo específico, mas como você faria isso para um diretório inteiro? Tenho 1 milhão de arquivos de texto que preciso para pesquisar as dez palavras mais usadas.

database= /data/000/0000000/s##_date/*.txt - /data/999/0999999/s##_data/*txt

Tudo o que tentei resulta na classificação de nomes de arquivos, caminhos ou erros de diretório.

Fiz algum progresso com grep, mas partes de nomes de arquivos parecem aparecer em meus resultados.

grep -r . * | tr -c '[:alnum:]' '[\n*]' | sort | uniq -c | sort -nr | head  -10
output:
 1145 
    253 txt
    190 s01
    132 is
    126 of
    116 the
    108 and
    104 test
     92 with
     84 in

O 'txt' e 's01' vêm de nomes de arquivo e não do texto dentro do arquivo de texto. Eu sei que existem maneiras de excluir palavras comuns como "o", mas prefiro não classificar e contar os nomes dos arquivos.

Usando um único comando de linha de comando, como eu pesquisaria cada arquivo de texto em um banco de dados para encontrar as 10 palavras mais usadas?

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

dpoiesz's questions