Esta pergunta respondida explica como pesquisar e classificar um nome de arquivo específico, mas como você faria isso para um diretório inteiro? Tenho 1 milhão de arquivos de texto que preciso para pesquisar as dez palavras mais usadas.
database= /data/000/0000000/s##_date/*.txt - /data/999/0999999/s##_data/*txt
Tudo o que tentei resulta na classificação de nomes de arquivos, caminhos ou erros de diretório.
Fiz algum progresso com grep, mas partes de nomes de arquivos parecem aparecer em meus resultados.
grep -r . * | tr -c '[:alnum:]' '[\n*]' | sort | uniq -c | sort -nr | head -10
output:
1145
253 txt
190 s01
132 is
126 of
116 the
108 and
104 test
92 with
84 in
O 'txt' e 's01' vêm de nomes de arquivo e não do texto dentro do arquivo de texto. Eu sei que existem maneiras de excluir palavras comuns como "o", mas prefiro não classificar e contar os nomes dos arquivos.