exportar variáveis env programaticamente, via stdout do comando [duplicado]

Question

Ronnie

Asked: 2024-10-31 00:37:21 +0800 CST2024-10-31 00:37:21 +0800 CST 2024-10-31 00:37:21 +0800 CST

Encontrar o número de ocorrências de uma palavra em um arquivo PDF

772

Dentro de uma pasta há muitas subpastas e dentro das subpastas há muitos arquivos PDF. Parece com isso abaixo:

+- SubfolderA
|  +- File1.pdf
|  +- File2.pdf
|
+- SubfolderB
|  +- File3.pdf
|  +- File4.pdf
|  +- file5.pdf
|
+- SubfolderC
   +- File6.pdf
   +- File7.pdf

Gostaria de descobrir o número de vezes que uma palavra específica, por exemplo, keywordxocorre nesses arquivos.

De preferência ignorando a exibição dos arquivos que têm 0 ocorrências.
E o ideal é mostrar a lista ordenada, com o arquivo com o número máximo de acessos exibido primeiro.

2 respostas

Voted

Prabhjot Singh · Answer 1 · 2024-10-31T05:18:37+08:00

Best Answer

Prabhjot Singh

2024-10-31T05:18:37+08:002024-10-31T05:18:37+08:00

Usando pdfgrepGNU awke assumindo que os caminhos de arquivo não contêm caracteres de nova linha:

word="keywordx"
pdfgrep -rPc "\b\Q$word\E\b" | gawk -F: '
  $NF != 0 {hits[$0] = $NF}
  END{
    PROCINFO["sorted_in"] = "@val_num_desc"
    for (i in hits) print i
  }'

2

terdon · Answer 2 · 2024-10-31T00:55:25+08:00

Se você tiver pdftotextinstalado (deve estar nos repositórios da maioria das distribuições Linux), você pode converter o arquivo PDF para texto, grep o padrão no arquivo de texto e então excluí-lo. Algo como isto (usando GNU greppara o -o):

pattern="keywordx"
for file in */*.pdf; do 
  txt=${file%.pdf}.txt
  num=$(pdftotext -- "$file" 2>/dev/null && grep -o -- "$pattern" "$txt" | wc -l)
  rm -- "$txt"
  [ "$num" -gt 0 ] && printf '%s: %d\n' "$file" "$num"
done

Ou, para incluir a classificação e também um erro se a conversão para texto não funcionar:

pattern="keywordx"
for file in */*.pdf; do 
  txt=${file%.pdf}.txt
  if pdftotext -- "$file" 2>/dev/null; then
    num=$(grep -o -- "$pattern" "$txt" | wc -l)
    rm -- "$txt"
    [ "$num" -gt 0 ] && printf '%s: %d\n' "$file" "$num"
  else
    printf 'Failed to convert "%s" to text\n' "$file" >&2
  fi
done | sort -t: -nk2,2

Observe que a classificação depende de os nomes dos arquivos não conterem :.

Mas, na verdade, basta usar pdftotextcomo sugerido por Prabhjot Singh, é mais simples e melhor.

Encontrar o número de ocorrências de uma palavra em um arquivo PDF

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Encontrar o número de ocorrências de uma palavra em um arquivo PDF

2 respostas

relate perguntas