Esta é uma camada raster que, infelizmente, também contém texto. Indiscutivelmente, a maneira mais simples de corrigir esse PDF seria usar o ABBYY FineReader (comercial, funciona em Windows, Linux, mac OS). Um PDF ou arquivo(s) de imagem são carregados e processados de acordo com o cenário desejado. Por exemplo, aqui não precisamos de pré-processamento e o OCR funciona bem depois de escolher o idioma inglês para o documento:
Ao salvar o documento reconhecido, certifique-se de selecionar Texto e imagens somente na seção Modo de salvamento:
Isso resultaria em um PDF "limpo" com fontes vetoriais escaláveis sem pixelização:
Como alternativa, também é possível usar outras ferramentas de OCR gratuitas e de código aberto, como tesseract / Capture2Text / NAPS2 e usar o LibreOffice Writer / LaTeX para criar um novo PDF usando texto reconhecido.
O texto foi rasterizado - transformado em 'pontos'.
Ainda deve ser vetorial - usando fontes reais que são desenhadas ao vivo na tela.
Isso pode ocorrer porque o documento foi digitalizado e é efetivamente apenas uma foto ou porque em algum momento de seu histórico a fonte esperada estava faltando.
A única solução real seria encontrar um aplicativo OCR (Optical Character Recognition) e digitalizá-lo novamente.
Há outra possibilidade para a causa do desfoque: Uma camada de filtro colocada acima da camada raster digitalizada.
Trabalhei em um lugar há alguns anos que tinha scanners de documentos na rede. Você digitalizou suas coisas e o scanner enviou a cópia por e-mail - ou você pode enviá-la diretamente para o endereço de e-mail de outra pessoa.
Ocasionalmente, as digitalizações de documentos de texto ficavam muito borradas. Como a pessoa com mais conhecimento de TI disponível, fiquei preso em descobrir qual era o problema.
Descobriu-se que o scanner estava identificando incorretamente o texto como uma imagem e inserindo um filtro acima dele para reduzir o efeito moiré que resulta dos pontos das imagens em meio-tom e da resolução do scanner.
Você pode corrigir essas digitalizações de texto embaçadas usando um editor de PDF para excluir a camada de filtro acima do texto.
Eu nunca descobri por que algumas varreduras tinham o filtro e outras não. Algum bug ou caso extremo no algoritmo de reconhecimento de meio-tom - quem sabe.
Seu desfoque provavelmente não é causado por um filtro, mas é algo a ter em mente.
Esta é uma camada raster que, infelizmente, também contém texto. Indiscutivelmente, a maneira mais simples de corrigir esse PDF seria usar o ABBYY FineReader (comercial, funciona em Windows, Linux, mac OS). Um PDF ou arquivo(s) de imagem são carregados e processados de acordo com o cenário desejado. Por exemplo, aqui não precisamos de pré-processamento e o OCR funciona bem depois de escolher o idioma inglês para o documento:
Ao salvar o documento reconhecido, certifique-se de selecionar Texto e imagens somente na seção Modo de salvamento:
Isso resultaria em um PDF "limpo" com fontes vetoriais escaláveis sem pixelização:
Como alternativa, também é possível usar outras ferramentas de OCR gratuitas e de código aberto, como tesseract / Capture2Text / NAPS2 e usar o LibreOffice Writer / LaTeX para criar um novo PDF usando texto reconhecido.
O texto foi rasterizado - transformado em 'pontos'.
Ainda deve ser vetorial - usando fontes reais que são desenhadas ao vivo na tela.
Isso pode ocorrer porque o documento foi digitalizado e é efetivamente apenas uma foto ou porque em algum momento de seu histórico a fonte esperada estava faltando.
A única solução real seria encontrar um aplicativo OCR (Optical Character Recognition) e digitalizá-lo novamente.
Há outra possibilidade para a causa do desfoque: Uma camada de filtro colocada acima da camada raster digitalizada.
Trabalhei em um lugar há alguns anos que tinha scanners de documentos na rede. Você digitalizou suas coisas e o scanner enviou a cópia por e-mail - ou você pode enviá-la diretamente para o endereço de e-mail de outra pessoa.
Ocasionalmente, as digitalizações de documentos de texto ficavam muito borradas. Como a pessoa com mais conhecimento de TI disponível, fiquei preso em descobrir qual era o problema.
Descobriu-se que o scanner estava identificando incorretamente o texto como uma imagem e inserindo um filtro acima dele para reduzir o efeito moiré que resulta dos pontos das imagens em meio-tom e da resolução do scanner.
Você pode corrigir essas digitalizações de texto embaçadas usando um editor de PDF para excluir a camada de filtro acima do texto.
Eu nunca descobri por que algumas varreduras tinham o filtro e outras não. Algum bug ou caso extremo no algoritmo de reconhecimento de meio-tom - quem sabe.
Seu desfoque provavelmente não é causado por um filtro, mas é algo a ter em mente.