AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / computer / Perguntas / 1613121
Accepted
user1255895
user1255895
Asked: 2020-12-28 23:01:12 +0800 CST2020-12-28 23:01:12 +0800 CST 2020-12-28 23:01:12 +0800 CST

Texto embaçado em PDF

  • 772

Eu tenho um pdf que tem texto embaçado. O texto em si é legível, mas causa muita tensão.
Este é um exemplo do texto.

este

Existe uma maneira de limpá-lo?

pdf ocr
  • 3 3 respostas
  • 11063 Views

3 respostas

  • Voted
  1. Best Answer
    andselisk
    2020-12-29T09:51:50+08:002020-12-29T09:51:50+08:00

    Esta é uma camada raster que, infelizmente, também contém texto. Indiscutivelmente, a maneira mais simples de corrigir esse PDF seria usar o ABBYY FineReader (comercial, funciona em Windows, Linux, mac OS). Um PDF ou arquivo(s) de imagem são carregados e processados ​​de acordo com o cenário desejado. Por exemplo, aqui não precisamos de pré-processamento e o OCR funciona bem depois de escolher o idioma inglês para o documento:

    insira a descrição da imagem aqui

    Ao salvar o documento reconhecido, certifique-se de selecionar Texto e imagens somente na seção Modo de salvamento:

    insira a descrição da imagem aqui

    Isso resultaria em um PDF "limpo" com fontes vetoriais escaláveis ​​sem pixelização:

    insira a descrição da imagem aqui

    Como alternativa, também é possível usar outras ferramentas de OCR gratuitas e de código aberto, como tesseract / Capture2Text / NAPS2 e usar o LibreOffice Writer / LaTeX para criar um novo PDF usando texto reconhecido.

    • 35
  2. Tetsujin
    2020-12-28T23:19:24+08:002020-12-28T23:19:24+08:00

    O texto foi rasterizado - transformado em 'pontos'.

    Ainda deve ser vetorial - usando fontes reais que são desenhadas ao vivo na tela.

    Isso pode ocorrer porque o documento foi digitalizado e é efetivamente apenas uma foto ou porque em algum momento de seu histórico a fonte esperada estava faltando.

    A única solução real seria encontrar um aplicativo OCR (Optical Character Recognition) e digitalizá-lo novamente.

    • 19
  3. JRE
    2020-12-30T06:27:28+08:002020-12-30T06:27:28+08:00

    Há outra possibilidade para a causa do desfoque: Uma camada de filtro colocada acima da camada raster digitalizada.

    Trabalhei em um lugar há alguns anos que tinha scanners de documentos na rede. Você digitalizou suas coisas e o scanner enviou a cópia por e-mail - ou você pode enviá-la diretamente para o endereço de e-mail de outra pessoa.

    Ocasionalmente, as digitalizações de documentos de texto ficavam muito borradas. Como a pessoa com mais conhecimento de TI disponível, fiquei preso em descobrir qual era o problema.

    Descobriu-se que o scanner estava identificando incorretamente o texto como uma imagem e inserindo um filtro acima dele para reduzir o efeito moiré que resulta dos pontos das imagens em meio-tom e da resolução do scanner.

    Você pode corrigir essas digitalizações de texto embaçadas usando um editor de PDF para excluir a camada de filtro acima do texto.

    Eu nunca descobri por que algumas varreduras tinham o filtro e outras não. Algum bug ou caso extremo no algoritmo de reconhecimento de meio-tom - quem sabe.

    Seu desfoque provavelmente não é causado por um filtro, mas é algo a ter em mente.

    • 8

relate perguntas

  • O Chrome fica pedindo para salvar o PDF e nunca o abre

  • É possível reverter uma página da Web salva como um arquivo PDF de volta à página da Web?

  • Imprimindo em CMYK

  • Recorte e reorganize o PDF A3 digitalizado em duplex para o formato A4

  • A atualização do WebBrowser não atualiza o nível de zoom do PDF

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como posso reduzir o consumo do processo `vmmem`?

    • 11 respostas
  • Marko Smith

    Baixar vídeo do Microsoft Stream

    • 4 respostas
  • Marko Smith

    O Google Chrome DevTools falhou ao analisar o SourceMap: chrome-extension

    • 6 respostas
  • Marko Smith

    O visualizador de fotos do Windows não pode ser executado porque não há memória suficiente?

    • 5 respostas
  • Marko Smith

    Como faço para ativar o WindowsXP agora que o suporte acabou?

    • 6 respostas
  • Marko Smith

    Área de trabalho remota congelando intermitentemente

    • 7 respostas
  • Marko Smith

    O que significa ter uma máscara de sub-rede /32?

    • 6 respostas
  • Marko Smith

    Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows?

    • 1 respostas
  • Marko Smith

    O VirtualBox falha ao iniciar com VERR_NEM_VM_CREATE_FAILED

    • 8 respostas
  • Marko Smith

    Os aplicativos não aparecem nas configurações de privacidade da câmera e do microfone no MacBook

    • 5 respostas
  • Martin Hope
    CiaranWelsh Como posso reduzir o consumo do processo `vmmem`? 2020-06-10 02:06:58 +0800 CST
  • Martin Hope
    Jim Pesquisa do Windows 10 não está carregando, mostrando janela em branco 2020-02-06 03:28:26 +0800 CST
  • Martin Hope
    v15 Por que uma conexão de Internet gigabit/s via cabo (coaxial) não oferece velocidades simétricas como fibra? 2020-01-25 08:53:31 +0800 CST
  • Martin Hope
    fixer1234 O "HTTPS Everywhere" ainda é relevante? 2019-10-27 18:06:25 +0800 CST
  • Martin Hope
    andre_ss6 Área de trabalho remota congelando intermitentemente 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney Por que colocar um ponto após o URL remove as informações de login? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    jonsca Todos os meus complementos do Firefox foram desativados repentinamente, como posso reativá-los? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK É possível criar um código QR usando texto? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 Altere o nome da ramificação padrão do git init 2019-04-01 06:16:56 +0800 CST

Hot tag

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve