AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / computer / Perguntas / 1754748
Accepted
cipricus
cipricus
Asked: 2022-11-27 02:28:07 +0800 CST2022-11-27 02:28:07 +0800 CST 2022-11-27 02:28:07 +0800 CST

O que há de tão especial nesta página em pdf?

  • 772

Estou no Linux, Kubuntu 22.10.

Alguns programas, incluindo o visualizador Plasma PDF Okular, exibem em branco algumas das páginas em um pdf específico (mais de 1.000 páginas), mas outros programas, incluindo alguns navegadores da Internet, exibem todas as páginas sem espaços em branco.

Depois de extrair todas as páginas como pdf, o mesmo acontece com as mesmas páginas problemáticas.

Testando com outros programas e resumindo:

  • todas as páginas são vistas por WPS PDF, Master PDF, Firefox, navegador Vivaldi, Opera (portanto, acho que também Chromium/Chrome), LibreOffice Draw, ImageMagick, mupdf, PDF Studio Viewer

  • espaços em branco (com apenas um rodapé) são exibidos no Okular, Qpdfviewer, PDF Aranger, Falkon (navegador de internet!), Inskape, Krita

  • O Evince (Document Viewer) instalado como snap no Kubuntu não consegue abrir o arquivo grande, nem nenhuma das páginas separadas do pdf, mas dá um erro: Error opening file the.pdf: Permission denied(ele abre outros arquivos pdf)

( Aqui está minha pergunta askubuntu com mais detalhes.)

Carreguei uma dessas complicadas páginas em PDF no DocDroid para teste.

Como posso encontrar mais detalhes sobre esses arquivos?

(Estou curioso sobre o que está acontecendo aqui - embora, para fins práticos, eu possa corrigir isso imprimindo em pdf em um navegador ou simplesmente usando um visualizador de pdf diferente).

Faça o download da página e veja se você pode fornecer alguns detalhes sobre por que esta página pode ser diferente em contraste com esta (que é a mesma, mas corrigida por impressão em pdf 'como imagem' no Opera).

linux
  • 2 2 respostas
  • 69 Views

2 respostas

  • Voted
  1. Best Answer
    harrymc
    2022-11-27T03:54:45+08:002022-11-27T03:54:45+08:00

    Processo de análise

    Baixei a página e descobri um fato estranho: Tanto o Adobe Reader quanto o Foxit Reader podem exibir o texto, mas é impossível copiá-lo corretamente. Qualquer outro aplicativo exibiria o texto colado com distorções.

    Achei que era uma questão de fonte, então usei o Adobe Reader para ver as fontes incorporadas e descobri duas fontes que estavam faltando no meu computador: TimesNewRomanPSMT e ArialMT. Mas baixar as fontes não mudou nada - outros aplicativos ainda não conseguiram colar o texto copiado como estava.

    Em seguida, tentei uma amostra do texto na página com o site WhatTheFont , mas não consegui identificar a fonte entre suas 130.000 fontes.

    Um exemplo dos problemas no copy-paste do texto é quando copio este texto original:

    insira a descrição da imagem aqui

    Mas recebo isso ao colar no navegador ou no Word, que é apenas uma aproximação não exata:

    Oral si suflet, revista Institutului de Filologie si folklor publIcata de Ovid Densuseanu, Bucuresti de la 1929.

    Observe os erros de caracteres no texto colado.

    Quando abro o PDF com o Word, recebo uma página que é apenas uma imagem do texto antigo e não consigo selecionar nenhum texto nela.

    Conclusão

    Este PDF se comporta como se a parte exibida fosse uma imagem de fundo de um texto antigo usando uma fonte antiga, com um texto de primeiro plano criado usando um OCR impreciso.

    O texto OCR se comporta como se fosse o texto da imagem, pois é transparente e colocado na frente da imagem . É selecionável e sua cor de seleção é apenas parcialmente transparente, então parece que você está selecionando o texto exibido, mas está selecionando o texto OCR.

    Um visualizador de imagens que não lida corretamente com a transparência mostrará uma página em branco com a imagem não "aparecendo". Este é um problema de transparência.

    • 1
  2. cipricus
    2022-11-29T03:16:41+08:002022-11-29T03:16:41+08:00

    Como informação complementar:

    • Este é um bug com poppler, postado aqui , inicialmente aqui , Evince e Atril (visualizador de PDF do Mint) também são afetados.

    • Para corrigir as páginas, imprimi-as "como pdf" no Firefox (ou Chrome, Vivaldi, Opera - com essas 'imprimir como imagem' também deve ser selecionado). Dependendo da capacidade da RAM, não se deve "imprimir em pdf" mais de 200-300 páginas de uma só vez para evitar congelamentos/travamentos.

    • 0

relate perguntas

  • Como eu faria minha máquina Linux parecer que está executando o Windows?

  • Existe um equivalente a cd - para cp ou mv?

  • execute o contêiner do docker como root

  • Como ativar o sensor de impressão digital no domínio e no diretório ativo do Linux

  • Como alterar permanentemente Ctrl + C para Ctrl + K no CentOS 7?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como posso reduzir o consumo do processo `vmmem`?

    • 11 respostas
  • Marko Smith

    Baixar vídeo do Microsoft Stream

    • 4 respostas
  • Marko Smith

    O Google Chrome DevTools falhou ao analisar o SourceMap: chrome-extension

    • 6 respostas
  • Marko Smith

    O visualizador de fotos do Windows não pode ser executado porque não há memória suficiente?

    • 5 respostas
  • Marko Smith

    Como faço para ativar o WindowsXP agora que o suporte acabou?

    • 6 respostas
  • Marko Smith

    Área de trabalho remota congelando intermitentemente

    • 7 respostas
  • Marko Smith

    O que significa ter uma máscara de sub-rede /32?

    • 6 respostas
  • Marko Smith

    Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows?

    • 1 respostas
  • Marko Smith

    O VirtualBox falha ao iniciar com VERR_NEM_VM_CREATE_FAILED

    • 8 respostas
  • Marko Smith

    Os aplicativos não aparecem nas configurações de privacidade da câmera e do microfone no MacBook

    • 5 respostas
  • Martin Hope
    Saaru Lindestøkke Por que os arquivos tar.xz são 15x menores ao usar a biblioteca tar do Python em comparação com o tar do macOS? 2021-03-14 09:37:48 +0800 CST
  • Martin Hope
    CiaranWelsh Como posso reduzir o consumo do processo `vmmem`? 2020-06-10 02:06:58 +0800 CST
  • Martin Hope
    Jim Pesquisa do Windows 10 não está carregando, mostrando janela em branco 2020-02-06 03:28:26 +0800 CST
  • Martin Hope
    v15 Por que uma conexão de Internet gigabit/s via cabo (coaxial) não oferece velocidades simétricas como fibra? 2020-01-25 08:53:31 +0800 CST
  • Martin Hope
    andre_ss6 Área de trabalho remota congelando intermitentemente 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney Por que colocar um ponto após o URL remove as informações de login? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    jonsca Todos os meus complementos do Firefox foram desativados repentinamente, como posso reativá-los? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK É possível criar um código QR usando texto? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 Altere o nome da ramificação padrão do git init 2019-04-01 06:16:56 +0800 CST

Hot tag

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve