Estou no Linux, Kubuntu 22.10.
Alguns programas, incluindo o visualizador Plasma PDF Okular, exibem em branco algumas das páginas em um pdf específico (mais de 1.000 páginas), mas outros programas, incluindo alguns navegadores da Internet, exibem todas as páginas sem espaços em branco.
Depois de extrair todas as páginas como pdf, o mesmo acontece com as mesmas páginas problemáticas.
Testando com outros programas e resumindo:
todas as páginas são vistas por WPS PDF, Master PDF, Firefox, navegador Vivaldi, Opera (portanto, acho que também Chromium/Chrome), LibreOffice Draw, ImageMagick, mupdf, PDF Studio Viewer
espaços em branco (com apenas um rodapé) são exibidos no Okular, Qpdfviewer, PDF Aranger, Falkon (navegador de internet!), Inskape, Krita
O Evince (Document Viewer) instalado como snap no Kubuntu não consegue abrir o arquivo grande, nem nenhuma das páginas separadas do pdf, mas dá um erro:
Error opening file the.pdf: Permission denied
(ele abre outros arquivos pdf)
( Aqui está minha pergunta askubuntu com mais detalhes.)
Carreguei uma dessas complicadas páginas em PDF no DocDroid para teste.
Como posso encontrar mais detalhes sobre esses arquivos?
(Estou curioso sobre o que está acontecendo aqui - embora, para fins práticos, eu possa corrigir isso imprimindo em pdf em um navegador ou simplesmente usando um visualizador de pdf diferente).
Faça o download da página e veja se você pode fornecer alguns detalhes sobre por que esta página pode ser diferente em contraste com esta (que é a mesma, mas corrigida por impressão em pdf 'como imagem' no Opera).
Processo de análise
Baixei a página e descobri um fato estranho: Tanto o Adobe Reader quanto o Foxit Reader podem exibir o texto, mas é impossível copiá-lo corretamente. Qualquer outro aplicativo exibiria o texto colado com distorções.
Achei que era uma questão de fonte, então usei o Adobe Reader para ver as fontes incorporadas e descobri duas fontes que estavam faltando no meu computador: TimesNewRomanPSMT e ArialMT. Mas baixar as fontes não mudou nada - outros aplicativos ainda não conseguiram colar o texto copiado como estava.
Em seguida, tentei uma amostra do texto na página com o site WhatTheFont , mas não consegui identificar a fonte entre suas 130.000 fontes.
Um exemplo dos problemas no copy-paste do texto é quando copio este texto original:
Mas recebo isso ao colar no navegador ou no Word, que é apenas uma aproximação não exata:
Observe os erros de caracteres no texto colado.
Quando abro o PDF com o Word, recebo uma página que é apenas uma imagem do texto antigo e não consigo selecionar nenhum texto nela.
Conclusão
Este PDF se comporta como se a parte exibida fosse uma imagem de fundo de um texto antigo usando uma fonte antiga, com um texto de primeiro plano criado usando um OCR impreciso.
O texto OCR se comporta como se fosse o texto da imagem, pois é transparente e colocado na frente da imagem . É selecionável e sua cor de seleção é apenas parcialmente transparente, então parece que você está selecionando o texto exibido, mas está selecionando o texto OCR.
Um visualizador de imagens que não lida corretamente com a transparência mostrará uma página em branco com a imagem não "aparecendo". Este é um problema de transparência.
Como informação complementar:
Este é um bug com
poppler
, postado aqui , inicialmente aqui , Evince e Atril (visualizador de PDF do Mint) também são afetados.Para corrigir as páginas, imprimi-as "como pdf" no Firefox (ou Chrome, Vivaldi, Opera - com essas 'imprimir como imagem' também deve ser selecionado). Dependendo da capacidade da RAM, não se deve "imprimir em pdf" mais de 200-300 páginas de uma só vez para evitar congelamentos/travamentos.