我在 Linux,Kubuntu 22.10。
某些程序,包括 Plasma PDF 查看器 Okular,会在特定(1000 多页)pdf 中显示某些页面为空白,但其他程序(包括某些互联网浏览器)会显示所有页面而没有空白。
将所有页面提取为 pdf 后,同样的问题页面也会发生同样的情况。
测试其他程序并总结:
所有页面都可以通过 WPS PDF、Master PDF、Firefox、Vivaldi 浏览器、Opera(因此我猜也是 Chromium/Chrome)、LibreOffice Draw、ImageMagick、mupdf、PDF Studio Viewer 查看
空白(只有一个页脚)显示在 Okular、Qpdfviewer、PDF Aranger、Falkon(互联网浏览器!)、Inskape、Krita 中
在 Kubuntu 中作为 snap 安装的 Evince(文档查看器)无法打开大文件,也无法打开任何单独的 pdf 页面,但会出现错误:(
Error opening file the.pdf: Permission denied
它会打开其他 pdf 文件)
(这是我的 askubuntu 问题,有更多细节。)
我已经在DocDroid上上传了一个这个棘手的 pdf 页面进行测试。
我怎样才能找到有关此类文件的更多详细信息?
(我很好奇这里的工作原理——尽管出于实际目的,我可以通过在浏览器中打印为 pdf 或仅使用不同的 pdf 查看器来解决此问题)。
请下载该页面,看看您是否可以提供一些详细信息,说明为什么此页面可能与此页面不同(相同但已通过在 Opera 中打印为 pdf ‘as image’ 修复)。
分析过程
下载页面后发现一个奇怪的事实:Adobe Reader和Foxit Reader都可以显示文字,但无法正确复制。任何其他应用程序都会显示扭曲的粘贴文本。
我认为这是字体的问题,所以我使用 Adobe Reader 查看嵌入的字体,并发现我的计算机上缺少两种字体:TimesNewRomanPSMT 和 ArialMT。但是下载字体没有任何改变——其他应用程序仍然无法按原样粘贴复制的文本。
然后我在WhatTheFont 网站的页面上尝试了一个文本样本 ,但它无法从其 130,000 种字体中识别出该字体。
文本复制粘贴问题的一个例子是当我复制这个原始文本时:
但是我在浏览器或 Word 中粘贴时得到了这个,这只是一个不精确的近似值:
请注意粘贴文本中的字符错误。
当我用 Word 打开 PDF 时,我得到的页面只是古文字的图像,我无法选择其中的任何文字。
结论
此 PDF 的行为就好像显示的部分是使用某种旧字体的古代文本的背景图像,以及使用不精确的 OCR 创建的前景文本。
OCR 文本的行为就好像它是图像中的文本一样,因为它是透明的并且位于图像的前面。它是可选的,并且它的选择颜色只是部分透明,所以看起来您正在选择显示的文本,但您选择的是 OCR 文本。
不正确处理透明度的图像查看器将显示一个空白页面,图像未“显示出来”。这是一个透明度问题。
作为补充信息:
这是一个错误
poppler
,发布在这里,最初在这里,Evince 和 Atril(Mint PDF 查看器)也受到影响。为了修复这些页面,我在 Firefox(或 Chrome、Vivaldi、Opera - 也必须选择这些“打印为图像”)中将它们打印为“pdf”。根据 RAM 容量,一次不应“打印为 pdf”超过 200-300 页,以避免冻结/崩溃。