Chrome 一直要求保存 PDF 并且从不打开它

Question

rwallace

Asked: 2024-05-18 19:26:28 +0800 CST2024-05-18 19:26:28 +0800 CST 2024-05-18 19:26:28 +0800 CST

检查 PDF 是否包含嵌入文本

772

当然，几乎所有 PDF 都“包含文本”，即具有您可以阅读的文本，但我在这里讨论的是那些只是位图、只能被人类大脑解释为文本的 PDF 之间的区别就计算机而言，查看屏幕，而不是那些还包含文本的屏幕。

对于从纸质文件扫描的 PDF，这种现象可能不明显。有时，您在屏幕上看到的内容看起来像是扫描出来的模糊不完美的文本图片，但事实证明 PDF 已经经过 OCR 处理，因此，即使您看到的是原始的模糊位图，即使您在正常阅读时没有获得 OCR 的好处，嵌入的文本仍然存在，隐藏在文件中。它可能以两种方式出现在 PDF 阅读器中：

尝试用鼠标选择文本。
尝试搜索一个单词。

当然，也可能发生部分文本已被 OCR 但不是全部的情况。

如果上述两个测试结果均为阴性，那么是否可以说“不，此 PDF 不包含嵌入文本”，或者嵌入文本是否仍隐藏在文件中？

例如：

https://pdf.datasheetcatalog.com/datasheets/2300/45014_DS.pdf

据我所知，上面的 PDF 都是位图，没有嵌入文本。这是正确的吗，还是我仍然遗漏了什么？

1 个回答

Voted

lezambranof · Answer 1 · 2024-06-06T02:35:41+08:00

Best Answer

lezambranof

2024-06-06T02:35:41+08:002024-06-06T02:35:41+08:00

一种方法是提取文本并测试它是否为空。例如，在bash我们有

# Create a PDF containing text.
$ echo Text | pandoc -o t.pdf
# Extract text and do the required test.
$ mutool draw -F text t.pdf | sed -n '/[[:graph:]]/q1' && echo NoGraph || echo Graph
Graph
#
# Create a PDF that contains no text.
$ echo NoText | magick text:- nt.pdf
# The same test
$ mutool draw -F text nt.pdf | sed -n '/[[:graph:]]/q1' && echo NoGraph || echo Graph
NoGraph

正则表达式[[:graph:]]仅匹配可见字符，即除空格、控制字符等之外的任何字符。也许您想要更多的限制和使用[[:print:]]（可见字符和空格）。

mutool是MuPDF的一部分。当然，您可以使用pdftotext file.pdf -(from poppler-tools) 代替，或任何其他。

1

检查 PDF 是否包含嵌入文本

如何减少“vmmem”进程的消耗？

从 Microsoft Stream 下载视频

Google Chrome DevTools 无法解析 SourceMap：chrome-extension

Windows 照片查看器因为内存不足而无法运行？

支持结束后如何激活 WindowsXP？

远程桌面间歇性冻结

子网掩码 /32 是什么意思？

鼠标指针在 Windows 中按下的箭头键上移动？

VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

检查 PDF 是否包含嵌入文本

1 个回答

相关问题