我试图在 PDF 文件中查找一些文本,但结果不准确!例如,我有 2 个 PDF 文件,其中包含单词domiciiado。当我搜索这个词 (domiciliado) 时,docfetcher 只显示一个包含这个词的 PDF 文件。我的问题是为什么 docfetcher 不显示带有这个词的其他 PDF 文件?PDF文件之间有区别吗?在一个 PDF 中,我只有文本,而其他 PDF 是文本和图像,这是来自扫描页面。问题是什么?
PS:2个PDF文件在同一个目录下
我试图在 PDF 文件中查找一些文本,但结果不准确!例如,我有 2 个 PDF 文件,其中包含单词domiciiado。当我搜索这个词 (domiciliado) 时,docfetcher 只显示一个包含这个词的 PDF 文件。我的问题是为什么 docfetcher 不显示带有这个词的其他 PDF 文件?PDF文件之间有区别吗?在一个 PDF 中,我只有文本,而其他 PDF 是文本和图像,这是来自扫描页面。问题是什么?
PS:2个PDF文件在同一个目录下
仅包含文本的 PDF 文件与包含文本和图像扫描页面的 PDF 文件之间有什么区别吗?
是的,带有文本的 PDF 文件和带有扫描图像的 PDF 文件是不同的。在基于图像的 pdf 中,计算机只能看到图像,并且识别这些图像中的文本需要在 PDF 引擎中内置额外的功能,例如光学字符识别(OCR)。带有文本的 PDF 更容易被计算机搜索,因为计算机可以直接识别文本。
推荐
搜索扫描的 pdf 的一种方法是首先对其进行 OCR 以提取文本,然后执行搜索。看看this question for some good OCR for Ubuntu什么是最好、最简单的 OCR 解决方案?
对于仅使用文本搜索 PDF 中的文本,我推荐使用命令行工具pdfgrep。还有其他不错的选择。看看这个问题如何从命令行搜索 PDF 文件?