我正在 Ubuntu 中寻找一种解决方案,该解决方案可以索引 PDF(和 ps?)文件以供以后搜索。
标准是:
- 兼容性:通常提取文本会有所不同,具体取决于用于创建 PDF 的软件。一些PDF也可以被“锁定”,我想应该尊重这一点。
- 搜索功能:通配符、正则表达式、“模糊”匹配。
- 搜索速度
在我的情况下,我想索引一个学术期刊文章的文件夹,因此要求它始终如一地工作,无论是什么软件创建了 PDF。我已经在使用参考管理器,所以不想替换它。
例如:一个好的 Beagle 前端和一个允许它索引 PDF 的插件将是完美的。
Tracker 与 Beagle 和 Strigi 做同样的事情,但与 Beagle 不同的是,它是用纯 C 编写的(Beagle 是一个 Mono 应用程序)。据称,它比 Beagle 快得多,尽管我自己没有计算过。
我找不到 Tracker 的链接,但我确定它在默认的 Ubuntu 存储库中。
Lucene对 PDF、HTML、Microsoft Word 和 OpenDocument 进行全文索引。它只是一个库,但有几个应用程序/CMS 使用它,或者您可以将其用作您自己的解决方案的基础。
它是免费软件(Apache 许可证)。
编辑:
如果您正在寻找带有前端的东西,您可能会考虑 Beagle 或 Strigi:
比格犬
斯特里吉
我使用谷歌桌面在 linux 上进行搜索。不是免费的,但它是我找到的最好的。