鉴于:
- 包含 1..n 个随机名称 ZIP 文件的目录(均以 .zip 结尾)
- 每个 zip 文件包含 1..n 个随机名称的 PDF 文件(均以 .pdf 结尾)
- 所有 PDF 都来自同一来源,并且在某种程度上具有可比格式。
- PDF 不是普通文本,而是发票、库存清单等(也称为表格和表格;当我在 PDF 查看器中打开它们时,可以搜索这些 PDF。)
- 搜索词,即库存项目编号或发票编号
通缉:
- 一种查找/列出包含给定搜索词的所有 PDF 的方法。
- 最好使用现有的 linux 工具。
鉴于:
通缉:
您可以将 PDF 转换为文本,然后对该文本应用 grep: