我有一个相当大的个人图书馆,里面有各种格式的书籍。我尝试整理它们的元数据,包括包含目录的文本字段。目前,我正在使用文档阅读器中的“区域文本选择”功能来复制文本。使用 djview 对 DJVU 执行此操作可生成格式良好的目录,如下所示:
CONTENTS
1. EXPERIMENTS
1.1. The definition of an experiment ..... 1
1.2. Algebras of events as Boolean algebras .... 6
1.3. Operations with experiments ...... 9
1.4. Canonical representation of polynomials of events . . 12
....
我强调,我所做的只是将鼠标拖过页面并单击“复制文本”。如果我尝试对 PDF 执行此操作,结构将完全丢失,我必须花一些时间清理文本选择,移动页码和章节编号。我可能会得到如下结果:
Table of Contents
I
Introduction
1
Introduction
1.1
Table of Contents
1.2
Acknowledgments
1
3
3
6
II
....
我正在寻找一款可以以类似的方式复制文本但保留“结构”的 PDF 阅读器。DJVU 阅读器具有此功能,这告诉我这应该是可能的。
注意:我不是在谈论从书签中提取目录:我的许多 PDF 都没有目录。我还想避免使用必须处理整个文件的 CLI 工具:我只希望它选择我选择的文本,但保留换行符和整体结构。