Tenho uma biblioteca pessoal razoavelmente grande com livros em vários formatos. Tentei organizar seus metadados, incluindo um campo de texto contendo os índices. No momento, estou usando o recurso 'Area Text Selection' do meu leitor de documentos para copiar o texto. Fazer isso para DJVUs com djview produz índices bem formatados, como este:
CONTENTS
1. EXPERIMENTS
1.1. The definition of an experiment ..... 1
1.2. Algebras of events as Boolean algebras .... 6
1.3. Operations with experiments ...... 9
1.4. Canonical representation of polynomials of events . . 12
....
Enfatizo que tudo o que fiz foi arrastar meu mouse pela página e clicar em "Copiar texto". Se eu tentar isso com um PDF, a estrutura será completamente perdida e terei que gastar algum tempo limpando a seleção de texto, movendo os números de página e seção. Posso obter algo assim:
Table of Contents
I
Introduction
1
Introduction
1.1
Table of Contents
1.2
Acknowledgments
1
3
3
6
II
....
Estou procurando um leitor de PDF que possa copiar o texto de forma similar, mas com a "estrutura" preservada. O fato de os leitores DJVU terem essa capacidade me diz que isso deve ser possível.
Nota: Não estou falando sobre extrair ToCs dos favoritos: muitos dos meus PDFs não têm nenhum. Eu também gostaria de evitar uma ferramenta CLI que tenha que processar o arquivo inteiro: eu só quero que ela pegue o texto que eu selecionar, mas com as quebras de linha e a estrutura geral intactas.