Os arquivos PDF são notórios por seu armazenamento inconsistente de formatação de texto: se você escrever algum texto no Word/Writer, aplicar negrito, itálico, etc., imprima-o em PDF, abra este PDF no Acrobat Reader DC ou em qualquer outro visualizador e copie o texto de volta para o Word, é provável que você veja pelo menos alguma formatação perdida. Muitas vezes, você apenas obtém texto simples.
Minha pergunta é: Posso confiar que esse texto simples seja exatamente o mesmo (mesmos caracteres Unicode na mesma ordem) que o original ou também pode ser desfigurado de alguma maneira óbvia?
A única coisa que você pode garantir é que visualmente o PDF terá a mesma aparência do documento de entrada. PDF é um formato para distribuição de documentos, não trocando de um formato para outro.
Por exemplo, se você tiver uma entrada com caixas de texto escritas em vários lugares que, em teoria, estão seguindo uma da outra no Word, você não pode garantir que os blocos de texto sejam vinculados ou mesmo na mesma ordem na sua saída, principalmente quando passado ou salvo de outros visualizadores ou editores de PDF que podem "otimizar" a saída.
Não, o PDF altera intencionalmente o texto para "formato de descrição da página", ou seja, PDF. Por exemplo, mesmo que um parágrafo ininterrupto seja inserido em um PDF, na conversão para o formato de página, os caracteres de quebra de linha geralmente são inseridos no final de cada linha como apareceriam nessa página.
Por exemplo, nesta captura de tela de um leitor de PDF, um parágrafo aparentemente ininterrupto,
quando visto como texto no Notepad++ ,
mostra os pares de retorno de carro/alimentação de linha no final de todas, exceto na última linha.
Converter texto em PDF é fácil; voltar de PDF para texto é problemático.
Se você precisar converter arquivos de PDF de volta, os arquivos PDF criados por máquina são a melhor aposta e isso geralmente funciona decentemente.
A conversão de um PDF que foi uma digitalização de um documento impresso/em papel normalmente requer muita intervenção.
Existem aplicativos de OCR que podem ser melhores para esse tipo de trabalho.