O Tesseract usa imagens de carregamento leptonica para fazer OCR:
#include <tesseract/baseapi.h>
#include <leptonica/allheaders.h>
int main() {
tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
// Initialize tesseract-ocr with English, without specifying tessdata path
if (api->Init(NULL, "eng")) {
fprintf(stderr, "Could not initialize tesseract.\n");
exit(1);
}
// Open input image with leptonica library
Pix *image = pixRead("./test1dld.png");
api->SetImage(image);
...
No entanto, para a leitura de um lote de testes, a maneira mais fácil seria usar um alimentador de documentos em uma copiadora e fazer com que a máquina enviasse por e-mail o único arquivo PDF resultante, onde cada página é um bitmap. A documentação do leptonica menciona a conversão para pdf, mas não consigo descobrir como ler o pdf, muito menos uma página por vez.
Alguém pode me indicar uma chamada de API que me permita visualizar um arquivo PDF de bitmap um por um como bitmaps individuais? De preferência, ac API e não um comando shell.
Leptonica é um leitor de imagens - não um leitor de documentos (pdf) (sim, ele pode criar PDF, mas ler PDF é uma história diferente).
Você precisará de outra biblioteca para extrair imagens do PDF. Para python, sugiro tentar pymudpf, para C++ você pode verificar poppler, qpdf. Para CI, não tenho certeza se existe uma solução (gratuita).