AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 77714623
Accepted
Dov
Dov
Asked: 2023-12-26 02:30:52 +0800 CST2023-12-26 02:30:52 +0800 CST 2023-12-26 02:30:52 +0800 CST

Como ler um PDF contendo várias páginas como imagens no Leptonica

  • 772

O Tesseract usa imagens de carregamento leptonica para fazer OCR:

#include <tesseract/baseapi.h>
#include <leptonica/allheaders.h>
int main() {
    tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
    // Initialize tesseract-ocr with English, without specifying tessdata path
    if (api->Init(NULL, "eng")) {
        fprintf(stderr, "Could not initialize tesseract.\n");
        exit(1);
    }
    // Open input image with leptonica library
    Pix *image = pixRead("./test1dld.png");
    api->SetImage(image);
    ...

No entanto, para a leitura de um lote de testes, a maneira mais fácil seria usar um alimentador de documentos em uma copiadora e fazer com que a máquina enviasse por e-mail o único arquivo PDF resultante, onde cada página é um bitmap. A documentação do leptonica menciona a conversão para pdf, mas não consigo descobrir como ler o pdf, muito menos uma página por vez.

Alguém pode me indicar uma chamada de API que me permita visualizar um arquivo PDF de bitmap um por um como bitmaps individuais? De preferência, ac API e não um comando shell.

image
  • 1 1 respostas
  • 9 Views

1 respostas

  • Voted
  1. Best Answer
    user898678
    2023-12-26T04:28:36+08:002023-12-26T04:28:36+08:00

    Leptonica é um leitor de imagens - não um leitor de documentos (pdf) (sim, ele pode criar PDF, mas ler PDF é uma história diferente).

    Você precisará de outra biblioteca para extrair imagens do PDF. Para python, sugiro tentar pymudpf, para C++ você pode verificar poppler, qpdf. Para CI, não tenho certeza se existe uma solução (gratuita).

    • 1

relate perguntas

  • Qual é a diferença entre Ballard e Guil na Transformada Generalizada de Hough? [fechado]

  • Redefinindo/Limpar/Desmarcar Choicebox javaFX

  • Imagine que as imagens da biblioteca tenham fundo preto, defina-o como branco

  • Golang gera um hash consistente para imagem JPEG sem gravar no disco

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve