Como posso usar o docker sem sudo?

Question

Asked: 2021-08-23 23:25:34 +0800 CST2021-08-23 23:25:34 +0800 CST 2021-08-23 23:25:34 +0800 CST

Obtenha texto em preto pronto para impressão em fundo branco em arquivos pdf digitalizados (remova escala de cinza ou fundo colorido)

772

Como posso transformar fotos de documentos em papel em um documento digitalizado? está relacionado, mas não é o mesmo, pois estou falando de arquivos pdf. O processamento de imagens parece complicado nas respostas da pergunta vinculada, principalmente porque envolve o processamento de cada imagem separadamente : dado que meu pdf tem centenas de páginas , a solução que espero não é processar/editar imagens, mas simplesmente digitalizar fotos digitais e documenta como os reais são . Quero dizer algo como um "scanner virtual" para o qual a entrada seria um pdf baseado em foto ou uma coleção de fotos e a saída um documento digitalizado "normal". (Também a ferramenta Scantailor recomendada - também aqui - parece não ter uma versão Linux agora.)

Não se trata de OCR e nem de converter imagem em texto.

Para esclarecer o que quero dizer, vou postar alguns exemplos.

Existem arquivos pdf baseados em texto , não em imagem, e são arquivos de texto (digamos docx ou odt) exportados para pdf. Eles parecem prontos para serem impressos:

O acima não é o que discuto aqui.

O que me interessa são os pdfs nas imagens abaixo, ou seja, a diferença entre páginas de texto digitalizadas que se parecem muito com imagens e páginas de texto digitalizadas que parecem texto digitalizado.

As primeiras são formadas por imagens que parecem fotos tiradas de páginas de livros:

ou

Essas cópias dificilmente podem ser reimpressas em papel , pois o fundo também será impresso.

Os segundos são o que se esperaria do texto digitalizado e podem ser impressos:

ou

O pdf semelhante a uma imagem já pode ser processado por OCR e seu texto pesquisável, e ainda parecer uma coleção de fotos (de página): OCR não é o problema aqui.

O que eu quero é a aparência clara em preto sobre branco do pdf "digitalizado" e a remoção de todos os detalhes "reais" (especialmente sombras) que são normais em uma foto, mas devem estar ausentes em uma página impressa.

Como @vanadium notou em um comentário, estou procurando uma solução de software que limpe automaticamente as imagens de um documento, muito parecido com o Google Scan em um smartphone .

Como @ user535733 disse em um comentário, o problema aqui parece ser, pelo menos até certo ponto, o de converter o texto em tons de cinza (digitalizado/imagem) em preto e branco .

4 respostas

Voted

pLumo · Answer 1 · 2021-08-23T23:42:42+08:00

scantailornão é mais mantido, mas você ainda pode compilá-lo a partir da fonte e usá-lo.

No entanto, o repositório original precisa do qt4, que não é facilmente instalável nas versões recentes do Ubuntu. Você pode usar, por exemplo , este garfo que se adaptou ao qt5.

Pré-requisitos:

sudo apt install libjpeg-dev zlib1g-dev libpng-dev libtiff-dev libboost-dev libxrender-dev libboost-all-dev

Instalação:

git clone https://github.com/victl/scantailor
cd scantailor
cmake .
make
sudo make install

Isenção de responsabilidade: não conheço o mantenedor deste fork e não posso dizer nada sobre a segurança de sua versão.

Outra opção seria usar o Scantailor advanced . Você pode instalá-lo através snap...

sudo snap install scantailor-advanced

... ou flatpack .

... ou via ppa .

sudo add-apt-repository ppa:alex-p/scantailor
sudo apt update
sudo apt install scantailor # or scantailor-advanced

Teste rápido:

cipricus · Answer 2 · 2021-08-25T05:25:36+08:00

Como solução direta em PDF (sem extração manual de imagens):

Usando ocrmypdfpara restaurar o OCR (como mencionado no final da parte complementar desta resposta), notei que ocrmypdf -hmostra uma opção que parecia exatamente o que é solicitado:

--remove-background Attempt to remove background from gray or color pages, setting it to white

O pdf inicial já tinha OCR, o que dá erro, a menos que uma das seguintes opções seja usada:

-f, --force-ocr Rasterize any text or vector objects on each page, apply OCR, and save the rastered output (this rewrites the PDF)

ou

-s, --skip-text Skip OCR on any pages that already contain text, but include the page in final output; useful for PDFs that contain a mix of images, text pages, and/or previously OCRed pages

Aplicar cada um separadamente a um dos meus arquivos grandes com centenas de páginas que já tinham OCR travou o processo.

The best solution seems to me to first print to pdf the initial file (which removes OCR), and then do

ocrmypdf input.pdf output.pdf -l <LANG> --remove-background -v

For English, the -l option is not needed. -v is for verbose details in terminal.

The resulted pdf is larger than the input (because of the --remove-background option): reduce the size as said below.

About Scan Tailor, as a complement to the main answer

Even its icon illustrates the fact that it is intended exactly for what is asked here:

Here is how to use Scan Tailor with pdfs:

Extract all pdf pages as image files - because this tool doesn't process pdf directly and needs images. Master PDF Editor can do this but on my machine it crashes after extracting about 80 images. But it can still be used by setting a new batch/range of pages to be extracted. (PDF Mod crashed before any processing). What I prefer after a few trials is a CLI reliable albeit slower method, with a command like: pdftoppm MY_PDF.pdf NAME -tiff - as said here. — Other variables can be used instead of tiff (which gives tif files), for example png or jpeg. See here a set of Dolphin service menu actions for the various extraction options:

[Desktop Entry]
Type=Service
ServiceTypes=KonqPopupMenu/Plugin
MimeType=application/pdf;
Actions=pdf;tif;jpeg;
X-KDE-Submenu=PDF action: EXTRACT ALL pages
Icon=application-pdf

[Desktop Action pdf]
Name=Extract pages as pdf
Icon=application-pdf
Exec=bash -c 'pdf=$(pdftk "%u" burst); kdialog --title "Extract pages" --msgbox "Extracted! $pdf";';

[Desktop Action tif]
Name=Extract pages as tif
Icon=application-pdf
Exec=bash -c 'f="%u"; pdf=$(pdftoppm "$f" "${f%%.*}" -tiff); kdialog --title "Extract pages" --msgbox "Extracted! $pdf";';


[Desktop Action jpeg]
Name=Extract pages as jpeg
Icon=application-pdf
Exec=bash -c 'f="%u"; pdf=$(pdftoppm "$f" "${f%%.*}" -jpeg); kdialog --title "Extract pages" --msgbox "Extracted! $pdf";';

Load and process the resulting images in Scan Tailor. Put resulting image files in a separate folder and add that folder under New Project>Input Directory in Scan Tailor. (I have installed that program from PPA, as said in a comment by @N0rbert under the main answer.) Some pages containing real images and not text might look better if for each of them is selected "Grayscale and Color" instead of the default "Black and white" (meant here for text). Run one by one the listed procedures. Check the pages before running the last one ("Output").

Create a new pdf out of the resulting images. (First check the resulted tif files are as you want them.) There are many ways to create a new pdf. Again the GUI tools that I've tried very soon crashed or gave odd results, so I prefer to put the resulting tif files in a separate folder and there run the command img2pdf *.tif -o out.pdf - as said here. (This may need proper naming/numbering of the files. More on that here.)

The resulting "tailored" pdf will be smaller than the initial one, but the percentage of the size reduction varies depending on factors that I ignore (but I imagine that the pages contained in the initial pdf should be extracted — at step 1 — in the format they already have; I think jpeg and tif should be used instead of png; use pdfimages -list your.pdf in terminal to see details on format, dpi and other details before processing with the commands above and below).

The final pdf can be further reduced with a command like:

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook \
-dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf

More details on that, here.

Here is a set of Dolphin service menu actions based on the above link:

[Desktop Entry]
Type=Service
ServiceTypes=KonqPopupMenu/Plugin
MimeType=application/pdf;
Actions=shrink;shrink0;shrink1;shrink2;
X-KDE-Submenu=PDF action: SHRINK
Icon=application-pdf

[Desktop Action shrink]
Name=Shrink pdf to "printer" size, 300dpi
Icon=application-pdf
Exec=bash -c 'f="%u"; pdf=$(gs -dQUIET -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -dPDFSETTINGS=/printer    -sOutputFile="${f%.pdf}_printer.pdf" "$f"); kdialog --title "Shrink" --msgbox "Done! $pdf";';

[Desktop Action shrink0]
Name=Shrink pdf to "prepress" size, 300dpi
Icon=application-pdf
Exec=bash -c 'f="%u"; pdf=$(gs -dQUIET -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -dPDFSETTINGS=/prepress    -sOutputFile="${f%.pdf}_prepress.pdf" "$f"); kdialog --title "Shrink" --msgbox "Done! $pdf";';


[Desktop Action shrink1]
Name=Shrink pdf to "ebook size, 150dpi
Icon=application-pdf
Exec=bash -c 'f="%u"; pdf=$(gs -dQUIET -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -dPDFSETTINGS=/ebook    -sOutputFile="${f%.pdf}_small.pdf" "$f"); kdialog --title "Shrink" --msgbox "Done! $pdf";';

[Desktop Action shrink2]
Name=Shrink pdf to "screen" size, 72dpi
Icon=application-pdf
Exec=bash -c 'f="%u"; pdf=$(gs -dQUIET -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -dPDFSETTINGS=/screen    -sOutputFile="${f%.pdf}_smaller.pdf" "$f"); kdialog --title "Shrink" --msgbox "Done! $pdf";';

I got some help from this answer too.

OCR (text search and copy capability) is lost during the above procedure, if present in the initial pdf. In order to get OCR, use ocrmypdf input.pdf output.pdf for English, as said here. For other languages, look for them with apt-cache search tesseract-ocr, and install them. Add -l <LANG> at the end of the command for specific languages; more here; see their names also here.

Here is a Dolphin service menu action for Romanian OCR with two options (one with progress in terminal and fixed output name, the other with background process but with output name based on input; I would like to have both process in terminal and output name based on input but don't know how; if someone can do it, please post here!). For English, replace "Romanian" and remove the -l ron variable:

[Desktop Entry]
Type=Service
ServiceTypes=KonqPopupMenu/Plugin
MimeType=application/pdf;
Actions=ocr1;ocr2;
X-KDE-Submenu=PDF action: apply OCR
Icon=application-pdf

[Desktop Action ocr1]
Name=Apply OCR Romanian (see progress in terminal; output name: ocr_ro.pdf!)
Icon=application-pdf
Exec=konsole --noclose -e ocrmypdf "%u" ocr_ro.pdf -l ron

[Desktop Action ocr2]
Name=Apply OCR Romanian (backgroud process: NO terminal! input>output name)
Icon=application-pdf
Exec=bash -c 'f="%u"; ocrmypdf "$f" "${f%.pdf}_ocr.pdf" -l ron;'

(Extracting and processing images, as well as 'printing as pdf' removes OCR, but reducing size with ghostscript as above does not, so the "shrinking" can be applied before or after the OCR.)

Angel115 · Answer 3 · 2021-08-24T00:41:07+08:00

Eu tenho um resultado muito bom usando imageMagick e o seguinte script http://www.fmwconcepts.com/imagemagick/shadowhighlight/index.php

Aqui está o resultado usando os seguintes parâmetros:

./shadowhighlight -ma 100 -sa 100 -ha 00 -hw 0 -bc 20 inputFile.png OutputFile.png

Ajay · Answer 4 · 2021-08-27T04:55:26+08:00

Just install Gimp(preferably use appimage). Following are the options:

Select Colour>Thresold and it is done your image will be black and white. for for this you have to do it for each page

Second option 2) Select Image>Mode>Indexed>Use black and white 1 bit palette

Any number of pages your pdf may have this will convert all to 1 bit Black and White.

Edit on 02/11/2021: As per query raised by cipiricus

Here are steps that I follow:

Scan pages with "simple scan" or Xsane. (I found simple scan do better work in color) OR use already available scanned pdf.
File>open OR drag and drop pdf file in GIMP. Here you need to give width X height of image you need. (Check what dpi you need 150 dpi or 300 dpi give value of width accordingly)
Now the pdf file with more than 1 pages open as layers.
Go to Image>Mode>Indexed>Use black and white 1 bit palette
Agora eu exporto o pdf usando Arquivo> "Exportar como"
Verifique se cada página do pdf exportado está de acordo com o requisito. Caso contrário, eu processo individualmente cada página defeituosa com o seguinte método: a) Selecione Imagem> Modo> Tons de cinza b) (Se houver muito cinza/ruído na página) Selecione Cor> Exposição e ajuste conforme a necessidade. c) Selecione Cor > Limite e pronto sua imagem ficará em preto e branco. para isso, você deve fazê-lo para cada página defeituosa para corresponder à qualidade exigida. d) Agora eu insiro esta página editada nesta camada de camadas de arquivo pdf original e excluo a camada de página defeituosa. e Exportar pdf novamente. Espero que isso ajude.

Obtenha texto em preto pronto para impressão em fundo branco em arquivos pdf digitalizados (remova escala de cinza ou fundo colorido)

Como solução direta em PDF (sem extração manual de imagens):

About Scan Tailor, as a complement to the main answer

Existe um comando para listar todos os usuários? Também para adicionar, excluir, modificar usuários, no terminal?

Como excluir um diretório não vazio no Terminal?

Como descompactar um arquivo zip do Terminal?

Como instalo um arquivo .deb por meio da linha de comando?

Como instalo um arquivo .tar.gz (ou .tar.bz2)?

Como listar todos os pacotes instalados

Obtenha texto em preto pronto para impressão em fundo branco em arquivos pdf digitalizados (remova escala de cinza ou fundo colorido)

4 respostas

Como solução direta em PDF (sem extração manual de imagens):

About Scan Tailor, as a complement to the main answer

relate perguntas

Existe um comando para listar todos os usuários? Também para adicionar, excluir, modificar usuários, no terminal?

Como excluir um diretório não vazio no Terminal?

Como descompactar um arquivo zip do Terminal?

Como instalo um arquivo .deb por meio da linha de comando?

Como instalo um arquivo .tar.gz (ou .tar.bz2)?

Como listar todos os pacotes instalados