GNU/Linux >> Znalost Linux > >> Linux

Existuje nějaký druh převodníku Pdf na text?

Potřebuji soubory PDF na text, abych je mohl hromadně prohledávat z příkazového řádku. Existuje nějaký převodník pro Ubuntu, OBSD nebo podobnou distribuci?

Možná související příspěvek, OCR s ubuntu zde.

Přijatá odpověď:

Máte spoustu možností!

pdftotext od popplera již byla zmíněna.

Existuje program Haskell s názvem pdf2line který funguje dobře.

ebook-convert v Calibre program příkazového řádku (nebo samotný kalibr) je další možností; umí převést PDF na prostý text nebo jiný formát elektronické knihy (RTF, ePub), podle mého názoru generuje lepší výsledky než pdftotext, i když je podstatně pomalejší.

ebook-convert file.pdf file.txt

AbiWord dokáže převádět mezi libovolnými formáty, které zná z příkazového řádku, a alespoň volitelně má plugin pro import PDF:

abiword --to=txt file.pdf

Další možností je podofotextextract z knihovny nástrojů PDF podofo. To jsem opravdu nezkoušel.

Pokud zkombinujete dva nástroje Ghostscript, pdf2ps a ps2ascii , máte ještě další možnost.

Vlastně mě napadá několik dalších metod, ale zatím to nechám tak. 😉

Kde Xkb získává konfiguraci? Účel .bashrc a jak to funguje?

Linux