Potřebuji soubory PDF na text, abych je mohl hromadně prohledávat z příkazového řádku. Existuje nějaký převodník pro Ubuntu, OBSD nebo podobnou distribuci?
Možná související příspěvek, OCR s ubuntu zde.
Přijatá odpověď:
Máte spoustu možností!
pdftotext od popplera již byla zmíněna.
Existuje program Haskell s názvem pdf2line který funguje dobře.
ebook-convert v Calibre program příkazového řádku (nebo samotný kalibr) je další možností; umí převést PDF na prostý text nebo jiný formát elektronické knihy (RTF, ePub), podle mého názoru generuje lepší výsledky než pdftotext, i když je podstatně pomalejší.
ebook-convert file.pdf file.txt
AbiWord dokáže převádět mezi libovolnými formáty, které zná z příkazového řádku, a alespoň volitelně má plugin pro import PDF:
abiword --to=txt file.pdf
Další možností je podofotextextract z knihovny nástrojů PDF podofo. To jsem opravdu nezkoušel.
Pokud zkombinujete dva nástroje Ghostscript, pdf2ps a ps2ascii , máte ještě další možnost.
Vlastně mě napadá několik dalších metod, ale zatím to nechám tak. 😉