Potřebuji soubory PDF na text, abych je mohl hromadně prohledávat z příkazového řádku. Existuje nějaký převodník pro Ubuntu, OBSD nebo podobnou distribuci?
Možná související příspěvek, OCR s ubuntu zde.
Přijatá odpověď:
Máte spoustu možností!
pdftotext
od popplera již byla zmíněna.
Existuje program Haskell s názvem pdf2line
který funguje dobře.
ebook-convert
v Calibre program příkazového řádku (nebo samotný kalibr) je další možností; umí převést PDF na prostý text nebo jiný formát elektronické knihy (RTF, ePub), podle mého názoru generuje lepší výsledky než pdftotext, i když je podstatně pomalejší.
ebook-convert file.pdf file.txt
AbiWord dokáže převádět mezi libovolnými formáty, které zná z příkazového řádku, a alespoň volitelně má plugin pro import PDF:
abiword --to=txt file.pdf
Další možností je podofotextextract
z knihovny nástrojů PDF podofo. To jsem opravdu nezkoušel.
Pokud zkombinujete dva nástroje Ghostscript, pdf2ps
a ps2ascii
, máte ještě další možnost.
Vlastně mě napadá několik dalších metod, ale zatím to nechám tak. 😉