GNU/Linux >> Znalost Linux >  >> Linux

Existuje nějaký druh převodníku Pdf na text?

Potřebuji soubory PDF na text, abych je mohl hromadně prohledávat z příkazového řádku. Existuje nějaký převodník pro Ubuntu, OBSD nebo podobnou distribuci?

Možná související příspěvek, OCR s ubuntu zde.

Přijatá odpověď:

Máte spoustu možností!

pdftotext od popplera již byla zmíněna.

Existuje program Haskell s názvem pdf2line který funguje dobře.

ebook-convert v Calibre program příkazového řádku (nebo samotný kalibr) je další možností; umí převést PDF na prostý text nebo jiný formát elektronické knihy (RTF, ePub), podle mého názoru generuje lepší výsledky než pdftotext, i když je podstatně pomalejší.

ebook-convert file.pdf file.txt

AbiWord dokáže převádět mezi libovolnými formáty, které zná z příkazového řádku, a alespoň volitelně má plugin pro import PDF:

abiword --to=txt file.pdf

Další možností je podofotextextract z knihovny nástrojů PDF podofo. To jsem opravdu nezkoušel.

Pokud zkombinujete dva nástroje Ghostscript, pdf2ps a ps2ascii , máte ještě další možnost.

Vlastně mě napadá několik dalších metod, ale zatím to nechám tak. 😉


Linux
  1. Existují „esoterické“ (divné), ale standardy vyhovující C kompilátory nebo runtime?

  2. gImageReader – Extrahujte text z obrázků a PDF v Linuxu

  3. Sloučit soubory pdf s číselným řazením

  1. Existuje nějaký způsob, jak zkopírovat text nápovědy ve Firefoxu?

  2. Převodník PDF na text

  3. Jak nahradit jednu stránku v pdf pomocí jiného pdf v linuxu?

  1. Sysadmin toolbox:Jak používat příkaz sort ke zpracování textu v Linuxu

  2. Používáte Uniq na Unicode Text?

  3. Jak mohu rastrovat veškerý text v PDF?