GNU/Linux >> Znalost Linux >  >> Linux

gImageReader – Extrahujte text z obrázků a PDF v Linuxu

gImageReader je bezplatná čtečka PDF s otevřeným zdrojovým kódem se schopností extrahovat text z obrázků a souborů PDF. Je vytvořen jako jednoduchý Gtk/Qt front-end pro Tesseract-OCR , open-source OCR engine pro rozpoznávání textů a vzorů v dokumentech a obrázcích pomocí Umělé inteligence .

Samotný Tesseract je nástroj příkazového řádku, který je omezen na použití uživateli Linuxu, kteří jsou dostatečně obeznámeni s jejich terminály. Díky gImageReader , nyní může každý využít efektivitu OCR enginu.

gImageReader funguje skenováním textů z PDF nebo obrázkového souboru v některém z několika jazyků, které podporuje díky existenci znaků Unicode. Obsahuje jednoduché, dobře organizované přizpůsobitelné uživatelské rozhraní, jehož prostřednictvím můžete provádět kontrolu pravopisu a překladatelské úlohy.

Funkce v gImageReader

  • Bezplatný software s otevřeným zdrojovým kódem. Zdrojový kód dostupný na GitHubu.
  • K dispozici na platformách GNU/Linux a Windows.
  • Tématické uživatelské rozhraní se známým rozložením úprav.
  • Importujte dokumenty a obrázky PDF z disku, skenovacích zařízení, snímků obrazovky a schránky.
  • Generujte dokumenty PDF z dokumentů hOCR.
  • Ruční nebo automatické rozpoznání oblasti.
  • Zpracujte více obrázků a dokumentů v dávkách.
  • Rozpoznejte dokumenty hOCR nebo prostý text.
  • Rozpoznaný text zobrazený vedle obrázků.
  • Následné zpracování rozpoznaného textu, včetně kontroly pravopisu.

gImageReader snadno se používá a podporuje práci s dokumenty v elektronické podobě i se snímky nahraných médií, např. snímky obrazovky. Máte dokonce možnost vybrat oblast textu, která vás zajímá, a přidat pouze text, který potřebujete. Nakonec gImagereader funguje jako čtečka PDF i jako nástroj pro extrakci textu. Blbé věci.

Nainstalujte gImageReader v systému Linux

Chcete-li použít gImageReader na maximum, musíte ručně nainstalovat Tesseract jazykové balíčky, abyste mohli správně analyzovat obrázky a soubory. Balíček se nazývá „Tesseract-ocr-eng “ a je k dispozici u správce softwaru v Debianu a Fedora distribuce.

Pokud používáte Ubuntu , můžete jednoduše přidat PPA a spusťte instalační příkaz pomocí následujících příkazů:

$ sudo add-apt-repository ppa:sandromani/gimagereader
$ sudo apt update
$ sudo apt install gimagereader

V Debianu , Fedora a OpenSUSE nainstalujte jej ze správce balíčků.

$ sudo apt install gimagereader     [On Debian]
$ sudo dnf install gimagereader     [On Fedora]
$ sudo zypper install gimagereader  [On OpenSuse]

Pokud používáte Arch Linux, nemusíte se cítit opomenuti nebo některý z jeho derivátů. AUR má tě pokryto. A pokud byste raději přestavěli aplikaci ze zdroje, pokyny jsou v odkazu na její úložiště GitHub na Wiki.

Patříte k těm, kteří extrahují tištěný text z obrázků? Můžete dokonce pořídit snímky vybraných oblastí pomocí telefonu a nahrát je do svého notebooku. Co je ještě cool, je jeho vícejazyčná podpora – která, i když není dokonalá, je již nyní jednou z nejlepších možností v komunitě.

gImageReader patří mezi nejlepší čtečky PDF ve světě open source, zejména díky své schopnosti OCR, takže to vyzkoušejte a uvidíte, jak se vám to líbí.

Jako obvykle se s námi můžete podělit o své zkušenosti s aplikací, pokud nějaké máte. A přidat další návrhy v sekci komentářů níže.


Linux
  1. Extrahovat grafy z PDF?

  2. Jak používat sched_getaffinity a sched_setaffinity v Linuxu z C?

  3. Jak extrahovat text pomocí OCR z PDF na Linuxu?

  1. Jak extrahovat soubory .gz a .tar.gz v Linuxu

  2. Nástroje pro extrahování textu z powerpoint pptx v linuxu?

  3. Vytvořte a naformátujte oddíl exFAT z Linuxu

  1. Upravujte text v Linuxu pomocí KWrite a Kate

  2. Odesílejte oznámení a připomenutí na ploše z terminálu Linux

  3. 3 způsoby, jak extrahovat a kopírovat soubory z obrazu ISO v systému Linux