GNU/Linux >> Znalost Linux > >> Linux

gImageReader – Extrahujte text z obrázků a PDF v Linuxu

gImageReader je bezplatná čtečka PDF s otevřeným zdrojovým kódem se schopností extrahovat text z obrázků a souborů PDF. Je vytvořen jako jednoduchý Gtk/Qt front-end pro Tesseract-OCR , open-source OCR engine pro rozpoznávání textů a vzorů v dokumentech a obrázcích pomocí Umělé inteligence .

Samotný Tesseract je nástroj příkazového řádku, který je omezen na použití uživateli Linuxu, kteří jsou dostatečně obeznámeni s jejich terminály. Díky gImageReader , nyní může každý využít efektivitu OCR enginu.

gImageReader funguje skenováním textů z PDF nebo obrázkového souboru v některém z několika jazyků, které podporuje díky existenci znaků Unicode. Obsahuje jednoduché, dobře organizované přizpůsobitelné uživatelské rozhraní, jehož prostřednictvím můžete provádět kontrolu pravopisu a překladatelské úlohy.

Funkce v gImageReader

Bezplatný software s otevřeným zdrojovým kódem. Zdrojový kód dostupný na GitHubu.
K dispozici na platformách GNU/Linux a Windows.
Tématické uživatelské rozhraní se známým rozložením úprav.
Importujte dokumenty a obrázky PDF z disku, skenovacích zařízení, snímků obrazovky a schránky.
Generujte dokumenty PDF z dokumentů hOCR.
Ruční nebo automatické rozpoznání oblasti.
Zpracujte více obrázků a dokumentů v dávkách.
Rozpoznejte dokumenty hOCR nebo prostý text.
Rozpoznaný text zobrazený vedle obrázků.
Následné zpracování rozpoznaného textu, včetně kontroly pravopisu.

gImageReader snadno se používá a podporuje práci s dokumenty v elektronické podobě i se snímky nahraných médií, např. snímky obrazovky. Máte dokonce možnost vybrat oblast textu, která vás zajímá, a přidat pouze text, který potřebujete. Nakonec gImagereader funguje jako čtečka PDF i jako nástroj pro extrakci textu. Blbé věci.

Nainstalujte gImageReader v systému Linux

Chcete-li použít gImageReader na maximum, musíte ručně nainstalovat Tesseract jazykové balíčky, abyste mohli správně analyzovat obrázky a soubory. Balíček se nazývá „Tesseract-ocr-eng “ a je k dispozici u správce softwaru v Debianu a Fedora distribuce.

Pokud používáte Ubuntu , můžete jednoduše přidat PPA a spusťte instalační příkaz pomocí následujících příkazů:

$ sudo add-apt-repository ppa:sandromani/gimagereader
$ sudo apt update
$ sudo apt install gimagereader

V Debianu , Fedora a OpenSUSE nainstalujte jej ze správce balíčků.

$ sudo apt install gimagereader     [On Debian]
$ sudo dnf install gimagereader     [On Fedora]
$ sudo zypper install gimagereader  [On OpenSuse]

Pokud používáte Arch Linux, nemusíte se cítit opomenuti nebo některý z jeho derivátů. AUR má tě pokryto. A pokud byste raději přestavěli aplikaci ze zdroje, pokyny jsou v odkazu na její úložiště GitHub na Wiki.

Patříte k těm, kteří extrahují tištěný text z obrázků? Můžete dokonce pořídit snímky vybraných oblastí pomocí telefonu a nahrát je do svého notebooku. Co je ještě cool, je jeho vícejazyčná podpora – která, i když není dokonalá, je již nyní jednou z nejlepších možností v komunitě.

gImageReader patří mezi nejlepší čtečky PDF ve světě open source, zejména díky své schopnosti OCR, takže to vyzkoušejte a uvidíte, jak se vám to líbí.

Jako obvykle se s námi můžete podělit o své zkušenosti s aplikací, pokud nějaké máte. A přidat další návrhy v sekci komentářů níže.

Textový editor Vem – Alternativní rozložení příkazů pro Vim Peek – Jednoduchý animovaný Gif Screen Recorder pro Linux

Linux