GNU/Linux >> Znalost Linux >  >> Linux

Nástroje pro extrahování textu z powerpoint pptx v linuxu?

Pokud dokážete zpracovat soubory v bash , tato jednolinka rozbalí veškerý text:

unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'

Stačí mu předat soubor pptx jako $1 a zapíše text do souboru $2 . Obsah každého snímku se nezobrazí v pořadí prezentace a nebudou tam žádné štítky ani nic podobného, ​​takže budete potřebovat několik řádků skriptu a dočasný adresář, abyste získali čitelnější výpis.


Protože máte nainstalovaný Abiword, můžete nejprve vytvořit PDF

libreoffice --headless --convert-to pdf filename.pptx

A pak pomocí abiword převeďte pdf na txt

abiword --to=txt filename.pdf 

Linux
  1. Jak vytvořit video ze souborů PDF v Linuxu

  2. Upravit příchozí poštu z textu/prostého na text/html?

  3. Linux – extrahovat data z /etc/shadow?

  1. gImageReader – Extrahujte text z obrázků a PDF v Linuxu

  2. Jak zobrazit určité řádky z textového souboru v Linuxu?

  3. Soubory specifické pro Linux (mv nebo cp) z textového seznamu souborů?

  1. Jak rozeznat binární soubory od textových souborů v linuxu

  2. Jak extrahovat textovou část binárního souboru v linux/bash?

  3. Jak extrahovat text pomocí OCR z PDF na Linuxu?