Pokud dokážete zpracovat soubory v bash
, tato jednolinka rozbalí veškerý text:
unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'
Stačí mu předat soubor pptx jako $1
a zapíše text do souboru $2
. Obsah každého snímku se nezobrazí v pořadí prezentace a nebudou tam žádné štítky ani nic podobného, takže budete potřebovat několik řádků skriptu a dočasný adresář, abyste získali čitelnější výpis.
Protože máte nainstalovaný Abiword, můžete nejprve vytvořit PDF
libreoffice --headless --convert-to pdf filename.pptx
A pak pomocí abiword převeďte pdf na txt
abiword --to=txt filename.pdf