V závislosti na tom, zda pracujete s formátem .doc nebo .docx, budete muset použít dva různé nástroje příkazového řádku.
Pro .doc použijte catdoc:
catdoc foo.doc > foo.txt
Pro .docx použijte docx2txt:
docx2txt foo.docx
Ten vytvoří soubor s názvem foo.txt ve stejném adresáři jako originál.
Nejsem si jistý, kterou distribuci Linuxu používáte, ale jak catdoc, tak docx2txt jsou dostupné například z repozitářů Ubuntu:
apt-get install docx2txt
Nebo s Homebrew na Mac:
brew install docx2txt
zde je projekt v perlu, který tvrdí, že to dělá. Hodně jsem toho také udělal ručně pomocí XSLT na document.xml. samotný soubor Docx je pouze soubor zip, můžete jej rozbalit a zkontrolovat prvky. Řeknu, že to není těžké udělat pro konkrétní soubory, ale je to velmi těžké udělat v obecném případě, protože chybí dokumentace k tomu, jak Word interně ukládá věci, a různé interní reprezentace.