GNU/Linux >> Znalost Linux >  >> Linux

Převeďte doc na txt pomocí příkazového řádku

V závislosti na tom, zda pracujete s formátem .doc nebo .docx, budete muset použít dva různé nástroje příkazového řádku.

Pro .doc použijte catdoc:

catdoc foo.doc > foo.txt

Pro .docx použijte docx2txt:

docx2txt foo.docx

Ten vytvoří soubor s názvem foo.txt ve stejném adresáři jako originál.

Nejsem si jistý, kterou distribuci Linuxu používáte, ale jak catdoc, tak docx2txt jsou dostupné například z repozitářů Ubuntu:

apt-get install docx2txt

Nebo s Homebrew na Mac:

brew install docx2txt

zde je projekt v perlu, který tvrdí, že to dělá. Hodně jsem toho také udělal ručně pomocí XSLT na document.xml. samotný soubor Docx je pouze soubor zip, můžete jej rozbalit a zkontrolovat prvky. Řeknu, že to není těžké udělat pro konkrétní soubory, ale je to velmi těžké udělat v obecném případě, protože chybí dokumentace k tomu, jak Word interně ukládá věci, a různé interní reprezentace.


Linux
  1. Upravte hlasitost pomocí příkazového řádku, aby se objevilo upozornění na hlasitost?

  2. Linuxový příkaz cat

  3. Odstraňte problémy s GlusterFS

  1. Příklady příkazů dd v Linuxu

  2. Jak převést textové soubory na všechna velká nebo malá písmena

  3. Jak generovat video screencaps video souborů pomocí příkazového řádku linuxu

  1. Jak převést ISO8859-15 na UTF8?

  2. Zapsat do souboru .txt?

  3. Převeďte výstup ls na csv