Obvyklým nástrojem pro převod dokumentů Microsoft Office do HTML nebo jiných formátů byl mswordview, který byl od té doby přejmenován na vwWare.
Pokud hledáte nástroj příkazového řádku, ve skutečnosti doporučují k provedení převodu použít AbiWord:
AbiWord --to=txt
Pokud hledáte knihovnu, začněte na stránce s přehledem wvWare. Vedou také seznam knihoven a nástrojů, které čtou dokumenty MS Office.
Šel bych pro řešení příkazového řádku (a pak bych použil modul podprocesu Python ke spuštění nástrojů z Pythonu).
Převaděče pro msword (catdoc ), excel (xls2csv ) a ppt (catppt ) lze nalézt (ve zdrojové podobě) zde:http://vitus.wagner.pp.ru/software/catdoc/.
Nemohu se opravdu vyjádřit k užitečnosti catppt, ale catdoc a xls2csv fungují skvěle!
Ale nezapomeňte nejprve prohledat své distribuční repozitáře... Například na ubuntu je catdoc jen jedním rychlým apt-útkem.
K OpenOffice můžete přistupovat přes Python API.
Zkuste použít toto jako základ:http://wiki.services.openoffice.org/wiki/Odt2txt.py