Použijte w3m -dump <page.html>
.
Poskytne vám textovou reprezentaci souboru html.
Z manuálové stránky:
-dump dump formatted page into stdout
Ačkoli se říká formatted
, výstupem je pouze prostý text.
html2text je skript Pythonu, který převádí stránku HTML na ekvivalentní text strukturovaný Markdown. html2text lze stáhnout a spustit v jakémkoli operačním systému, který má nainstalovaný Python. Program html2text je v úložištích mnoha distribucí Linuxu a lze jej spustit z příkazového řádku takto:
html2text -style pretty input.html
Tento příkaz nejen převede původní soubor html na text, ale také odvádí docela dobrou práci, aby byl výstup ve formátu prostého textu snadno čitelný. Nadpisy vypadají jako nadpisy, seznamy vypadají jako seznamy atd.
Pokud máte potíže s automatickým převodem tabulek z webových stránek na neformátovaný text, lze to snadno provést pomocí moderního editoru markdown, jako jsou aplikace GUI Typora nebo Mark Text pro Windows/Mac/Linux. Porovnání těchto dvou aplikací Mark Text je lepší než Typora v přesném zachycení všeho na webové stránce a Typora má uživatelsky přívětivější editor, takže používám obě aplikace. Používám Mark Text jako nástroj na uchopení webových stránek a poté zkopíruji/vložím text označený dolů, který jsem zachytil, do Typora a pomocí Typora jej upravím.
Jak zmínil Gombai Sándor, v komentáři k odpovědi NZD:
lynx -dump -nolist -nomargins
Při spuštění z příkazového řádku s adresou URL zapíše výstup do stdout. Zdá se, že to funguje velmi dobře. -nomargins
nemusí být podporováno, pokud má uživatel přístup pouze ke starší verzi lynx
(tj. Lynx verze 2.8.5rel.5 (29. října 2005) na starém systému UNIX).
Výstup se zdá být zcela bez značek a odkazů, s některými potenciálními výjimkami (následující seznam nemusí být typický nebo vyčerpávající):
- Zdá se, že se v tabulkových datech vyskytuje nadbytečné prázdné místo a alespoň v některých případech se objevuje, zatímco bílé místo je obvykle užitečné pro extrakci tabulkových dat, občas je nekonzistentní způsobem, který komplikuje analýzu.
- I když se odkazy nevypisují, může se zobrazit viditelný text. Odkazy na poznámky pod čarou se například mohou vykreslit jako hvězdičky nebo na wiki se mohou klikatelné položky vykreslit jako ekvivalentní prostý text (bez podkladové adresy URL).
- Některé odkazy se mohou rozšířit a vypsat alternativní text.
- Neuspořádané seznamy se vypisují s hvězdičkami a odsazením.
- Seznamy objednávek se zobrazí s čísly a odsazením.
- Vstupní pole se mohou zobrazovat jako podtržítka