GNU/Linux >> Znalost Linux >  >> Linux

Jak převést HTML na text?

Nemyslím si, že curl má vestavěný HTML procesor. Nicméně:

lynx --dump <URL>

dělá trik.

Pokud stále chcete používat curl, můžete použít html2text (dostupné v Ubuntu).


Můžete nainstalovat html2text (pokročilý převaděč HTML na text) a použití je přímočaré:

$ html2text http://example.com/
$ cat file.html | html2text -o file.txt

Instalovat do:

  • Linux:apt-get install html2text
  • OS X:brew install html2text

Příklad s curl :

$ curl -sL google.com | html2text
Search Images Maps Play YouTube News Gmail Drive More ?
Web History | Settings | Sign in
     A better way to browse the web
       Get Google Chrome

          Advanced search Language tools

        [Google Search][I'm Feeling Lucky]

     Advertising Programmes Business Solutions+GoogleAbout GoogleGoogle.com
                           ? 2016 - Privacy - Terms

Linux
  1. Jak převést textové soubory na všechna velká nebo malá písmena

  2. Jak převést PDF na text v systému Linux (GUI a příkazový řádek)

  3. Jak připojím text k souboru?

  1. Převeďte textový řetězec v bash na pole

  2. Jak získat text stránky pomocí wget bez html?

  3. Jak mohu převést dvouhodnotová textová data na binární (bitová reprezentace)

  1. Jak převést HTML do PDF pomocí HTMLDoc na Debianu 10

  2. Jak nainstalovat Vim (vi) na Windows 10

  3. Jak převést konkrétní text ze seznamu na velká písmena?