- Selenium:velmi kompletní řešení s vazbami v mnoha jazycích
- loutkář :bezhlavé rozhraní Chrome API, použitelné v NodeJS nebo jako nástroj příkazového řádku
- HTtrack :nástroj příkazového řádku
- Apache Notch &webmagic:open source Java webové prohledávače
- pholcus :webový prohledávač „distributed &high concurrency“ napsaný v Go
- Xvfb je zobrazovací server implementující protokol zobrazovacího serveru X11 bez zobrazení jakéhokoli výstupu na obrazovce. Úspěšně jsem to použil s Travis CI a Protractor jako příklad. Alternativa:XDummy
PhantomJS (poprvé navrhl nvuono):může exportovat vykreslenou stránku jako non-HTML (pdf, png...).Vývoj PhantomJS je až do odvolání pozastaven (další podrobnosti). Úzce související:SlimerJS, CasperJS
A existuje mnoho Python webových škrabacích knihoven:
- Odpadní
- pavouk
- ghost.py
- střepina
Vyzkoušejte phantomjs z www.phantomjs.org a přiložený rasterize.js můžete snadno upravit tak, aby exportoval vykreslený HTML. Je založen na webkitu a provádí úplné vyhodnocení javascriptu vaší cílové stránky, což vám umožňuje upravit časové limity nebo nejprve spustit vlastní kód, pokud si přejete. Osobně jej používám k ukládání tištěné verze souboru HTML plně vykreslených šablon knockout.js.
Spouští javascript, takže jsem udělal něco takového a uložil výstup konzole do souboru:
var markup = page.evaluate(function(){return document.documentElement.innerHTML;});
console.log(markup);
phantom.exit();