Stažení webu pomocí wget

Pokud chceme stáhnout celý web, máme několik možností – použít grafický specializovaný program jako je např. HTTrack nebo použít jednoduchý řádkový wget.

Použití je jednoduché:
wget http://www.example.org

stáhne index z URL http://www.example.com

Mezi nejdůležitější přepínače wget patří především:

  • --recursive = stáhne rekurzivně celý web
  • --page-requisites = stahuje všechny elementy stránky (obrázky, CSS, …)
  • --domains website.org = nestahuje nic mimo doménu website.org
  • --convert-links = převeď všechny linky na offline, aby se po kliknutí na odkaz otevřel soubor z disku, ne z URL (pozor, toto je provedeno po stažení všech souborů, ne dřív)
  • --server-response = zobrazí odpověď serveru (hlavičku http)
  • --no-clobber = již stažené soubory se nebudou přepisovat a nestáhnou se znovu (hodí se při opětovném spuštění wgetu při stahování většího webu)

Ne vždy ale chceme stahovat z veřejně přístupného webu.

Pokud chceme stahovat z webu zabezpečeného pomocí HTTP Basic Authentication

wget --http-user=USERNAME --http-password=PASSWORD http://www.example.org/restricted/area/

Pokud se login a heslo zadává přes formulář metodou POST

wget \
--post-data='username=USER&password=PASSWORD' \
http://www.example.org/restricted/area/auth.php

A ten nejzajímavější způsob, metoda GET. V tomto případě je vhodné využít možnost podpory textových cookies programem wget.

Nejjednodušší asi bude cookies získat pomocí webového prohlížeče. Obyčejně se tedy přihlásíme na daný web, poté nalezneme cookies soubor na disku a ten dáme parametrem wgetu.

Několik prohlížečů (např. Mozilla Firefox) bohužel upustilo od textových cookies a poskytují pouze SQLite formát. Firefox nabízí addon Cookie exporter pomocí kterého lze vytvořit textový formát z sqlite formátu.

Výsledný wget příkaz poté tedy může vypadat následovně

wget --recursive --convert-links --page-requsites --load-cookies=cookies.txt https://example.org/

Příspěvek byl publikován v rubrice Návody se štítky , , , , . Můžete si uložit jeho odkaz mezi své oblíbené záložky.

Napsat komentář

Vyplňte detaily níže nebo klikněte na ikonu pro přihlášení:

WordPress.com Logo

Komentujete pomocí vašeho WordPress.com účtu. Log Out / Změnit )

Twitter picture

Komentujete pomocí vašeho Twitter účtu. Log Out / Změnit )

Facebook photo

Komentujete pomocí vašeho Facebook účtu. Log Out / Změnit )

Google+ photo

Komentujete pomocí vašeho Google+ účtu. Log Out / Změnit )

Připojování k %s