Aspirer/Crawler un site web – ligne de commande – wget linux / windows
Voici une ligne de commande bien simple qui permet de crawler un site grâce à wget.
wget -p -e robots=off -P “path_to_output_directory” “http://website_to_crawl”
- path_to_output_directory : Répertoire dans lequel seront sauvegardées les pages crawlés
- on ignore les règles présentes dans le fichier robot (comme le Disallow)
Si le site à crawler nécessite une authentification :
wget -O “path_to_output_directory” –keep-session-cookies –save-cookies “path_to_output_directory/cookies.txt” –post-data “UserName=Login&Password=MotDePasse” “http://website_to_crawl/PageDeLogin.html”
wget -p -e robots=off -P “path_to_output_directory” –load-cookies “path_to_output_directory/cookies.txt” “http://website_to_crawl”
La première ligne permet de réaliser l’authentification, les champs UserName et Password correspondent au nom des champs du formulaire d’authentification.
La deuxième ligne utilise le cookie généré suite à l’habilitation pour crawler tout le site.