Aspirer/Crawler un site web – ligne de commande – wget linux / windows

Voici une ligne de commande bien simple qui permet de crawler un site grâce à wget.

wget -p -e robots=off -P “path_to_output_directory”  “http://website_to_crawl”

  • path_to_output_directory : Répertoire dans lequel seront sauvegardées les pages crawlés
  • on ignore les règles présentes dans le fichier robot (comme le Disallow)

Si le site à crawler nécessite une authentification :

wget  -O “path_to_output_directory” –keep-session-cookies –save-cookies “path_to_output_directory/cookies.txt”  –post-data “UserName=Login&Password=MotDePasse” “http://website_to_crawl/PageDeLogin.html”

wget -p -e robots=off -P “path_to_output_directory”  –load-cookies “path_to_output_directory/cookies.txt” “http://website_to_crawl”

La première ligne permet de réaliser l’authentification, les champs UserName et Password correspondent au nom des champs du formulaire d’authentification.

La deuxième ligne utilise le cookie généré suite à l’habilitation pour crawler tout le site.

 

You may also like...

Leave a Reply

Your email address will not be published. Required fields are marked *