Aspirateur de site Web

Un outil aspirateur de site ou webscaper est un outil qui récupère les versions HTML des pages générées par un site Web à partir de ses différents liens.

Pour faire échec aux aspirateurs de sites Web :

  • Utiliser des CAPTCHA : implémenter des CAPTCHA pour vérifier que l’utilisateur est humain avant d’accorder l’accès au contenu.
  • Limiter le taux de requêtes : Mettre en place des limites sur le nombre de requêtes qu’une adresse IP peut effectuer dans un laps de temps donné.
  • Exiger une inscription et une connexion pour accéder au contenu sensible.
  • Utiliser JavaScript pour charger le contenu de manière dynamique, ce qui rend plus difficile l’extraction automatisée.
  • Honeypot : créer des pages ou des liens invisibles pour les utilisateurs humains mais détectables par les bots, permettant ainsi de les identifier.
  • Vérifier et bloquer les User-Agents suspects ou connus pour être utilisés par des scrapers.
  • Configurer correctement le fichier robots.txt pour indiquer quelles parties du site ne doivent pas être crawlées.

Site Sucker Pro (Mac OS)

Httrack