Aspirateur de site Web

Un outil aspirateur de site ou webscaper est un outil qui récupère les versions HTML des pages générées par un site Web à partir de ses différents liens.

Pour faire échec aux aspirateurs de sites Web :

  • Utiliser des CAPTCHA : implémenter des CAPTCHA pour vérifier que l’utilisateur est humain avant d’accorder l’accès au contenu.
  • Limiter le taux de requêtes : Mettre en place des limites sur le nombre de requêtes qu’une adresse IP peut effectuer dans un laps de temps donné.
  • Exiger une inscription et une connexion pour accéder au contenu sensible.
  • Utiliser JavaScript pour charger le contenu de manière dynamique, ce qui rend plus difficile l’extraction automatisée.
  • Honeypot : créer des pages ou des liens invisibles pour les utilisateurs humains mais détectables par les bots, permettant ainsi de les identifier.
  • Vérifier et bloquer les User-Agents suspects ou connus pour être utilisés par des scrapers.
  • Configurer correctement le fichier robots.txt pour indiquer quelles parties du site ne doivent pas être crawlées.

Site Sucker Pro (Mac OS)

Httrack

Les contenus de définition restent publics. Les ressources (outils, grilles, supports) liées à cette fiche sont disponibles dans l’espace membre.