Un outil aspirateur de site ou webscaper est un outil qui récupère les versions HTML des pages générées par un site Web à partir de ses différents liens.
Pour faire échec aux aspirateurs de sites Web :
- Utiliser des CAPTCHA : implémenter des CAPTCHA pour vérifier que l’utilisateur est humain avant d’accorder l’accès au contenu.
- Limiter le taux de requêtes : Mettre en place des limites sur le nombre de requêtes qu’une adresse IP peut effectuer dans un laps de temps donné.
- Exiger une inscription et une connexion pour accéder au contenu sensible.
- Utiliser JavaScript pour charger le contenu de manière dynamique, ce qui rend plus difficile l’extraction automatisée.
- Honeypot : créer des pages ou des liens invisibles pour les utilisateurs humains mais détectables par les bots, permettant ainsi de les identifier.
- Vérifier et bloquer les User-Agents suspects ou connus pour être utilisés par des scrapers.
- Configurer correctement le fichier robots.txt pour indiquer quelles parties du site ne doivent pas être crawlées.
Httrack