Robot d’indexation – Crawler

Un robot d’indexation est un programme automatisé utilisé par les moteurs de recherche pour parcourir et analyser le contenu des pages web disponibles sur Internet.

Son rôle principal est de collecter des informations à partir des sites web, telles que le texte, les balises HTML, les images, les vidéos et les liens, afin de les indexer dans une base de données.

Cette base de données permet ensuite aux moteurs de recherche de fournir des résultats pertinents aux requêtes des utilisateurs.

Les robots d’indexation suivent généralement les liens internes et externes présents sur les pages qu’ils visitent, ce qui leur permet de découvrir de nouveaux contenus et de mettre à jour les informations existantes.

Ils respectent également les directives définies dans le fichier robots.txt ou les balises meta robots , qui indiquent quelles parties d’un site peuvent ou ne doivent pas être indexées.

Exemples :

  1. Googlebot
    • Robot principal utilisé par Google pour indexer le Web.
    • Il existe deux versions principales :
      • Googlebot Desktop : Pour les recherches sur ordinateur.
      • Googlebot Mobile : Pour les recherches sur mobile.
  2. Bingbot
    • Robot utilisé par Bing (Microsoft) pour indexer les pages web.
  3. Slurp
    • Robot utilisé par Yahoo! pour collecter et indexer du contenu.
  4. DuckDuckBot
    • Robot utilisé par DuckDuckGo pour garantir la confidentialité et l’indexation des résultats de recherche.
  5. YandexBot
    • Robot utilisé par Yandex (moteur de recherche russe) pour indexer les pages web.
  6. Baiduspider
    • Robot utilisé par Baidu (moteur de recherche chinois) pour indexer les contenus en mandarin et autres langues.
  7. Sitemap Generator
    • Certaines entreprises utilisent des robots spécifiques pour générer des sitemaps ou analyser le contenu web.
  8. Facebot
    • Robot utilisé par Facebook pour analyser les pages web partagées sur sa plateforme et extraire des informations comme les images, les descriptions, etc.
  9. Twitterbot
    • Robot utilisé par X pour extraire des informations des pages web partagées sur la plateforme.

Synonyme : crawler, spider

Les contenus de définition restent publics. Les ressources (outils, grilles, supports) liées à cette fiche sont disponibles dans l’espace membre.