X-robots-tag

La balise X-robots-tag est une directive HTTP utilisée pour indiquer aux robots d’indexation des moteurs de recherche comment ils doivent traiter l’indexation des fichiers non HTML tels que les images et les PDF.

Les principales directives X-robots-tag

  • noindex : Cette instruction indique aux moteurs de recherche de ne pas indexer la page. Cela signifie que la page ne sera pas affichée dans les résultats de recherche. Utile pour les pages de connexion, ou tout autre contenu que vous ne souhaitez pas rendre public.
  • nofollow : Cette instruction indique aux moteurs de recherche de ne pas suivre les liens présents sur la page (linkjuice).
  • noarchive : Cette instruction empêche les moteurs de recherche de stocker une copie en cache de la page. Cela signifie que les versions archivées de la page ne seront pas disponibles.
  • nosnippet : Cette instruction empêche les moteurs de recherche d’afficher un extrait de la page dans les résultats de recherche. Le contenu de la page ne sera pas résumé sous forme d’extrait.
  • max-snippet:[nombre] : Cette instruction permet de spécifier la longueur maximale, en caractères, de l’extrait de la page qui peut être affiché dans les résultats de recherche.
  • unavailable_after:[date] : Cette instruction indique aux moteurs de recherche de ne plus indexer la page après une certaine date donnée. Cela peut être utile pour les pages avec du contenu saisonnier ou obsolète.

Comment implémenter X-robots.tag

Pour utiliser la balise x-robots sur un serveur web Apache, ajoutez une directive au fichier .htaccess ou au fichier httpd.config de votre site.

<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, follow"
</Files>

Sur un serveur Nginx ajoutez le code ci-dessous au fichier .conf de votre site :

location ~* \.pdf$ {
add_header X-Robots-Tag "noindex, follow";
}

Les directives X-robots-tag sont à utiliser avec modération. Vous devez impérativement vous assurer qu’elles sont correctement appliquées à l’aide d’un crawler un outil d’exploration de site web.

Voir aussi : Robots.txt