Aller au contenu principalSkip to content

Vérification de l’accès des crawlers de recherche

Contrôler les crawlers IA ne doit pas casser le référencement classique.

L’audit vérifie que Googlebot, Bingbot, les sitemaps, les images, les CSS, les JavaScript et les ressources publiques ne sont pas bloqués par erreur.

Erreur fréquente

txt
User-agent: *
Disallow: /

Cette règle peut convenir à un site privé ou à un environnement de test. Sur un site public, elle bloque aussi les crawlers utiles.

Bonne logique

Le bon fichier sépare les objectifs : préserver Search, configurer les crawlers IA par finalité, et éviter les blocages globaux qui cassent le rendu.

Ce que Better Robots.txt apporte

Le plugin aide à publier une configuration WordPress plus sûre : ressources publiques accessibles, admin restreint, crawlers IA contrôlés, sitemap visible, puis re-scan externe.

Liste de vérification d’implémentation

Utilisez l’audit comme une séquence de correction, pas seulement comme un score.

  1. Confirmer l’origine auditée : protocole, domaine et sous-domaine doivent correspondre au site réel.
  2. Préserver l’accès Search sauf si le site est volontairement privé.
  3. Décider si l’objectif est la visibilité IA, la restriction de l’entraînement, une posture éditoriale conservatrice ou une fermeture stricte.
  4. Configurer les familles de crawlers par finalité, pas par réaction globale.
  5. Publier une politique seulement si elle reste cohérente avec les règles actives.
  6. Relancer le scan après publication, car WordPress, les extensions, le cache, le serveur ou l’edge peuvent modifier la sortie réelle.

Vérification manuelle

Un reviewer technique peut vérifier les surfaces suivantes :

txt
/robots.txt
/llms.txt
/ai-manifest.json
/.well-known/ai-governance.json
/.well-known/llm-policy.json

La question n’est pas seulement de savoir si les fichiers existent. Il faut vérifier s’ils racontent la même chose. Une règle robots.txt restrictive, un llms.txt permissif et une politique IA contradictoire produisent une gouvernance faible, même si chaque URL répond correctement.

Chemin de correction WordPress

Si le site est WordPress, la suite logique est une configuration dans Better Robots.txt : choisir un preset, ajuster les familles de crawlers, prévisualiser, publier, puis relancer l’audit externe. C’est ce qui transforme le scan en preuve d’amélioration.

Pages reliées