Aller au contenu principalSkip to content

Vérification de la couverture des crawlers IA

La couverture des crawlers IA mesure si le site est explicite envers les systèmes automatisés qui lisent, récupèrent, résument, citent ou utilisent les contenus publics.

Le but n’est pas de bloquer tout le monde. Le but est de sortir du silence.

Couverture ne veut pas dire blocage

Un site peut choisir d’autoriser OAI-SearchBot et de restreindre GPTBot. Un autre peut autoriser les deux. Un site privé peut tout restreindre. Ce qui compte, c’est que la posture soit déclarée.

Familles analysées

FamilleExemplesQuestion utile
OpenAIGPTBot, OAI-SearchBot, ChatGPT-UserLe site distingue-t-il entraînement, recherche et récupération utilisateur ?
AnthropicClaudeBot, Claude-SearchBot, Claude-UserLe site sépare-t-il visibilité Claude et entraînement ?
GoogleGooglebot, Google-ExtendedLe site évite-t-il de confondre Search et contrôles aval IA ?
PerplexityPerplexityBot, Perplexity-UserLe site distingue-t-il recherche IA et action utilisateur ?
Apple et autresApplebot-Extended, Meta, ByteDance, Amazon, You.com, Cohere, AI2Le site évite-t-il une posture silencieuse sur les familles majeures ?

Ce qu’il faut corriger

Un mauvais résultat indique souvent que le fichier repose sur User-agent: * sans politique spécifique. La correction consiste à définir l’intention : visibilité IA, restriction de l’entraînement, posture conservatrice, ou site privé.

Liste de vérification d’implémentation

Utilisez l’audit comme une séquence de correction, pas seulement comme un score.

  1. Confirmer l’origine auditée : protocole, domaine et sous-domaine doivent correspondre au site réel.
  2. Préserver l’accès Search sauf si le site est volontairement privé.
  3. Décider si l’objectif est la visibilité IA, la restriction de l’entraînement, une posture éditoriale conservatrice ou une fermeture stricte.
  4. Configurer les familles de crawlers par finalité, pas par réaction globale.
  5. Publier une politique seulement si elle reste cohérente avec les règles actives.
  6. Relancer le scan après publication, car WordPress, les extensions, le cache, le serveur ou l’edge peuvent modifier la sortie réelle.

Vérification manuelle

Un reviewer technique peut vérifier les surfaces suivantes :

txt
/robots.txt
/llms.txt
/ai-manifest.json
/.well-known/ai-governance.json
/.well-known/llm-policy.json

La question n’est pas seulement de savoir si les fichiers existent. Il faut vérifier s’ils racontent la même chose. Une règle robots.txt restrictive, un llms.txt permissif et une politique IA contradictoire produisent une gouvernance faible, même si chaque URL répond correctement.

Chemin de correction WordPress

Si le site est WordPress, la suite logique est une configuration dans Better Robots.txt : choisir un preset, ajuster les familles de crawlers, prévisualiser, publier, puis relancer l’audit externe. C’est ce qui transforme le scan en preuve d’amélioration.

Pages reliées