Vérification de la couverture des crawlers IA
La couverture des crawlers IA mesure si le site est explicite envers les systèmes automatisés qui lisent, récupèrent, résument, citent ou utilisent les contenus publics.
Le but n’est pas de bloquer tout le monde. Le but est de sortir du silence.
Couverture ne veut pas dire blocage
Un site peut choisir d’autoriser OAI-SearchBot et de restreindre GPTBot. Un autre peut autoriser les deux. Un site privé peut tout restreindre. Ce qui compte, c’est que la posture soit déclarée.
Familles analysées
| Famille | Exemples | Question utile |
|---|---|---|
| OpenAI | GPTBot, OAI-SearchBot, ChatGPT-User | Le site distingue-t-il entraînement, recherche et récupération utilisateur ? |
| Anthropic | ClaudeBot, Claude-SearchBot, Claude-User | Le site sépare-t-il visibilité Claude et entraînement ? |
Googlebot, Google-Extended | Le site évite-t-il de confondre Search et contrôles aval IA ? | |
| Perplexity | PerplexityBot, Perplexity-User | Le site distingue-t-il recherche IA et action utilisateur ? |
| Apple et autres | Applebot-Extended, Meta, ByteDance, Amazon, You.com, Cohere, AI2 | Le site évite-t-il une posture silencieuse sur les familles majeures ? |
Ce qu’il faut corriger
Un mauvais résultat indique souvent que le fichier repose sur User-agent: * sans politique spécifique. La correction consiste à définir l’intention : visibilité IA, restriction de l’entraînement, posture conservatrice, ou site privé.
Liste de vérification d’implémentation
Utilisez l’audit comme une séquence de correction, pas seulement comme un score.
- Confirmer l’origine auditée : protocole, domaine et sous-domaine doivent correspondre au site réel.
- Préserver l’accès Search sauf si le site est volontairement privé.
- Décider si l’objectif est la visibilité IA, la restriction de l’entraînement, une posture éditoriale conservatrice ou une fermeture stricte.
- Configurer les familles de crawlers par finalité, pas par réaction globale.
- Publier une politique seulement si elle reste cohérente avec les règles actives.
- Relancer le scan après publication, car WordPress, les extensions, le cache, le serveur ou l’edge peuvent modifier la sortie réelle.
Vérification manuelle
Un reviewer technique peut vérifier les surfaces suivantes :
/robots.txt
/llms.txt
/ai-manifest.json
/.well-known/ai-governance.json
/.well-known/llm-policy.jsonLa question n’est pas seulement de savoir si les fichiers existent. Il faut vérifier s’ils racontent la même chose. Une règle robots.txt restrictive, un llms.txt permissif et une politique IA contradictoire produisent une gouvernance faible, même si chaque URL répond correctement.
Chemin de correction WordPress
Si le site est WordPress, la suite logique est une configuration dans Better Robots.txt : choisir un preset, ajuster les familles de crawlers, prévisualiser, publier, puis relancer l’audit externe. C’est ce qui transforme le scan en preuve d’amélioration.