Vérificateur GPTBot

GPTBot est un crawler associé à l’entraînement lié à OpenAI. Le bon audit ne demande pas seulement si GPTBot est bloqué. Il vérifie si le site exprime une posture claire pour ce robot, sans nuire au Search classique ni aux autres finalités IA.

Vérifier GPTBot Gérer GPTBot avec Better Robots.txt

Ce que le scan cherche

Signal	Pourquoi c’est utile
Groupe `User-agent` explicite	Le site n’est pas silencieux envers `GPTBot`.
Directive `Allow` ou `Disallow`	La posture de crawl est lisible.
Séparation des règles génériques	La politique ne dépend pas seulement de `User-agent: *`.
Cohérence avec les robots voisins	Le site distingue entraînement, recherche et récupération utilisateur.
Cohérence WordPress	La règle ne casse pas les ressources publiques ou le référencement.

Exemple

txt

User-agent: GPTBot
Disallow: /

ou, si l’objectif est l’ouverture :

txt

User-agent: GPTBot
Allow: /

Ces exemples ne sont pas des recommandations universelles. La bonne décision dépend de la posture du site.

Interprétation

Résultat	Sens
Autorisé explicitement	Le site permet ce robot au niveau robots.txt.
Bloqué explicitement	Le site restreint ce robot pour les crawlers conformes.
Manquant	Le robot hérite des règles génériques.
Contradictoire	Plusieurs surfaces expriment des intentions incompatibles.

Correction WordPress

Better Robots.txt permet de configurer ces familles de crawlers depuis WordPress, de prévisualiser la sortie, puis de relancer l’audit externe.

Liste de vérification d’implémentation

Utilisez l’audit comme une séquence de correction, pas seulement comme un score.

Confirmer l’origine auditée : protocole, domaine et sous-domaine doivent correspondre au site réel.
Préserver l’accès Search sauf si le site est volontairement privé.
Décider si l’objectif est la visibilité IA, la restriction de l’entraînement, une posture éditoriale conservatrice ou une fermeture stricte.
Configurer les familles de crawlers par finalité, pas par réaction globale.
Publier une politique seulement si elle reste cohérente avec les règles actives.
Relancer le scan après publication, car WordPress, les extensions, le cache, le serveur ou l’edge peuvent modifier la sortie réelle.

Vérification manuelle

Un reviewer technique peut vérifier les surfaces suivantes :

txt

/robots.txt
/llms.txt
/ai-manifest.json
/.well-known/ai-governance.json
/.well-known/llm-policy.json

La question n’est pas seulement de savoir si les fichiers existent. Il faut vérifier s’ils racontent la même chose. Une règle robots.txt restrictive, un llms.txt permissif et une politique IA contradictoire produisent une gouvernance faible, même si chaque URL répond correctement.

Chemin de correction WordPress

Si le site est WordPress, la suite logique est une configuration dans Better Robots.txt : choisir un preset, ajuster les familles de crawlers, prévisualiser, publier, puis relancer l’audit externe. C’est ce qui transforme le scan en preuve d’amélioration.

Vérificateur GPTBot ​

Ce que le scan cherche ​

Exemple ​

Interprétation ​

Correction WordPress ​

Liste de vérification d’implémentation ​

Vérification manuelle ​

Chemin de correction WordPress ​

Pages reliées ​