Vérificateur robots.txt pour crawlers IA
Commencez par le scan. Lancez le vérificateur robots.txt IA gratuit, puis utilisez cette page pour comprendre ce que l’audit analyse réellement.
Un validateur robots.txt classique vérifie surtout si le fichier existe et si sa syntaxe semble correcte. Ce n’est plus suffisant.
Un site moderne est lu par des moteurs de recherche, des crawlers de recherche IA, des crawlers liés à l’entraînement de modèles, des agents déclenchés par les utilisateurs, des robots de prévisualisation sociale, des outils SEO, des validateurs publicitaires et du trafic automatisé de faible valeur. Ces systèmes n’ont pas la même fonction. Ils ne créent pas la même valeur. Ils ne comportent pas le même risque.
Le vérificateur Better Robots.txt répond donc à une question plus utile : le site exprime-t-il une posture claire, lisible par machine et adaptée à WordPress envers les crawlers, les agents et les systèmes IA ?
Ce que le scan vérifie
| Bloc | Ce que l’audit cherche |
|---|---|
| Présence et validité | Le fichier /robots.txt existe, répond correctement et peut être interprété. |
| Accès Search | Googlebot, Bingbot, les ressources publiques et les sitemaps ne sont pas bloqués par erreur. |
| Couverture IA | Les familles comme GPTBot, OAI-SearchBot, ClaudeBot, Claude-SearchBot, Google-Extended et PerplexityBot sont explicitement traitées. |
| Finalité des crawlers | Le site distingue l’entraînement, la recherche IA, la récupération utilisateur et le Search classique. |
llms.txt | Le site publie une surface de guidage machine, sans la présenter comme une garantie de citation. |
| Gouvernance IA | Le site expose une politique, un manifeste, ou des pointeurs .well-known qui clarifient l’intention. |
| Hygiène WordPress | Les chemins admin, les flux, la recherche interne, les paramètres et les routes WooCommerce sont traités sans bloquer les contenus publics. |
Pourquoi la distinction entraînement / recherche IA est centrale
Bloquer l’entraînement IA n’est pas la même chose que bloquer la recherche IA. OpenAI distingue notamment GPTBot, OAI-SearchBot et ChatGPT-User. Anthropic distingue ClaudeBot, Claude-SearchBot et Claude-User. Google distingue Googlebot et Google-Extended. Perplexity distingue aussi PerplexityBot et Perplexity-User.
Une politique sérieuse doit donc répondre à plusieurs questions :
- le site veut-il rester visible dans les systèmes de recherche IA ?
- le site veut-il restreindre certains crawlers associés à l’entraînement ?
- le site accepte-t-il les récupérations déclenchées par un utilisateur ?
- le site garde-t-il Googlebot et Bingbot ouverts pour le Search classique ?
- la politique publiée est-elle cohérente avec
llms.txtet les fichiers de gouvernance ?
Ce qu’un bon score signifie
Un bon score ne signifie pas que tous les crawlers obéiront. Il signifie que la posture publiée est plus claire, plus complète et plus vérifiable.
Le score doit être lu comme un indicateur de maturité : présence du fichier, sécurité Search, couverture des crawlers IA, signaux de gouvernance, hygiène WordPress, accessibilité des ressources et cohérence globale.
Le chemin de correction WordPress
Pour un site WordPress, l’audit ne doit pas rester un constat. Il doit mener à une correction :
scan → diagnostic → installation Better Robots.txt → preset → prévisualisation → publication → nouveau scanC’est ce qui différencie Better Robots.txt d’un validateur robots.txt classique. Le scan explique le problème. Le plugin permet de le corriger dans WordPress sans modifier manuellement les fichiers serveur.