Vérification de la présence et validité robots.txt

Tout audit de gouvernance crawler commence par une base simple : les robots peuvent-ils lire un fichier robots.txt utilisable pour ce domaine ?

Le scan vérifie si le fichier existe, s’il répond correctement, s’il ressemble à un vrai robots.txt, s’il contient des directives interprétables et s’il expose les sitemaps.

Pourquoi le domaine exact compte

https://example.com/robots.txt, https://www.example.com/robots.txt, http://example.com/robots.txt et https://blog.example.com/robots.txt ne sont pas le même périmètre. Robots.txt est lié à l’origine exacte.

Problèmes fréquents

fichier absent ou vide ;
redirections incohérentes ;
page HTML retournée au lieu d’un fichier texte ;
sitemap manquant ;
règles en commentaires mais pas de directive active ;
configuration différente entre domaine racine et www.

Correction WordPress

Pour WordPress, Better Robots.txt permet de générer une sortie prévisualisable depuis l’admin, ce qui évite les modifications manuelles fragiles.

Liste de vérification d’implémentation

Utilisez l’audit comme une séquence de correction, pas seulement comme un score.

Confirmer l’origine auditée : protocole, domaine et sous-domaine doivent correspondre au site réel.
Préserver l’accès Search sauf si le site est volontairement privé.
Décider si l’objectif est la visibilité IA, la restriction de l’entraînement, une posture éditoriale conservatrice ou une fermeture stricte.
Configurer les familles de crawlers par finalité, pas par réaction globale.
Publier une politique seulement si elle reste cohérente avec les règles actives.
Relancer le scan après publication, car WordPress, les extensions, le cache, le serveur ou l’edge peuvent modifier la sortie réelle.

Vérification manuelle

Un reviewer technique peut vérifier les surfaces suivantes :

txt

/robots.txt
/llms.txt
/ai-manifest.json
/.well-known/ai-governance.json
/.well-known/llm-policy.json

La question n’est pas seulement de savoir si les fichiers existent. Il faut vérifier s’ils racontent la même chose. Une règle robots.txt restrictive, un llms.txt permissif et une politique IA contradictoire produisent une gouvernance faible, même si chaque URL répond correctement.

Chemin de correction WordPress

Si le site est WordPress, la suite logique est une configuration dans Better Robots.txt : choisir un preset, ajuster les familles de crawlers, prévisualiser, publier, puis relancer l’audit externe. C’est ce qui transforme le scan en preuve d’amélioration.

Vérification de la présence et validité robots.txt ​

Pourquoi le domaine exact compte ​

Problèmes fréquents ​

Correction WordPress ​

Liste de vérification d’implémentation ​

Vérification manuelle ​

Chemin de correction WordPress ​

Pages reliées ​