Analyse de l’hygiène robots.txt WordPress
L’hygiène robots.txt WordPress consiste à réduire les chemins de faible valeur sans bloquer les contenus publics utiles.
Un site WordPress peut gaspiller l’attention des crawlers avec les flux, la recherche interne, les paramètres, les réponses de commentaires, les paniers WooCommerce, les pages compte, les filtres et les facettes.
Surfaces typiques
| Surface | Décision fréquente |
|---|---|
/wp-admin/ | Restreindre. |
/wp-content/uploads/ | Garder accessible si les médias publics comptent. |
| Recherche interne | Souvent limiter. |
?replytocom= | Réduire comme piège de crawl. |
| Panier et checkout | Généralement bloquer pour WooCommerce. |
| Compte client | Généralement bloquer. |
| Filtres et facettes | Contrôler pour éviter l’explosion d’URLs. |
Ce que l’audit cherche
Le scan vérifie si la politique réduit le bruit WordPress sans rendre le site invisible. Un bon fichier ne bloque pas tout. Il publie une intention claire.
Correction
Better Robots.txt permet d’appliquer ces réglages depuis WordPress, de prévisualiser la sortie, puis de re-scanner le site.
Liste de vérification d’implémentation
Utilisez l’audit comme une séquence de correction, pas seulement comme un score.
- Confirmer l’origine auditée : protocole, domaine et sous-domaine doivent correspondre au site réel.
- Préserver l’accès Search sauf si le site est volontairement privé.
- Décider si l’objectif est la visibilité IA, la restriction de l’entraînement, une posture éditoriale conservatrice ou une fermeture stricte.
- Configurer les familles de crawlers par finalité, pas par réaction globale.
- Publier une politique seulement si elle reste cohérente avec les règles actives.
- Relancer le scan après publication, car WordPress, les extensions, le cache, le serveur ou l’edge peuvent modifier la sortie réelle.
Vérification manuelle
Un reviewer technique peut vérifier les surfaces suivantes :
/robots.txt
/llms.txt
/ai-manifest.json
/.well-known/ai-governance.json
/.well-known/llm-policy.jsonLa question n’est pas seulement de savoir si les fichiers existent. Il faut vérifier s’ils racontent la même chose. Une règle robots.txt restrictive, un llms.txt permissif et une politique IA contradictoire produisent une gouvernance faible, même si chaque URL répond correctement.
Chemin de correction WordPress
Si le site est WordPress, la suite logique est une configuration dans Better Robots.txt : choisir un preset, ajuster les familles de crawlers, prévisualiser, publier, puis relancer l’audit externe. C’est ce qui transforme le scan en preuve d’amélioration.