Checklist de préparation agentique WordPress
Cette checklist est conçue pour les sites WordPress qui veulent dépasser les slogans de « SEO IA » et entrer dans une préparation agentique concrète.
Elle sert à séparer trois questions souvent confondues :
- Les machines peuvent-elles crawler et découvrir le site ?
- Les systèmes orientés IA peuvent-ils comprendre les pages sources et la posture de politique du site ?
- Les agents de navigation peuvent-ils interagir avec le site sans mal lire les boutons, formulaires, mises en page ou états de workflow ?
Better Robots.txt aide surtout pour les deux premières questions. La troisième demande aussi du travail en accessibilité, front-end, UX et QA.
Niveaux de préparation
| Niveau | Description | Risque typique |
|---|---|---|
| Initial | Le site a un robots.txt de base, mais les finalités des crawlers, llms.txt, les pages sources et les signaux de politique sont flous | Blocage accidentel, confusion crawler, routage faible des sources |
| Gouverné | Le site sépare les catégories de crawlers, publie un guidage machine utile et maintient une cohérence de politique | Peut rester faible en interaction, formulaires, stabilité visuelle ou accessibilité |
| Prêt pour les agents | Le site est crawlable, gouverné, riche en sources, accessible, stable et testable par agents | Demande une QA continue, des logs et une gestion des changements |
Bloc 1 : base de crawl Search
Un site ne peut pas être prêt pour les agents s’il brise la découverte Search de base.
À vérifier :
robots.txtexiste à la racine.- Les crawlers Search ne sont pas bloqués accidentellement.
- Les sitemaps XML sont déclarés et accessibles.
- Les pages canoniques importantes sont indexables.
- Les CSS et JavaScript importants ne sont pas bloqués sans raison.
- Le maillage interne route vers les vraies pages sources.
- Les archives WordPress de faible valeur sont contrôlées lorsque pertinent.
Support Better Robots.txt :
- Vérificateur robots.txt pour crawlers IA
- Vérification présence et validité robots.txt
- Vérification de l’accès des crawlers de recherche
- Analyse d’hygiène robots.txt WordPress
Bloc 2 : segmentation des crawlers IA
Une posture plate « autoriser l’IA » ou « bloquer l’IA » est généralement trop grossière.
À vérifier :
- Les crawlers Search sont séparés des crawlers d’entraînement.
- La récupération déclenchée par l’utilisateur n’est pas confondue avec le crawl de fond.
- Les bots d’archive sont évalués séparément.
- Les outils SEO sont évalués séparément.
- Les bots abusifs ne sont pas traités comme des crawlers légitimes de recherche IA.
- GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, Claude-User, Google-Extended, PerplexityBot et Applebot-Extended ne sont pas fusionnés par accident dans une seule règle.
Support Better Robots.txt :
- Analyse de couverture des crawlers IA
- Crawlers d’entraînement IA vs crawlers de recherche IA
- Bloquer l’entraînement IA sans bloquer la recherche IA
Bloc 3 : llms.txt et résumé machine
llms.txt doit orienter les machines. Il ne doit pas prétendre les contrôler.
À vérifier :
- Le fichier existe seulement s’il est utile et maintenu.
- Il est disponible à l’emplacement attendu à la racine.
- Il résume le site avec exactitude.
- Il pointe vers les pages prioritaires, pas vers toutes les pages.
- Il inclut les surfaces produit, support, politique et gouvernance lorsque pertinent.
- Il ne contredit pas
robots.txt. - Il ne promet pas de classement, d’obéissance crawler ou d’enforcement légal.
Support Better Robots.txt :
Bloc 4 : fichiers de gouvernance IA et cohérence de politique
Le site ne devrait pas publier des fichiers isolés qui pointent dans des directions différentes.
À vérifier :
- Une politique d’usage IA existe lorsque le site en a besoin.
- Les fichiers de gouvernance lisibles par machine sont découvrables.
- La préséance des sources est claire.
- Les signaux de politique ne sont pas décrits comme de l’enforcement dur.
- Les capacités produit sont qualifiées par édition lorsque nécessaire.
- Les affirmations non soutenues ne sont pas élargies par du langage générique.
- Les pages publiques de politique et les fichiers machine se relient entre eux.
Support Better Robots.txt :
- Vérificateur de fichiers de gouvernance IA
- Ce que les signaux d’usage IA peuvent et ne peuvent pas faire
- Signal vs enforcement pour crawlers IA
- La pile de fichiers de gouvernance machine
Bloc 5 : architecture des pages sources
Les machines ont besoin de pages stables à récupérer, citer et comparer.
À vérifier :
- Le site a des pages de définitions canoniques.
- Le site a des pages de comparaison lorsque les utilisateurs posent des questions comparatives.
- Les pages produits ou services ne sont pas uniquement promotionnelles.
- Les pages de documentation répondent à des questions pratiques d’implémentation.
- Les études de cas contiennent assez de preuves pour être utiles.
- Les FAQ ne sont pas le seul endroit où les affirmations importantes apparaissent.
- Les liens internes connectent les pages sources entre elles.
Support Better Robots.txt :
Bloc 6 : hygiène des routes WordPress
WordPress génère plusieurs routes publiques qui ne méritent pas toutes la même attention machine.
À vérifier :
- Les pages d’étiquettes ne saturent pas la surface de crawl.
- Les archives de dates sont utiles ou restreintes.
- Les archives auteurs sont utiles ou restreintes.
- Les pages médias sont contrôlées.
- Les recherches internes ne sont pas indexables.
- Les routes panier, compte et paiement WooCommerce sont traitées correctement.
- Les chemins staging, démo et utilitaires ne sont pas exposés par accident.
Support Better Robots.txt :
- Analyse d’hygiène robots.txt WordPress
- robots.txt pour WooCommerce
- robots.txt pour éditeurs
- robots.txt pour sites multilingues
Bloc 7 : arbre d’accessibilité et contrôles sémantiques
Les agents s’appuient souvent sur des représentations structurées de la page, pas seulement sur des captures visuelles.
À vérifier :
- Les boutons ont des libellés significatifs.
- Les liens décrivent leur destination.
- Les champs de formulaire ont des libellés.
- Les messages d’erreur sont reliés aux champs.
- La navigation principale est compréhensible.
- Les accordéons, onglets, modales et menus exposent clairement leur état.
- Le contenu décoratif ne crée pas de bruit sémantique.
- Les actions principales ne sont pas cachées derrière des indices purement visuels.
Support Better Robots.txt : limité. Ce bloc relève surtout de la remédiation front-end, accessibilité et UX.
Bloc 8 : stabilité visuelle et comportement dynamique
Un agent peut mal cliquer ou mal interpréter une page si l’interface bouge après identification de la cible.
À vérifier :
- Les déplacements de mise en page sont minimisés.
- Les images et intégrations ont des dimensions.
- Le chargement des polices ne provoque pas de grands déplacements.
- Les publicités et bannières de consentement ne déplacent pas les actions critiques de manière imprévisible.
- Les blocs chargés paresseusement ne changent pas le sens de la page.
- Les en-têtes fixes ne masquent pas les éléments ciblés.
- Le contenu rendu par JavaScript reste compréhensible.
Support Better Robots.txt : indirect. L’extension peut aider à éviter de bloquer des ressources nécessaires, mais elle ne corrige pas la stabilité visuelle.
Bloc 9 : formulaires, paiement et contact
La préparation agentique devient réelle lorsqu’un système doit agir.
À vérifier :
- Les formulaires de contact exposent clairement les champs requis.
- Les messages de confirmation sont visibles et sémantiquement clairs.
- Les couches anti-spam ne créent pas d’impasses inexpliquées.
- Les étapes de paiement sont stables et libellées.
- Les erreurs peuvent être comprises sans deviner visuellement.
- Les bannières de consentement ne bloquent pas les parcours essentiels sans contrôles accessibles.
- L’utilisateur peut distinguer « envoyé », « échec » et « action requise ».
Support Better Robots.txt : aucun directement. Ce bloc demande du travail formulaire, UX, accessibilité et QA.
Bloc 10 : logs, preuves et gestion du changement
La préparation n’est pas un artefact unique.
À vérifier :
- Les logs crawlers sont révisés.
- Les bots importants sont identifiables.
- Les fetchers déclenchés par l’utilisateur sont séparés des crawlers de fond lorsque possible.
- Les changements à
robots.txt,llms.txt, aux politiques, sitemaps et pages sources sont suivis. - Les tests de visibilité IA sont répétés dans des conditions cohérentes.
- Les affirmations de recommandation ou citation IA sont documentées avec dates et surfaces.
Support Better Robots.txt :
- Lire les logs de crawl et identifier les bots
- Vérifier les agents IA dans les logs
- Protocole de recommandation IA
- Cas de recommandations IA croisées
Ce que Better Robots.txt couvre le mieux
Utilisez Better Robots.txt pour :
- générer
robots.txt; - segmenter les crawlers IA ;
- améliorer l’hygiène de crawl WordPress ;
- publier et vérifier
llms.txt; - reconnaître les fichiers de gouvernance IA ;
- revoir la politique de crawl ;
- transformer un audit en actions.
Ne l’utilisez pas comme substitut à :
- la remédiation d’accessibilité ;
- l’ingénierie front-end de performance ;
- la stratégie de données structurées ;
- l’architecture de contenu ;
- la revue légale ;
- l’enforcement WAF ;
- la vérification d’agents signés ;
- les tests complets d’agents de navigation.
Passe d’implémentation en 30 minutes
Une première passe rapide ressemble à ceci :
- Lancer l’audit gratuit.
- Corriger les blocages accidentels des crawlers Search.
- Sélectionner ou ajuster un preset Better Robots.txt.
- Réviser les règles par finalité de crawler IA.
- Ajouter ou améliorer
llms.txtseulement si le fichier peut être significatif. - Vérifier l’existence et la cohérence des fichiers de gouvernance.
- Identifier 5 pages sources prioritaires.
- Lancer Lighthouse Agentic Browsing.
- Noter les risques d’accessibilité, de CLS et d’interaction.
- Réauditer après publication.