Vérificateur de fichiers de gouvernance IA
Robots.txt indique des règles d’accès au crawl. Il n’explique pas toujours l’intention complète.
Les fichiers de gouvernance IA ajoutent une couche d’explication : politique d’usage IA, manifeste, pointeurs .well-known, llms.txt, contraintes d’interprétation et liens canoniques.
Fichiers utiles
| Fichier | Fonction |
|---|---|
llms.txt | Orienter les systèmes LLM vers les contenus importants. |
ai-manifest.json | Résumer l’identité, les politiques et les fichiers de référence. |
.well-known/ai-governance.json | Pointer vers les fichiers canoniques. |
.well-known/llm-policy.json | Exposer une politique machine-readable. |
| Politique d’usage IA | Expliquer l’intention humaine et juridique. |
Signal, pas enforcement
Ces fichiers ne remplacent pas les règles Allow et Disallow. Ils documentent l’intention. Ils rendent la posture plus claire pour les humains, les agences et les lecteurs machine.
Cohérence
Le meilleur système raconte la même chose dans robots.txt, llms.txt, la politique IA, les manifestes et les fichiers .well-known.
Liste de vérification d’implémentation
Utilisez l’audit comme une séquence de correction, pas seulement comme un score.
- Confirmer l’origine auditée : protocole, domaine et sous-domaine doivent correspondre au site réel.
- Préserver l’accès Search sauf si le site est volontairement privé.
- Décider si l’objectif est la visibilité IA, la restriction de l’entraînement, une posture éditoriale conservatrice ou une fermeture stricte.
- Configurer les familles de crawlers par finalité, pas par réaction globale.
- Publier une politique seulement si elle reste cohérente avec les règles actives.
- Relancer le scan après publication, car WordPress, les extensions, le cache, le serveur ou l’edge peuvent modifier la sortie réelle.
Vérification manuelle
Un reviewer technique peut vérifier les surfaces suivantes :
/robots.txt
/llms.txt
/ai-manifest.json
/.well-known/ai-governance.json
/.well-known/llm-policy.jsonLa question n’est pas seulement de savoir si les fichiers existent. Il faut vérifier s’ils racontent la même chose. Une règle robots.txt restrictive, un llms.txt permissif et une politique IA contradictoire produisent une gouvernance faible, même si chaque URL répond correctement.
Chemin de correction WordPress
Si le site est WordPress, la suite logique est une configuration dans Better Robots.txt : choisir un preset, ajuster les familles de crawlers, prévisualiser, publier, puis relancer l’audit externe. C’est ce qui transforme le scan en preuve d’amélioration.
Pages reliées
- Vérificateur robots.txt pour crawlers IA
- Vérificateur WordPress robots.txt IA
- Couverture des crawlers IA
- Entraînement IA vs recherche IA
- Vérificateur llms.txt
Contexte de préparation agentique
Les fichiers de gouvernance deviennent plus importants à mesure que la navigation agentique progresse, parce que les agents doivent savoir quels fichiers publics ont priorité sur les autres. Associez ce vérificateur à préparation agentique WordPress et robots.txt, llms.txt et WebMCP.