Aller au contenu principalSkip to content

Vérificateur llms.txt

llms.txt est une surface de guidage. Ce n’est pas un remplacement de robots.txt, ce n’est pas un mécanisme de sécurité, et ce n’est pas une garantie de citation IA.

Le vérificateur Better Robots.txt le traite comme un fichier de clarté machine : une façon de diriger les systèmes LLM vers les pages, politiques et contenus les plus importants.

Search, agents et bonne attente

llms.txt ne devrait pas être vendu comme une exigence de classement Google Search. Son rôle le plus défendable est l’orientation machine : aider les outils propulsés par LLM, les agents et les lecteurs machine à trouver les bonnes pages sources et les bonnes surfaces de politique avec moins de bruit.

C’est pourquoi l’audit Better Robots le traite comme un signal de guidage moderne, pas comme de l’enforcement crawler. Un très petit site vitrine peut ne pas en avoir besoin en urgence. Un site de documentation, un site d’extension, un SaaS, un éditeur ou un site WordPress riche en politiques a une raison plus forte de le publier, parce que les machines doivent distinguer les pages canoniques des routes de faible valeur.

La bonne question n’est pas « ce fichier va-t-il me faire classer dans l’IA ? ». La bonne question est :

Ce fichier aide-t-il une machine à trouver les bonnes sources sans deviner ?

Ce que l’audit vérifie

ÉlémentRaison
/llms.txt répond correctementLe fichier doit être stable et accessible.
Le contenu ressemble à du texte ou du MarkdownUn shell HTML ne devrait pas compter comme vrai fichier.
Des liens internes utiles existentLe fichier doit orienter vers les pages canoniques.
Le contenu reste cohérent avec robots.txtLe guidage ne doit pas contredire l’accès crawler.
Une politique IA est liéeLe site explique son intention.

Bon usage

Un bon llms.txt résume le site, pointe vers les pages importantes, relie les politiques, et évite les promesses excessives. Il améliore la lisibilité machine. Il ne force pas les systèmes IA à citer le site.

Correction WordPress

Better Robots.txt peut aider à publier et maintenir cette surface depuis WordPress, puis l’audit externe confirme que le fichier est bien accessible.

Liste de vérification d’implémentation

Utilisez l’audit comme une séquence de correction, pas seulement comme un score.

  1. Confirmer l’origine auditée : protocole, domaine et sous-domaine doivent correspondre au site réel.
  2. Préserver l’accès Search sauf si le site est volontairement privé.
  3. Décider si l’objectif est la visibilité IA, la restriction de l’entraînement, une posture éditoriale conservatrice ou une fermeture stricte.
  4. Configurer les familles de crawlers par finalité, pas par réaction globale.
  5. Publier une politique seulement si elle reste cohérente avec les règles actives.
  6. Relancer le scan après publication, car WordPress, les extensions, le cache, le serveur ou l’edge peuvent modifier la sortie réelle.

Vérification manuelle

Un reviewer technique peut vérifier les surfaces suivantes :

txt
/robots.txt
/llms.txt
/ai-manifest.json
/.well-known/ai-governance.json
/.well-known/llm-policy.json

La question n’est pas seulement de savoir si les fichiers existent. Il faut vérifier s’ils racontent la même chose. Une règle robots.txt restrictive, un llms.txt permissif et une politique IA contradictoire produisent une gouvernance faible, même si chaque URL répond correctement.

Chemin de correction WordPress

Si le site est WordPress, la suite logique est une configuration dans Better Robots.txt : choisir un preset, ajuster les familles de crawlers, prévisualiser, publier, puis relancer l’audit externe. C’est ce qui transforme le scan en preuve d’amélioration.

Pages reliées

Contexte audit Lighthouse

Le vérificateur doit maintenant être lu avec audit Lighthouse llms.txt pour WordPress. Lighthouse peut détecter un résumé lisible par machine, mais l’interprétation Better Robots.txt reste plus stricte : le fichier doit être exact, utile, aligné avec robots.txt et connecté à de vraies pages sources.