Content-Signal dans robots.txt
Content-Signal est l’un des nouveaux signaux les plus importants pour la gouvernance d’usage IA, parce qu’il exprime une couche que les règles ordinaires Allow et Disallow ne couvrent pas.
robots.txt peut dire quels crawlers devraient accéder à quels chemins. Il ne dit pas complètement ce que ces crawlers devraient faire avec le contenu après l’accès. La politique Content Signals de Cloudflare ajoute un vocabulaire pour cette deuxième question.
Pour Better Robots.txt, c’est important parce que cela sépare l’accès de l’usage.
État actuel dans Better Robots
Better Robots traite Content-Signal comme une couche pertinente de gouvernance, mais il ne faut pas la confondre avec de l’enforcement dur.
État public actuel :
Content-Signalest documenté comme un signal de préférence d’usage post-crawl.- Une future détection score-neutral dans
/checkest pertinente. Content-Signaln’est pas une règle WAF, une règle pare-feu ou un mécanisme d’authentification des crawlers.- Si
/checkne marque pas explicitementContent-Signalcomme scoré, il ne faut pas l’inférer comme partie du score actuel. - Un futur alignement par profil pourrait évaluer
search,ai-inputetai-train, mais cela demanderait une mise à jour explicite du référentiel de règles.
Le modèle de base
Cloudflare donne cet exemple :
User-Agent: *
Content-Signal: search=yes, ai-train=no
Allow: /Cette ligne ne remplace pas Allow ou Disallow. Elle ajoute une préférence déclarée sur l’usage aval.
Les 3 finalités importantes sont :
| Signal | Signification pratique | Question de gouvernance |
|---|---|---|
search | Indexation Search et résultats avec liens ou extraits | Le contenu peut-il servir à la découvrabilité Search ? |
ai-input | Usage comme entrée de modèles IA au moment de la requête, incluant récupération, grounding ou réponses de type RAG | Le contenu peut-il être utilisé dans des workflows de réponse ou de récupération ? |
ai-train | Entraînement ou fine-tuning de modèles IA | Le contenu peut-il servir à améliorer de futurs modèles ? |
L’absence d’un signal ne doit pas être surinterprétée. Cloudflare décrit explicitement cette absence comme neutre pour l’usage concerné.
Pourquoi cela appartient à la gouvernance crawler
Better Robots sépare déjà les familles de crawlers par finalité :
- crawlers de recherche ;
- crawlers de recherche IA ;
- crawlers d’entraînement ;
- agents déclenchés par l’utilisateur ;
- crawlers sociaux et d’aperçu ;
- outils SEO ;
- mauvais bots.
Content-Signal ajoute un autre axe. Il dit ce que le site déclare à propos de l’usage après accès.
C’est donc directement compatible avec le modèle de profils d’intention de l’audit.
Par exemple, le profil Recherche IA ouverte, entraînement restreint peut correspondre à :
Content-Signal: search=yes, ai-input=yes, ai-train=noou, dans une interprétation plus prudente, à :
Content-Signal: search=yes, ai-train=noLa différence est doctrinalement importante. ai-input=yes autorise plus explicitement l’usage au moment de la réponse que search=yes seul. Un propriétaire de site ne devrait pas l’activer par accident.
Accès et usage peuvent se contredire
Le vrai signal d’audit utile n’est pas seulement « Content-Signal existe ».
Le signal utile est de savoir si l’usage déclaré correspond aux règles d’accès crawler.
Cas 1 : usage pour entraînement refusé, crawlers d’entraînement ouverts
User-agent: *
Content-Signal: ai-train=no
Allow: /
User-agent: GPTBot
Allow: /Cela ne veut pas automatiquement dire que le site est cassé. Cela veut dire qu’il s’appuie sur une déclaration d’usage aval tout en laissant l’accès ouvert à un crawler lié à l’entraînement. Certains crawlers peuvent respecter le signal. D’autres non.
Un audit prudent devrait dire :
restriction d’usage déclarée, accès encore ouvert.
Cas 2 : entraînement autorisé, crawlers d’entraînement bloqués
User-agent: *
Content-Signal: ai-train=yes
Allow: /
User-agent: GPTBot
Disallow: /Ici, la contradiction est plus forte. Le signal d’usage dit que l’entraînement est autorisé, mais la règle d’accès bloque un crawler d’entraînement connu.
Un audit prudent devrait dire :
usage pour entraînement déclaré comme autorisé, mais crawler d’entraînement bloqué.
Cas 3 : ai-input refusé, systèmes de réponse ouverts
User-agent: *
Content-Signal: ai-input=no
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /Ce cas demande de l’interprétation. ai-input=no concerne l’usage du contenu comme entrée de modèle au moment de la réponse. Certains bots peuvent servir la recherche, la récupération, la citation ou des usages déclenchés par l’utilisateur. L’audit ne doit pas les écraser dans une seule catégorie.
Comment Better Robots devrait traiter Content-Signal
Content-Signal doit être traité comme une préférence lisible par machine, pas comme de l’enforcement dur.
Un modèle d’audit sain serait :
| Situation | Interprétation d’audit |
|---|---|
| Présent et aligné avec le profil sélectionné | Signal positif |
| Présent mais contradictoire avec les règles d’accès crawler | Avertissement ou écart de posture |
| Présent avec valeurs invalides | Avertissement |
| Absent | Information ou non évalué, pas échec dur |
L’absence ne devrait pas être pénalisée trop fortement, parce que Content-Signal n’est pas le Robots Exclusion Protocol lui-même et n’est pas universellement appliqué.
Relation avec Better Robots.txt PRO
Dans un premier temps, /check devrait détecter et expliquer Content-Signal sans modifier le score central.
Plus tard, Better Robots.txt PRO pourrait publier une ligne basée sur le profil, par exemple :
Content-Signal: search=yes, ai-input=yes, ai-train=nopour les sites qui choisissent explicitement une posture de recherche IA ouverte et d’entraînement restreint.
Ce choix devrait être une décision de profil, pas un défaut caché.
Mapping recommandé par profil
| Profil | Posture Content-Signal possible | Notes |
|---|---|---|
| Recherche IA ouverte, entraînement restreint | search=yes, ai-input=yes, ai-train=no | Expression forte de la récupération au moment de la réponse et du refus d’entraînement |
| Protection éditeur | search=yes, ai-input=no, ai-train=no | Garde la découvrabilité Search tout en refusant l’entrée IA et l’entraînement |
| Visibilité IA maximale | search=yes, ai-input=yes, ai-train=yes | À utiliser seulement si le site accepte délibérément une réutilisation IA large |
| Défaut sécuritaire WordPress | search=yes, ai-train=no, ai-input=yes optionnel | À calibrer selon l’appétit du site pour l’usage au moment de la réponse |
| Restriction stricte des crawlers | ai-input=no, ai-train=no, search selon la posture Search souhaitée | Ne pas transformer par accident une posture IA stricte en blackout Search |
Ce qu’il ne faut pas prétendre
Il ne faut pas dire que Content-Signal garantit l’obéissance des crawlers.
Il ne remplace pas le WAF, Bot Management, la vérification d’agents signés, les journaux ou les contrôles contractuels.
Il ne doit pas être présenté comme facteur de classement Search.
Il ne faut pas dire que tous les crawlers le respectent.
La bonne affirmation est plus étroite et plus solide :
Content-Signaldonne à un site une façon lisible par machine d’exprimer des préférences d’usage post-crawl dansrobots.txt.
C’est exactement le genre de signal qu’un audit de gouvernance crawler doit comprendre.
FAQ
Content-Signal est-il identique à Disallow ?
Non. Disallow est un guidage d’accès pour un chemin. Content-Signal est une préférence déclarée sur ce qui peut être fait avec le contenu après accès.
Un site devrait-il ajouter Content-Signal même s’il bloque des crawlers IA ?
Possiblement. Une règle de blocage exprime une posture d’accès. Content-Signal exprime une posture d’usage. Les deux se renforcent lorsqu’ils sont cohérents.
Better Robots audite-t-il déjà ce signal ?
Cette page décrit la direction recommandée pour l’audit et le plugin. Le chemin le plus sûr est de détecter Content-Signal comme signal informatif non scoré, puis d’ajouter un scoring d’alignement par profil lorsque le référentiel de règles sera mis à jour.
ai-input est-il la même chose que l’entraînement ?
Non. ai-input couvre l’usage au moment de la réponse, par exemple la récupération, le grounding ou l’entrée de modèle. ai-train couvre l’entraînement ou le fine-tuning.
À lire ensuite
- Search vs ai-input vs ai-train
- Ce que les signaux d’usage IA peuvent et ne peuvent pas faire
- Signal vs enforcement pour crawlers IA
- Gouvernance crawler vs préparation agentique
- Crawlers d’entraînement IA vs recherche IA
Références
- Cloudflare Content Signals Policy : https://blog.cloudflare.com/content-signals-policy/
- Site de référence Content Signals : https://contentsignals.org/