Content-Signal dans robots.txt

Content-Signal est l’un des nouveaux signaux les plus importants pour la gouvernance d’usage IA, parce qu’il exprime une couche que les règles ordinaires Allow et Disallow ne couvrent pas.

robots.txt peut dire quels crawlers devraient accéder à quels chemins. Il ne dit pas complètement ce que ces crawlers devraient faire avec le contenu après l’accès. La politique Content Signals de Cloudflare ajoute un vocabulaire pour cette deuxième question.

Pour Better Robots.txt, c’est important parce que cela sépare l’accès de l’usage.

Lancer l’audit gratuit Voir le modèle en couches Lire search vs ai-input vs ai-train

État actuel dans Better Robots

Better Robots traite Content-Signal comme une couche pertinente de gouvernance, mais il ne faut pas la confondre avec de l’enforcement dur.

État public actuel :

Content-Signal est documenté comme un signal de préférence d’usage post-crawl.
Une future détection score-neutral dans /check est pertinente.
Content-Signal n’est pas une règle WAF, une règle pare-feu ou un mécanisme d’authentification des crawlers.
Si /check ne marque pas explicitement Content-Signal comme scoré, il ne faut pas l’inférer comme partie du score actuel.
Un futur alignement par profil pourrait évaluer search, ai-input et ai-train, mais cela demanderait une mise à jour explicite du référentiel de règles.

Le modèle de base

Cloudflare donne cet exemple :

txt

User-Agent: *
Content-Signal: search=yes, ai-train=no
Allow: /

Cette ligne ne remplace pas Allow ou Disallow. Elle ajoute une préférence déclarée sur l’usage aval.

Les 3 finalités importantes sont :

Signal	Signification pratique	Question de gouvernance
`search`	Indexation Search et résultats avec liens ou extraits	Le contenu peut-il servir à la découvrabilité Search ?
`ai-input`	Usage comme entrée de modèles IA au moment de la requête, incluant récupération, grounding ou réponses de type RAG	Le contenu peut-il être utilisé dans des workflows de réponse ou de récupération ?
`ai-train`	Entraînement ou fine-tuning de modèles IA	Le contenu peut-il servir à améliorer de futurs modèles ?

L’absence d’un signal ne doit pas être surinterprétée. Cloudflare décrit explicitement cette absence comme neutre pour l’usage concerné.

Pourquoi cela appartient à la gouvernance crawler

Better Robots sépare déjà les familles de crawlers par finalité :

crawlers de recherche ;
crawlers de recherche IA ;
crawlers d’entraînement ;
agents déclenchés par l’utilisateur ;
crawlers sociaux et d’aperçu ;
outils SEO ;
mauvais bots.

Content-Signal ajoute un autre axe. Il dit ce que le site déclare à propos de l’usage après accès.

C’est donc directement compatible avec le modèle de profils d’intention de l’audit.

Par exemple, le profil Recherche IA ouverte, entraînement restreint peut correspondre à :

txt

Content-Signal: search=yes, ai-input=yes, ai-train=no

ou, dans une interprétation plus prudente, à :

txt

Content-Signal: search=yes, ai-train=no

La différence est doctrinalement importante. ai-input=yes autorise plus explicitement l’usage au moment de la réponse que search=yes seul. Un propriétaire de site ne devrait pas l’activer par accident.

Accès et usage peuvent se contredire

Le vrai signal d’audit utile n’est pas seulement « Content-Signal existe ».

Le signal utile est de savoir si l’usage déclaré correspond aux règles d’accès crawler.

Cas 1 : usage pour entraînement refusé, crawlers d’entraînement ouverts

txt

User-agent: *
Content-Signal: ai-train=no
Allow: /

User-agent: GPTBot
Allow: /

Cela ne veut pas automatiquement dire que le site est cassé. Cela veut dire qu’il s’appuie sur une déclaration d’usage aval tout en laissant l’accès ouvert à un crawler lié à l’entraînement. Certains crawlers peuvent respecter le signal. D’autres non.

Un audit prudent devrait dire :

restriction d’usage déclarée, accès encore ouvert.

Cas 2 : entraînement autorisé, crawlers d’entraînement bloqués

txt

User-agent: *
Content-Signal: ai-train=yes
Allow: /

User-agent: GPTBot
Disallow: /

Ici, la contradiction est plus forte. Le signal d’usage dit que l’entraînement est autorisé, mais la règle d’accès bloque un crawler d’entraînement connu.

Un audit prudent devrait dire :

usage pour entraînement déclaré comme autorisé, mais crawler d’entraînement bloqué.

Cas 3 : ai-input refusé, systèmes de réponse ouverts

txt

User-agent: *
Content-Signal: ai-input=no
Allow: /

User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /

Ce cas demande de l’interprétation. ai-input=no concerne l’usage du contenu comme entrée de modèle au moment de la réponse. Certains bots peuvent servir la recherche, la récupération, la citation ou des usages déclenchés par l’utilisateur. L’audit ne doit pas les écraser dans une seule catégorie.

Comment Better Robots devrait traiter Content-Signal

Content-Signal doit être traité comme une préférence lisible par machine, pas comme de l’enforcement dur.

Un modèle d’audit sain serait :

Situation	Interprétation d’audit
Présent et aligné avec le profil sélectionné	Signal positif
Présent mais contradictoire avec les règles d’accès crawler	Avertissement ou écart de posture
Présent avec valeurs invalides	Avertissement
Absent	Information ou non évalué, pas échec dur

L’absence ne devrait pas être pénalisée trop fortement, parce que Content-Signal n’est pas le Robots Exclusion Protocol lui-même et n’est pas universellement appliqué.

Relation avec Better Robots.txt PRO

Dans un premier temps, /check devrait détecter et expliquer Content-Signal sans modifier le score central.

Plus tard, Better Robots.txt PRO pourrait publier une ligne basée sur le profil, par exemple :

txt

Content-Signal: search=yes, ai-input=yes, ai-train=no

pour les sites qui choisissent explicitement une posture de recherche IA ouverte et d’entraînement restreint.

Ce choix devrait être une décision de profil, pas un défaut caché.

Mapping recommandé par profil

Profil	Posture Content-Signal possible	Notes
Recherche IA ouverte, entraînement restreint	`search=yes, ai-input=yes, ai-train=no`	Expression forte de la récupération au moment de la réponse et du refus d’entraînement
Protection éditeur	`search=yes, ai-input=no, ai-train=no`	Garde la découvrabilité Search tout en refusant l’entrée IA et l’entraînement
Visibilité IA maximale	`search=yes, ai-input=yes, ai-train=yes`	À utiliser seulement si le site accepte délibérément une réutilisation IA large
Défaut sécuritaire WordPress	`search=yes, ai-train=no`, `ai-input=yes` optionnel	À calibrer selon l’appétit du site pour l’usage au moment de la réponse
Restriction stricte des crawlers	`ai-input=no, ai-train=no`, `search` selon la posture Search souhaitée	Ne pas transformer par accident une posture IA stricte en blackout Search

Ce qu’il ne faut pas prétendre

Il ne faut pas dire que Content-Signal garantit l’obéissance des crawlers.

Il ne remplace pas le WAF, Bot Management, la vérification d’agents signés, les journaux ou les contrôles contractuels.

Il ne doit pas être présenté comme facteur de classement Search.

Il ne faut pas dire que tous les crawlers le respectent.

La bonne affirmation est plus étroite et plus solide :

Content-Signal donne à un site une façon lisible par machine d’exprimer des préférences d’usage post-crawl dans robots.txt.

C’est exactement le genre de signal qu’un audit de gouvernance crawler doit comprendre.

FAQ

Content-Signal est-il identique à Disallow ?

Non. Disallow est un guidage d’accès pour un chemin. Content-Signal est une préférence déclarée sur ce qui peut être fait avec le contenu après accès.

Un site devrait-il ajouter Content-Signal même s’il bloque des crawlers IA ?

Possiblement. Une règle de blocage exprime une posture d’accès. Content-Signal exprime une posture d’usage. Les deux se renforcent lorsqu’ils sont cohérents.

Better Robots audite-t-il déjà ce signal ?

Cette page décrit la direction recommandée pour l’audit et le plugin. Le chemin le plus sûr est de détecter Content-Signal comme signal informatif non scoré, puis d’ajouter un scoring d’alignement par profil lorsque le référentiel de règles sera mis à jour.

ai-input est-il la même chose que l’entraînement ?

Non. ai-input couvre l’usage au moment de la réponse, par exemple la récupération, le grounding ou l’entrée de modèle. ai-train couvre l’entraînement ou le fine-tuning.

Références

Cloudflare Content Signals Policy : https://blog.cloudflare.com/content-signals-policy/
Site de référence Content Signals : https://contentsignals.org/

Content-Signal dans robots.txt ​

État actuel dans Better Robots ​

Le modèle de base ​

Pourquoi cela appartient à la gouvernance crawler ​

Accès et usage peuvent se contredire ​

Cas 1 : usage pour entraînement refusé, crawlers d’entraînement ouverts ​

Cas 2 : entraînement autorisé, crawlers d’entraînement bloqués ​

Cas 3 : ai-input refusé, systèmes de réponse ouverts ​

Comment Better Robots devrait traiter Content-Signal ​

Relation avec Better Robots.txt PRO ​

Mapping recommandé par profil ​

Ce qu’il ne faut pas prétendre ​

FAQ ​

Content-Signal est-il identique à Disallow ? ​

Un site devrait-il ajouter Content-Signal même s’il bloque des crawlers IA ? ​

Better Robots audite-t-il déjà ce signal ? ​

ai-input est-il la même chose que l’entraînement ? ​

À lire ensuite ​

Références ​