Aller au contenu principalSkip to content

Content-Signal dans robots.txt

Content-Signal est l’un des nouveaux signaux les plus importants pour la gouvernance d’usage IA, parce qu’il exprime une couche que les règles ordinaires Allow et Disallow ne couvrent pas.

robots.txt peut dire quels crawlers devraient accéder à quels chemins. Il ne dit pas complètement ce que ces crawlers devraient faire avec le contenu après l’accès. La politique Content Signals de Cloudflare ajoute un vocabulaire pour cette deuxième question.

Pour Better Robots.txt, c’est important parce que cela sépare l’accès de l’usage.

État actuel dans Better Robots

Better Robots traite Content-Signal comme une couche pertinente de gouvernance, mais il ne faut pas la confondre avec de l’enforcement dur.

État public actuel :

  • Content-Signal est documenté comme un signal de préférence d’usage post-crawl.
  • Une future détection score-neutral dans /check est pertinente.
  • Content-Signal n’est pas une règle WAF, une règle pare-feu ou un mécanisme d’authentification des crawlers.
  • Si /check ne marque pas explicitement Content-Signal comme scoré, il ne faut pas l’inférer comme partie du score actuel.
  • Un futur alignement par profil pourrait évaluer search, ai-input et ai-train, mais cela demanderait une mise à jour explicite du référentiel de règles.

Le modèle de base

Cloudflare donne cet exemple :

txt
User-Agent: *
Content-Signal: search=yes, ai-train=no
Allow: /

Cette ligne ne remplace pas Allow ou Disallow. Elle ajoute une préférence déclarée sur l’usage aval.

Les 3 finalités importantes sont :

SignalSignification pratiqueQuestion de gouvernance
searchIndexation Search et résultats avec liens ou extraitsLe contenu peut-il servir à la découvrabilité Search ?
ai-inputUsage comme entrée de modèles IA au moment de la requête, incluant récupération, grounding ou réponses de type RAGLe contenu peut-il être utilisé dans des workflows de réponse ou de récupération ?
ai-trainEntraînement ou fine-tuning de modèles IALe contenu peut-il servir à améliorer de futurs modèles ?

L’absence d’un signal ne doit pas être surinterprétée. Cloudflare décrit explicitement cette absence comme neutre pour l’usage concerné.

Pourquoi cela appartient à la gouvernance crawler

Better Robots sépare déjà les familles de crawlers par finalité :

  • crawlers de recherche ;
  • crawlers de recherche IA ;
  • crawlers d’entraînement ;
  • agents déclenchés par l’utilisateur ;
  • crawlers sociaux et d’aperçu ;
  • outils SEO ;
  • mauvais bots.

Content-Signal ajoute un autre axe. Il dit ce que le site déclare à propos de l’usage après accès.

C’est donc directement compatible avec le modèle de profils d’intention de l’audit.

Par exemple, le profil Recherche IA ouverte, entraînement restreint peut correspondre à :

txt
Content-Signal: search=yes, ai-input=yes, ai-train=no

ou, dans une interprétation plus prudente, à :

txt
Content-Signal: search=yes, ai-train=no

La différence est doctrinalement importante. ai-input=yes autorise plus explicitement l’usage au moment de la réponse que search=yes seul. Un propriétaire de site ne devrait pas l’activer par accident.

Accès et usage peuvent se contredire

Le vrai signal d’audit utile n’est pas seulement « Content-Signal existe ».

Le signal utile est de savoir si l’usage déclaré correspond aux règles d’accès crawler.

Cas 1 : usage pour entraînement refusé, crawlers d’entraînement ouverts

txt
User-agent: *
Content-Signal: ai-train=no
Allow: /

User-agent: GPTBot
Allow: /

Cela ne veut pas automatiquement dire que le site est cassé. Cela veut dire qu’il s’appuie sur une déclaration d’usage aval tout en laissant l’accès ouvert à un crawler lié à l’entraînement. Certains crawlers peuvent respecter le signal. D’autres non.

Un audit prudent devrait dire :

restriction d’usage déclarée, accès encore ouvert.

Cas 2 : entraînement autorisé, crawlers d’entraînement bloqués

txt
User-agent: *
Content-Signal: ai-train=yes
Allow: /

User-agent: GPTBot
Disallow: /

Ici, la contradiction est plus forte. Le signal d’usage dit que l’entraînement est autorisé, mais la règle d’accès bloque un crawler d’entraînement connu.

Un audit prudent devrait dire :

usage pour entraînement déclaré comme autorisé, mais crawler d’entraînement bloqué.

Cas 3 : ai-input refusé, systèmes de réponse ouverts

txt
User-agent: *
Content-Signal: ai-input=no
Allow: /

User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /

Ce cas demande de l’interprétation. ai-input=no concerne l’usage du contenu comme entrée de modèle au moment de la réponse. Certains bots peuvent servir la recherche, la récupération, la citation ou des usages déclenchés par l’utilisateur. L’audit ne doit pas les écraser dans une seule catégorie.

Comment Better Robots devrait traiter Content-Signal

Content-Signal doit être traité comme une préférence lisible par machine, pas comme de l’enforcement dur.

Un modèle d’audit sain serait :

SituationInterprétation d’audit
Présent et aligné avec le profil sélectionnéSignal positif
Présent mais contradictoire avec les règles d’accès crawlerAvertissement ou écart de posture
Présent avec valeurs invalidesAvertissement
AbsentInformation ou non évalué, pas échec dur

L’absence ne devrait pas être pénalisée trop fortement, parce que Content-Signal n’est pas le Robots Exclusion Protocol lui-même et n’est pas universellement appliqué.

Relation avec Better Robots.txt PRO

Dans un premier temps, /check devrait détecter et expliquer Content-Signal sans modifier le score central.

Plus tard, Better Robots.txt PRO pourrait publier une ligne basée sur le profil, par exemple :

txt
Content-Signal: search=yes, ai-input=yes, ai-train=no

pour les sites qui choisissent explicitement une posture de recherche IA ouverte et d’entraînement restreint.

Ce choix devrait être une décision de profil, pas un défaut caché.

Mapping recommandé par profil

ProfilPosture Content-Signal possibleNotes
Recherche IA ouverte, entraînement restreintsearch=yes, ai-input=yes, ai-train=noExpression forte de la récupération au moment de la réponse et du refus d’entraînement
Protection éditeursearch=yes, ai-input=no, ai-train=noGarde la découvrabilité Search tout en refusant l’entrée IA et l’entraînement
Visibilité IA maximalesearch=yes, ai-input=yes, ai-train=yesÀ utiliser seulement si le site accepte délibérément une réutilisation IA large
Défaut sécuritaire WordPresssearch=yes, ai-train=no, ai-input=yes optionnelÀ calibrer selon l’appétit du site pour l’usage au moment de la réponse
Restriction stricte des crawlersai-input=no, ai-train=no, search selon la posture Search souhaitéeNe pas transformer par accident une posture IA stricte en blackout Search

Ce qu’il ne faut pas prétendre

Il ne faut pas dire que Content-Signal garantit l’obéissance des crawlers.

Il ne remplace pas le WAF, Bot Management, la vérification d’agents signés, les journaux ou les contrôles contractuels.

Il ne doit pas être présenté comme facteur de classement Search.

Il ne faut pas dire que tous les crawlers le respectent.

La bonne affirmation est plus étroite et plus solide :

Content-Signal donne à un site une façon lisible par machine d’exprimer des préférences d’usage post-crawl dans robots.txt.

C’est exactement le genre de signal qu’un audit de gouvernance crawler doit comprendre.

FAQ

Content-Signal est-il identique à Disallow ?

Non. Disallow est un guidage d’accès pour un chemin. Content-Signal est une préférence déclarée sur ce qui peut être fait avec le contenu après accès.

Un site devrait-il ajouter Content-Signal même s’il bloque des crawlers IA ?

Possiblement. Une règle de blocage exprime une posture d’accès. Content-Signal exprime une posture d’usage. Les deux se renforcent lorsqu’ils sont cohérents.

Better Robots audite-t-il déjà ce signal ?

Cette page décrit la direction recommandée pour l’audit et le plugin. Le chemin le plus sûr est de détecter Content-Signal comme signal informatif non scoré, puis d’ajouter un scoring d’alignement par profil lorsque le référentiel de règles sera mis à jour.

ai-input est-il la même chose que l’entraînement ?

Non. ai-input couvre l’usage au moment de la réponse, par exemple la récupération, le grounding ou l’entrée de modèle. ai-train couvre l’entraînement ou le fine-tuning.

À lire ensuite

Références