Aller au contenu principalSkip to content

robots.txt : déclaration vs blocage technique

robots.txt est une couche de déclaration publique. Ce n’est pas un pare-feu.

Better Robots traite robots.txt comme une surface de gouvernance, parce qu’il indique ce que le site déclare aux crawlers coopératifs. C’est utile, mais ce n’est pas la même chose qu’un blocage technique.

Quatre couches différentes

CoucheQuestion principaleExemples
DéclarationQue demande le site aux crawlers coopératifs ?robots.txt, User-agent, Allow, Disallow, Sitemap
Préférence d’usage post-crawlQue peut devenir le contenu après accès ?Content-Signal, politique IA, ai-train, ai-input
EnforcementQu’est-ce qui est techniquement bloqué ?WAF, règles serveur, authentification, limites de taux, vérification des bots
PreuveQue s’est-il réellement passé ?logs, IP de bots vérifiées, traces de requêtes, re-audits

Pourquoi robots.txt reste important

robots.txt reste souvent le premier fichier public que les crawlers consultent. Il demeure le format de déclaration d’accès crawler le plus connu.

Il aide un site à exprimer :

  • ce qui doit rester crawlable ;
  • ce qui ne doit pas être crawlé ;
  • quelle sitemap utiliser ;
  • si certaines familles de crawlers sont traitées séparément ;
  • si les crawlers de recherche, d’entraînement et de récupération utilisateur sont distingués ou mélangés.

Ce que robots.txt ne peut pas faire

robots.txt ne peut pas garantir que tous les crawlers obéiront.

Il ne peut pas authentifier un bot.

Il ne peut pas arrêter seul un scraper malveillant.

Il ne peut pas prouver qu’un contenu n’a pas été utilisé pour l’entraînement.

Il ne remplace ni les conditions juridiques, ni les règles WAF, ni les logs, ni l’enforcement serveur.

Où se place Content-Signal

Content-Signal appartient à la couche d’usage post-crawl. Il peut exprimer des préférences comme :

txt
search=yes
ai-input=no
ai-train=no

C’est utile parce que ce signal dit autre chose que Allow et Disallow. Il décrit une préférence d’usage déclaré, pas l’accès lui-même.

Comment Better Robots utilise cette distinction

Better Robots /check audite les déclarations, la posture et la cohérence.

Un bon audit peut dire :

txt
Vos règles d’accès autorisent GPTBot, mais votre préférence d’usage post-crawl refuse l’entraînement.

ou :

txt
Votre robots.txt bloque les crawlers d’entraînement, mais aucune politique IA n’explique la limite de réutilisation souhaitée.

C’est de la gouvernance. L’enforcement reste une couche séparée.

Recommandation pratique

Utilisez robots.txt pour déclarer l’accès des crawlers coopératifs.

Utilisez Content-Signal et les politiques IA pour déclarer les préférences d’usage aval.

Utilisez un WAF et des règles serveur pour bloquer le trafic indésirable.

Utilisez les logs et les re-audits pour vérifier ce qui se passe réellement.