robots.txt : déclaration vs blocage technique
robots.txt est une couche de déclaration publique. Ce n’est pas un pare-feu.
Better Robots traite robots.txt comme une surface de gouvernance, parce qu’il indique ce que le site déclare aux crawlers coopératifs. C’est utile, mais ce n’est pas la même chose qu’un blocage technique.
Quatre couches différentes
| Couche | Question principale | Exemples |
|---|---|---|
| Déclaration | Que demande le site aux crawlers coopératifs ? | robots.txt, User-agent, Allow, Disallow, Sitemap |
| Préférence d’usage post-crawl | Que peut devenir le contenu après accès ? | Content-Signal, politique IA, ai-train, ai-input |
| Enforcement | Qu’est-ce qui est techniquement bloqué ? | WAF, règles serveur, authentification, limites de taux, vérification des bots |
| Preuve | Que s’est-il réellement passé ? | logs, IP de bots vérifiées, traces de requêtes, re-audits |
Pourquoi robots.txt reste important
robots.txt reste souvent le premier fichier public que les crawlers consultent. Il demeure le format de déclaration d’accès crawler le plus connu.
Il aide un site à exprimer :
- ce qui doit rester crawlable ;
- ce qui ne doit pas être crawlé ;
- quelle sitemap utiliser ;
- si certaines familles de crawlers sont traitées séparément ;
- si les crawlers de recherche, d’entraînement et de récupération utilisateur sont distingués ou mélangés.
Ce que robots.txt ne peut pas faire
robots.txt ne peut pas garantir que tous les crawlers obéiront.
Il ne peut pas authentifier un bot.
Il ne peut pas arrêter seul un scraper malveillant.
Il ne peut pas prouver qu’un contenu n’a pas été utilisé pour l’entraînement.
Il ne remplace ni les conditions juridiques, ni les règles WAF, ni les logs, ni l’enforcement serveur.
Où se place Content-Signal
Content-Signal appartient à la couche d’usage post-crawl. Il peut exprimer des préférences comme :
search=yes
ai-input=no
ai-train=noC’est utile parce que ce signal dit autre chose que Allow et Disallow. Il décrit une préférence d’usage déclaré, pas l’accès lui-même.
Comment Better Robots utilise cette distinction
Better Robots /check audite les déclarations, la posture et la cohérence.
Un bon audit peut dire :
Vos règles d’accès autorisent GPTBot, mais votre préférence d’usage post-crawl refuse l’entraînement.ou :
Votre robots.txt bloque les crawlers d’entraînement, mais aucune politique IA n’explique la limite de réutilisation souhaitée.C’est de la gouvernance. L’enforcement reste une couche séparée.
Recommandation pratique
Utilisez robots.txt pour déclarer l’accès des crawlers coopératifs.
Utilisez Content-Signal et les politiques IA pour déclarer les préférences d’usage aval.
Utilisez un WAF et des règles serveur pour bloquer le trafic indésirable.
Utilisez les logs et les re-audits pour vérifier ce qui se passe réellement.