Protection contre les mauvais bots
Emplacement : Étape 4, Protection contre les mauvais bots.
Cette étape active les listes curées de mauvais bots utilisées par Better Robots.txt. Ces bots font partie de la catégorie bots à faible valeur ou abusifs dans la taxonomie des bots Better Robots.txt : scrapers, collecteurs de contenu et crawlers qui génèrent du coût ou du bruit sans valeur pour le site.
Ce que cette étape contrôle
Deux contrôles :
- Enable Bad Bots Protection : active la liste de blocage curée.
- Use Full AI-Curated List : remplace la liste de base par une liste plus large, augmentée par IA, qui couvre davantage d’agents identifiés comme problématiques.
Quand activée, l’extension ajoute des directives Disallow explicites sous chaque user-agent bloqué.
Comment décider
Utilisez la liste de base si :
- le site est nouveau dans la gouvernance du crawl et veut un défaut prudent ;
- le trafic visible de mauvais bots est modéré, et le coût de faux-positifs compte.
Utilisez la liste complète curée par IA si :
- le site a déjà absorbé une pression significative de scraping ou d’extraction ;
- une couverture plus large prime sur le faible risque d’attraper un crawler légitime mais inhabituel ;
- l’opérateur veut la posture publique la plus stricte contre les bots à faible valeur.
Laissez désactivée seulement si :
- le site veut explicitement rester crawlable par tout le monde pour des raisons de recherche ou de transparence ;
- une couche WAF ou rate-limit distincte gère déjà l’abus.
Ce que cette étape ne fait pas
Cette étape :
- ne bloque pas les bots qui ignorent
robots.txt(et beaucoup de bots à faible valeur le font précisément) ; - n’authentifie pas la chaîne user-agent ;
- ne remplace pas un WAF, des ACL en bordure ou un rate-limit quand le vrai problème est un volume abusif de requêtes.
C’est l’un des moyens les plus directs de réduire le bruit crawler coopératif. Pour l’abus non coopératif, une couche d’infrastructure reste nécessaire.
Offre concernée
- Free : liste de base curée.
- Pro / Premium : la liste plus large, curée par IA.