Bloquer l’entraînement IA sans bloquer la recherche IA

Beaucoup de propriétaires de sites disent vouloir « bloquer l’IA ». En réalité, ils veulent souvent restreindre l’entraînement tout en conservant la visibilité dans Google, Bing, ChatGPT Search, Claude Search ou Perplexity.

Cette posture demande de la précision.

Mauvais raccourci

txt

User-agent: *
Disallow: /

Cette règle bloque tout pour les crawlers qui respectent robots.txt. Elle peut convenir à un site privé, mais elle est généralement trop brutale pour un site public.

Meilleure logique

txt

# Conserver la visibilité en recherche IA si souhaité
User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

# Restreindre les crawlers d’entraînement documentés si souhaité
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: AI2Bot
Disallow: /

Cet exemple sépare la recherche IA de l’entraînement. Il ne s’agit pas d’une recette universelle, mais d’un modèle de décision.

Chaque user-agent restreint ci-dessus est un crawler d’entraînement documenté de la catégorie training_crawlers_or_tokens, tandis que les autorisés sont des crawlers de recherche ou de réponse. Cette correspondance, avec la source de chaque fournisseur, se trouve dans la taxonomie des bots et le registre machine /bot-registry.json. Le plugin l’expose comme les contrôles entraînement IA, recherche et découverte IA, et accès déclenché par l’utilisateur.

Étapes

Décider si la visibilité IA est souhaitée.
Identifier les crawlers de recherche et d’entraînement documentés.
Préserver Googlebot et Bingbot si le site est public.
Restreindre les crawlers d’entraînement concernés.
Publier une politique et un llms.txt cohérents.
Re-scanner après publication.

Limite

Si le contenu est confidentiel, robots.txt ne suffit pas. Il faut de l’authentification, des règles serveur, un WAF ou des contrôles d’accès réels.

Liste de vérification d’implémentation

Utilisez l’audit comme une séquence de correction, pas seulement comme un score.

Confirmer l’origine auditée : protocole, domaine et sous-domaine doivent correspondre au site réel.
Préserver l’accès Search sauf si le site est volontairement privé.
Décider si l’objectif est la visibilité IA, la restriction de l’entraînement, une posture éditoriale conservatrice ou une fermeture stricte.
Configurer les familles de crawlers par finalité, pas par réaction globale.
Publier une politique seulement si elle reste cohérente avec les règles actives.
Relancer le scan après publication, car WordPress, les extensions, le cache, le serveur ou l’edge peuvent modifier la sortie réelle.

Vérification manuelle

Un reviewer technique peut vérifier les surfaces suivantes :

txt

/robots.txt
/llms.txt
/ai-manifest.json
/.well-known/ai-governance.json
/.well-known/llm-policy.json

La question n’est pas seulement de savoir si les fichiers existent. Il faut vérifier s’ils racontent la même chose. Une règle robots.txt restrictive, un llms.txt permissif et une politique IA contradictoire produisent une gouvernance faible, même si chaque URL répond correctement.

Chemin de correction WordPress

Si le site est WordPress, la suite logique est une configuration dans Better Robots.txt : choisir un preset, ajuster les familles de crawlers, prévisualiser, publier, puis relancer l’audit externe. C’est ce qui transforme le scan en preuve d’amélioration.

Bloquer l’entraînement IA sans bloquer la recherche IA ​

Mauvais raccourci ​

Meilleure logique ​

Étapes ​

Limite ​

Liste de vérification d’implémentation ​

Vérification manuelle ​

Chemin de correction WordPress ​

Pages reliées ​