Blog

Comment installer et optimiser le plugin Better Robots.txt?

Vous venez d’acquérir Better Robots.txt PRO et vous vous demandez comment l’utiliser pour en profiter au maximum… Vous faites bien. Et cet article est là pour ça !

La première chose consiste à faire une installation en bonne et due forme.

Voici comment l’installer sur votre site Web WordPress:

 

Une configuration optimale de Better Robots.txt peut se faire en 4 ou 5 étapes, tout dépendant de votre niveau de connaissance du Robots.txt. Toutefois, avant même de faire votre configuration, il vous faut prendre conscience d’une chose: Better Robots.txt va créer un fichier robots.txt virtuel sur votre site (au cas où vous n’en avez pas). Si vous avez des questions à ce sujet, pensez à consulter notre FAQ.

Première étape: instructions pour les moteurs de recherche

La première tâche est simple. Il s’agit d’identifier pour quel moteur de recherche vous souhaitez obtenir une indexation de votre site Web. Il peut paraître paradoxal que ce type de requête se fasse via un fichier présent sur votre site. Toutefois, si, de mémoire, vous n’avez fait aucun listing auprès de moteurs de recherche (comme Google Search Console, Bing, etc.), le fait d’autoriser les moteurs de recherche à indexer votre contenu est une bonne chose à faire. Peut-être que ces derniers l’ont déjà fait, difficile à dire (sauf en vérifiant sur ces moteurs de recherche).

Dans ce cas ici, par défaut, ces moteurs de recherche suivront la règle de base suivante:

… Qui est vraiment la base d’instructions la plus standard pour un Robots.txt. En identifiant les moteurs de recherche qui vous concerne, vous aurez au moins l’assurance que votre site sera indexé par ces moteurs de recherche. Voici les instructions qui se rajouteront à votre Robots.txt selon les choix que vous aurez faits:

Deuxième étape: l’intégration de la sitemap

À cette étape, il peut se produire 3 scénarios.

  • Soit, vous utilisez d’ores et déjà le plugin YOAST SEO et vous avez bel et bien activé la fonctionnalité de sitemap. Dans ce cas, vous n’aurez rien à faire. En fait, si vous voyez très exactement le message affiché dans l’image ci-dessus (en vert), Better robots.txt aura déjà fait le travail pour vous. Concrètement, il aura détecté votre index de sitemap (contenant toutes les sitemaps) et aura rajouté son URL en première ligne du Robots.txt. Comme ceci:

  • Soit vous utilisez plugin YOAST SEO mais vous n’avez pas activé la fonctionnalité Sitemap. Dans ce cas-ci, vous verrez un message vous informant de l’activer en allant dans YOAST SEO > General (réglages généraux) > Features (fonctionnalités). Une fois fait, retournez dans les “settings” de Better Robots, et vous verrez alors le même message quand dans l’image ci-dessus. Better Robots.txt aura détecté votre index de Sitemap et l’aura rajouté dans le Robots.txt (voir ici pour YOAST):

  • Soit, pour certaines raisons qui vous regardent strictement, vous n’utilisez pas le plugin YOAST SEO, et vous faites usage de toute autre plugin pour générer vos sitemaps. Dans ce cas, il vous suffira simplement d’identifier l’URL de votre sitemap et de la copier-coller dans le champ sitemap du plugin Better Robots.txt. Après sauvegarde, le plugin l’ajoutera directement dans le robots.txt.

 Troisième étape: bloquer les “mauvais” robots (scrapers)

Better Robots.txt a identifié près d’une trentaine de robots considérés comme malveillant parce que copiant et republiant (ou autre) votre contenu illégalement. Ces robots sont connus pour être des “scrapers” et de nos jours, il est plus que conseillé de s’en protéger. Better robots.txt puise directement ses informations à partir d’une entité, dont la réputation n’est plus à faire dans le milieu, connue pour analyser et identifier l’ensemble des robots actifs sur le Web (Distill Network). En activant simplement le bouton “Bad bot blocker”, Better robots.txt injectera des instructions précises dans le robots.txt empêchant ces robots de lire le contenu du site.

Voici une partie des éléments qui seront ajoutés dans le robots.txt :

Avec le temps et les prochaines versions (inscrivez-vous aux mises à jour), Better robots.txt fournira une liste toujours plus détaillée de ces robots malveillants afin de vous offrir une protection optimale contre toute forme de “scrapping”. Si vous souhaitez en savoir plus à propos de ces robots malveillants, rendez-vous sur le FAQ de notre plugin où vous trouverez une liste détaillée de chacun d’entre eux ainsi qu’un lien renvoyant vers une page explicative.

Quatrième étape: définir un crawl-delay

Par définition, la plupart des robots disposent de leurs propres règles d’indexation pour analyser et lire le contenu de votre site web (budget d’indexation), comme Google par exemple (le Crawl-delay n’était pas une fonction reconnue et suivie par les robots d’indexation de Google). Toutefois, ce n’est pas le cas pour la majorité d’entre eux. Définir un “crawl delay” général permettra dans certaines circonstances d’éviter la surcharge de vos serveurs (surtout les moins performants) par une indexation abusive de certains robots. Par défaut, nous vous recommandons la valeur “5”.

Cinquième étape: les règles personnalisées, pour les connaisseurs.

Arrivé à cette étape, si vous n’êtes pas très à l’aise avec le code en général et le contenu du robots.txt, n’allez pas plus loin. Il s’agit de personnaliser votre robots.txt en intégrant des règles plus spécifiques. Pourquoi est-ce risqué ? Tout simplement parce que le robots.txt est le seul fichier de votre site qui parle directement aux robots d’indexation. La moindre erreur, ici, à ce niveau, peut causer des résultats dramatiques et détruire votre référencement.

Toutefois, si vous êtes confortable avec le robots.txt, compte tenu que chaque site web est unique, il se peut que vous vouliez intégrer des règles supplémentaires pour éviter, au besoin, que certaines parties de votre site ne soient indexées par les moteurs de recherche. Pour ce faire, il vous suffit simplement de passer par l’éditeur créé à cet effet:

Conclusion

Après avoir terminé de configurer le plugin Better Robots.txt, nous vous conseillons de vider la « cache » de votre site Web, pour vous permettre constater directement les modifications faites dans le contenu du robots.txt. Pour y accéder, il vous suffit d’aller sur votre site Web, “https://monsite.com” et d’ajouter “/robots.txt” après l’URL, comme ceci: “https://monsite.com/robots.txt” et vous serez redirigé vers la page en question.

Ou encore d’utiliser notre outil de diagnostic :

[robotschecker]

Bon succès !

Click to rate this post!
[Total: 2 Average: 5]

How to install & optimize Better Robots.txt plugin ?

You have just acquired Better Robots.txt PRO and you are probably wondering how to use it to get the most out of it… You have done well. And that is why this article is here for you!

The first thing is to do a proper installation..

Here is how to install it on your WordPress website;

An optimal configuration of Better Robots.txt can be done in 4 or 5 steps, depending on your level of knowledge of the Robots.txt file. However, before you even do your configuration, you need to become aware of one thing: Better Robots.txt will create a virtual robots.txt file on your site (in case you do not have one). If you have any questions about this, please check our FAQ.

First step: Instructions for search engines

How to install & optimize Better Robots.txt plugin ?

The first task is simple. This is to identify for which search engine you want your website to get crawled. It may seem paradoxical that this type of query is done via a file present on your site. However, if, you have not done any listings with search engines (like Google search Console, Bing, etc.), allowing search engines to index your content will be a good thing to do.

In this case, by default, these search engines will follow the following basic rule:

… Which is really the most standard instruction base for a Robots.txt. By identifying the search engines that concern you, you will at least have the assurance that your site will be indexed by these search engines. Here are the instructions that will be added to your Robots.txt according to the choices you will have made:

Step two: your Sitemap index

At this stage, there can be 3 scenarios.

  • Either, you are already using the YOAST SEO plugin and you have indeed activated the Sitemap feature. In that case, you will have nothing to do. In fact, if you see exactly the message displayed in the image above (in green), Better robots.txt will have already done the job for you. Specifically, it will have detected your Sitemap index (containing all sitemaps) and will have added its URL to the first line of Robots.txt. like this:

  • Either you use YOAST SEO plugin but that you did not enable the Sitemap feature. In this case, you will see a message informing you to activate it by going to YOAST SEO > General settings > Features. Once done, go back to the “settings” page of Better Robots and you will then see the same message on the image above. Better robots.txt will have detected your Sitemap index and will have added it in the robots.txt (check here for YOAST)

  • OR, for some reasons that strictly concern you, you do not use YOAST SEO plugin, and you make use of any other plugin to generate your sitemaps. In this case, you simply need to identify the URL of your Sitemap, copy and paste it in the field “sitemap” of Better Robots.txt plugin. After saving, it will be added directly to the robots.txt.

Third step: block “bad” robots (scrapers)

Better Robots.txt has identified nearly thirty robots considered malicious because they copy and republish  your content illegally. These robots are known to be scrapers and nowadays it is more than advisable to protect yourself from them. Better robots.txt draws its information directly from an entity, whose reputation is well-known in the industry, known for analyzing and identifying all robots active on Web (Distill Network). By simply activating the “Bad bot blocker” button, Better robots.txt will inject precise instructions into the robots.txt file preventing these robots from reading the site’s content.

Here are some code ligns that will be added in the robots.txt file:

With time and future releases (sign up for updates), Better robots.txt will provide an ever more detailed list of these malicious robots to offer you optimal protection against any form of scrapping. If you want to know more about these malicious robots, go to the FAQ section of our plugin where you will find a detailed list of each of them and links to explanatory pages.

Step Four: Set a crawl-delay

By definition, most robots have their own indexing rules to analyze and read the content of your website (Crawl budget), as Google for example (the Crawl-delay is not a function recognized and followed by Google’s indexing robots). However, this is not the case for the majority of them. Defining a general “Crawl-delay” will allow in certain circumstances to avoid overloading your servers (especially the less efficient) by some abusive robots. By default, we recommend to set the value “5”.

Fifth step: personalized rules, for PROs.

At this stage, if you are not very comfortable with the code in general and the content of the robots.txt file, do not go any further. It’s about customizing your robots.txt by integrating more specific rules. Why is it risky? Simply because the robots.txt is the only file on your site that speaks directly to indexing robots. The slightest error, here, at this level, can cause dramatic results and destroy your ranking on search engines.

However, if you are comfortable with the robots.txt, given that each website is unique, you may want to incorporate additional rules to avoid, if necessary, parts of your site being indexed by search engines. To do so, simply use the editor created for this purpose:

Conclusion

After you have finished configuring the Better robots.txt plugin, we advise you to clear the “cache” of your Website, to allow you to see directly all changes made in the contents of robots. txt. To access it, you just have to go to your website, “https://monsite.com” and to add “/robots.txt” after the URL, like this: “https://mysite.com/robots.txt” and you will be redirected to the page in question.

 

Looking for performance ? Have a look on our list of 150+ Growth Hacking tools

Please note that Lifetime users/plans get a free listing on Baidu Webmaster Tools.

Did you try all
our WordPress plugins ?

BIALTY Bulk Image Alt Text (Alt tag, Alt attribute) for Google Images

BETTER ROBOTS.TXT Boost your ranking on search engines with an optimized robots.txt

MOBILOOK Get Dynamic/Instant Mobile Previews of your Websites

Click to rate this post!
[Total: 1 Average: 5]