Blog

More than 95% of WordPress sites are blocked! And you too…

This is the observation we arrived at after having completed more than a thousand website audits. And this problem mainly concerned sites using WordPress (although it could be observed on other CMS, less accessible).

In fact, the term “blocked” is a bit extreme because it is actually more of a recurring problem creating limitations in the capacity of the sites to fetch the maximum effectiveness of their content at the level of search engines (you will be able to do the test a little lower in the article).

And when we talk about a recurring problem, no need to throw the stone to WordPress. In fact, it is rather a systematic lack of configuration, generated either by ignorance or by forgetting a feature specific to each site web but whose impact is more than meaningful in the ability of a website to come out in search results. It is an optimization strategy for search engines (SEO).

Read this article: “How to optimize my robots.txt

So what is it about?

Concretely, this is a simple file, called the Robots.txt, located at the “root” of the site (hosting server), containing instructions for crawlers (search engines bots) specifying which pages or parts of the site, these may or may not index, and that happens to be the very first file read by the search engines when your site is loaded into a browser.

At this level, you probably say you’ve never heard of this file and, above all, you don’t understand why it can be fundamentally important. If that is the case, which would be more than normal, you do part of 95% (see title).

In order for you to understand what this is all about, you have to integrate the fact that the visibility of your website is strictly dependent on what the search engines will have understood from your content, to allow its visibility in SERPs. And, paradoxically, there is a common thought suggesting that because you have created a new page on your site or added a new product to your shop, it will necessarily appear in the search engine result pages (SERPs). Nothing is less wrong!

In fact, in order for your new content to appear in the search results, it must have been indexed by search engines. And to do this, even before any actual process of indexation, it is necessary first that these search engines are aware that there is actually new content available and that they have permission to read it!

We are very far from basic optimizations of tags, META data, content, etc. that you can read this and there on the Web, which can be done to perfection, but which would be absolutely useless if search engines were unable to read your pages!

That’s why, inside your website (in fact, of all websites), there is a file, the robots.txt, whose one and only mission is to communicate with search engines bots (crawlers).

And today, more than 95% of WordPress websites are in the situation where:

  • Either they do not have a Robots.txt
  • Either the Robots.txt is active in its most “basic” form and useless
  • Either the Robots.txt is incomplete (see below)
  • Either the Robots.txt prevents any form of content indexing by search engines (the worst situation).

So what does your Robots.txt look like?

Please copy-paste the URL of your website (with http: // or https: //)  into the field shown below, which will allow you to identify first if you have one, and if so, what is its content:

[robotschecker]

For comparison, here is ours: https://better-robots.com/robots.txt. Do you see the difference?

More than 95% of WordPress sites are blocked! And you too…

What is the purpose of Robots.txt?

As mentioned above, the robots.txt is probably the most important file on your website at the SEO level (Search engine Optimization) and its role is to:

  • Allow access to (or not) your Website to search engines (which is not nonsense)
  • Allow or prohibit access to certain parts of your website (in order to avoid the publication of sensitive internal information)
  • Inform about the presence of new “indexable” content (sitemap)
  • Define the crawling budget of search engine bots on your website (to avoid overloading your server)

Do you understand how important it is?

How to solve this problem?

To this question, there are 2 possible answers: either you are a little geek and you can optimize yourself your robots.txt file (be careful not to make the situation worse), or you can use the “Better Robots.txt ” plugin, developed by our team and allowing to make this optimization in a few clicks and in a safe way.

At first glance, you may feel like we’re going to get you to choose the second option. Perhaps this is true but it is especially for you to avoid complicating even more your situation and to get your current organic ranking even worst than it is. As we said, this file is very important because it communicates directly with search engines and you just need of a simple typo (mistake) to block all access to your content.

That’s why we designed two versions of this plugin.

  • A free (and limited) version, accessible and downloadable from your WordPress website allowing you to test the plugin and determine its efficiency (go to “Plugins”, then “Add new”, in the search bar, enter  “Better robots.txt”, click on “search”. Once found, click “Install”, then click “Active”. You will be directly redirected to the main page of the plugin in order to define your settings)

More than 95% of WordPress sites are blocked! And you too…

To find out how to optimize Better Robots.txt, read this article.

How did we get here?

It was both the experience and the daily practice that led us to wonder how we could solve this problem without having to connect to all the websites.

It turns out that PAGUP, the entity behind Better Robots.txt, is a SEO agency (CANADA) 100% specialized in “onPage” optimization for search engines. After having completed a very large number of SEO websites audits, we noticed the recurrence of this “sub-optimization” on most websites, even from traditional and popular agencies or companies of international renown.

However, it is within the framework of our optimization services that we have seen the almost immediate impact that could generate the optimum configuration of this file. It turns out that our optimization processes, initially dedicated to WordPress websites, consisted of two steps. The first part, more technical, at the beginning of the mandate, consisting of correct recurring technical errors (which included robots.txt and sitemap) and a second, a little later (2-3 weeks), strictly content-oriented. And it is by daily monitoring the organic ranking of these websites that we have observed that, in the vast majority of cases, some weeks after the first part of the mandate (and without touching the second stage, thus the content), these websites had acquired much more ranking (more occupied positions in the SERPs) with, for some, a 150% increase of keywords.

After more than 250 similar observations, under the same circumstances, we came to the conclusion that a well configured / optimized robots.txt could have a massive and significant impact on organic performance (SEO). And because, at the time, there was no solution available on WordPress allowing to simplify this optimization process for the largest number, we decided to create better Robots.txt.

 

Looking for performance ? Have a look on our list of 150+ Growth Hacking tools

 

Click to rate this post!
[Total: 1 Average: 5]

Plus de 95% des sites WordPress sont bloqués! Et vous aussi …

C’est le constat auquel nous sommes arrivés après avoir réalisé plus d’un millier d’audits de site web. Et cette problématique concernait essentiellement les sites utilisant WordPress (même si elle a pu être observée sur d’autres CMS, moins accessibles).

Dans les faits, le terme “bloqué” est un peu extrême puisqu’il s’agit en réalité davantage d’un problème récurrent créant des limitations dans la capacité des sites à aller chercher le maximum d’efficacité de leur contenu au niveau des moteurs de recherche (vous pourrez faire le test un peu plus bas dans l’article).

Et quand on parle d’un problème récurrent, nul besoin de jeter la pierre à WordPress. Dans les faits, c’est plutôt un manque systématique de configuration, généré soit par négligence soit par l’oubli, d’une fonctionnalité propre à chaque site Web mais dont l’impact, lui, est plus que significatif dans la capacité d’un site Web à sortir dans les résultats de recherche.

Nous parlons donc d’une stratégie d’optimisation pour les moteurs de recherche (SEO).

Voir cet article: “Comment optimiser mon robots.txt

Alors de quoi s’agit-il ?

Concrètement, il s’agit d’un simple fichier, appelé le Robots.txt, un fichier texte se trouvant à la “racine” du site (serveur d’hébergement), contenant des instructions à destination des robots d’indexation (des moteurs de recherche) précisant quelles pages ou parties du site, ceux-ci peuvent ou ne peuvent pas indexer, et qui se trouve être le tout premier fichier lu par les moteurs de recherche lorsque votre site est chargé dans un navigateur.

À ce niveau, vous vous dites probablement que vous n’avez jamais entendu parlé de ce fichier et, surtout, vous ne comprenez pas en quoi il peut être fondamentalement important. Si c’est le cas, ce qui serait plus que normal, vous faites partie des 95% (voir le titre).

Pour que vous compreniez bien de quoi il s’agit, il vous faut intégrer le fait que la visibilité de votre site Web est strictement dépendante de ce que les moteurs de recherche en auront compris, pour permettre son affichage dans les résultats de recherche (SERP). Et, assez paradoxalement, il y a une pensée commune laissant croire que parce vous avez créé une nouvelle page sur votre site ou ajouté un nouveau produit dans votre boutique, il/elle apparaîtra forcément dans les résultats de recherche. Rien n’est moins faux !

En fait, pour que votre nouveau contenu apparaisse dans les résultats de recherche, il faut qu’il ait été indexé par les moteurs de recherche. Et pour ce faire, avant même tout processus effectif d’indexation, il faut d’abord, que ces moteurs de recherche ait connaissance qu’il y a effectivement du nouveau contenu “indexable” disponible et ensuite, qu’ils aient l’autorisation de le lire!

On est bien loin des optimisations de titres, de balises, de META données et autres petits détails d’optimisation que vous pouvez lire ça et là sur le Web, qui peuvent être optimisées à la perfection, mais qui ne serviraient absolument à rien si les moteurs de recherche sont incapables de lire vos pages!

Voilà pourquoi, à l’intérieur de votre site (en fait, de tous les sites Web), il y a un fichier, le robots.txt, dont la seule et unique mission, c’est de communiquer avec les moteurs de recherche (les robots d’indexation).

Et aujourd’hui, plus de 95% des sites WordPress se trouvent dans la situation où:

  • Soit ils n’ont pas de Robots.txt
  • Soit le Robots.txt est présent sous sa forme la plus “basique” et inefficace
  • Soit le Robots.txt est incomplet (voir plus bas)
  • Soit le Robots.txt empêche toute forme d’indexation de votre site (la pire situation).

Alors, à quoi ressemble votre Robots.txt

Pour vérifier son contenu, il vous suffit de copier-coller l’URL de votre site Web (avec le http:// ou le https:// ) dans le champ indiqué ci-dessous, ce qui permettra d’identifier tout d’abord si vous en avez un, et si oui, quel est son contenu:

[robotschecker]

À titre de comparaison, voici le notre: https://better-robots.com/robots.txt. Voyez-vous la différence?

Plus de 95% des sites WordPress sont bloqués! Et vous aussi …

À quoi sert le Robots.txt ?

Comme mentionné plus haut, le robots.txt est probablement LE fichier le plus important sur votre site Web au niveau SEO (Search Engine Optimization – Optimisation pour les moteurs de recherche) et son rôle consiste à :

  • permettre l’accès ou pas de votre site web aux moteurs de recherche (ce qui n’est pas un non-sens)
  • autoriser ou interdire l’accès à certaines parties de votre site (afin d’éviter la publication d’information sensible sur le Web)
  • informer quant à la présence de nouveau contenu indexable (sitemap)
  • définir la vitesse d’exploration de votre site (pour éviter la surcharge de votre serveur)

Comprenez-vous à quel point il est important ?

Comment résoudre ce problème ?

À cette question, il existe 2 réponses possibles: soit vous êtes un peu geek et vous pouvez faire les modifications vous-même dans le robots.txt (faites attention de ne pas empirer la situation), soit vous pouvez utiliser le plugin “Better Robots.txt“, développé par nos soins et permettant de réaliser cette optimisation en quelques clics et de manière sécuritaire.

À première vue, vous pouvez avoir l’impression que nous vous influençons pour choisir la seconde option. C’est peut-être vrai mais c’est surtout pour vous éviter de compliquer encore plus votre situation et de mettre à mal votre référencement organique actuel. Nous l’avons dit, ce fichier est très important, parce qu’il communique directement avec les moteurs de recherche mais il suffit d’une simple erreur de frappe pour bloquer tout l’accès à votre contenu.

Voilà pourquoi nous avons conçu deux versions de ce plugin.

  • Une version gratuite (et limitée), accessible et téléchargeable depuis votre site Web WordPress vous permettant de tester le plugin et d’en déterminer l’efficacité (allez dans Extensions/Plugins, puis Ajouter/Add new, dans la barre de recherche, identifiez “Better robots.txt“, cliquez sur “recherche”. Une fois trouvé, cliquez sur Installer/Install, puis sur “Activer/Active“. Vous serez directement redirigé vers la page principale du plugin pour le configurer selon vos besoins)

Plus de 95% des sites WordPress sont bloqués! Et vous aussi …

  • Une version premium (payante : 35$) accessible seulement depuis le site: https://better-robots.com, vous permettant d’accéder à toutes les fonctionnalités d’optimisation (Bad Bot blocker, intégration de la Sitemap, etc.).

Pour savoir comment configurer Better Robots.txt, lire cet article.

Comment en sommes-nous arrivés là ?

C’est à la fois l’expérience et la pratique quotidienne qui nous ont amenés à nous demander comment nous pouvions résoudre ce problème sans pour autant avoir à nous connecter sur tous les sites web.

Il se trouve que PAGUP, l’entité en arrière de Better Robots.txt, est une Agence SEO (Canada) 100% spécialisée dans les processus d’optimisation pour les moteurs de recherche de type “onPage” (donc à l’intérieur du site). Après avoir réalisé un très grand nombre d’audits SEO de sites Web, nous avons remarqué la récurrence de cette “sous-optimisation” pratiquement sur la totalité des sites que nous analysions et ce, même auprès d’agences traditionnelles ayant pignon sur rue ou d’entreprises canadiennes ou nord-américaines de renommée internationale.

Toutefois, c’est dans le cadre même de nos services d’optimisation que nous avons constaté l’impact presqu’immédiat que pouvait générer la configuration optimale de ce fichier. Il se trouve que nos processus d’optimisation, initialement dédiés aux sites WordPress, se composaient de deux étapes. Une première partie, plus technique, dès le début du mandat, consistant à corriger essentiellement les erreurs techniques récurrentes (dont faisait partie le robots.txt et la sitemap) et une seconde, un peu plus tard (2 à 3 semaines), strictement orientée sur le contenu. Et c’est en monitorant quotidiennement le référencement organique de ces sites Web que nous avons observé que, dans la très grande majorité des cas, quelque semaines après la première partie du mandat (et sans toucher à la seconde étape, donc au contenu), les sites avaient tendance à aller chercher beaucoup plus de référencement (de positions occupées dans les SERPs) avec, pour certains, jusqu’à 150% de mots-clés en plus.

Après plus de 250 observations similaires, dans des circonstances identiques, nous en avons déduis à quel point un robots.txt bien configuré/optimisé pouvait avoir un impact significatif en matière de performance organique (SEO). Et parce que, à l’époque, il n’existait aucune solution disponible sur WordPress permettant d’automatiser ou de simplifier ce processus d’optimisation pour le plus grand nombre, nous avons décidé de créer Better Robots.txt.

 

Vous voulez savoir quels plugins (55) nous avons utilisé pour créer ce site web? Cliquez ici

Click to rate this post!
[Total: 0 Average: 0]