Blog

Protégez vos données et bloquez les robots malveillants

Le saviez-vous ?

Près de 50% du trafic mondial, sur le Web, n’est pas humain ! Ce sont des essentiellement des robots qui visitent votre site Web quand ce n’est pas du faux trafic. Donc, en moyenne, une visite sur 2 sur votre site n’a absolument rien d’humain.

Mais de quoi s’agit-il ?

D’après une étude récente, réalisée par Incapsula, une part toujours importante du trafic sur le Web (48,2%) est générée par des robots de tous types (des milliers de robots), on parle ici de “crawlers”, de bots de monitoring, de robots commerciaux, de scrapers, de trojans, … ayant chacun un rôle bien précis.

En fait, il y a deux catégories de robots:

  • Les positifs (“les bons”)
  • Les négatifs (“les mauvais”)

Concernant les positifs: ce sont essentiellement des moteurs de recherche (comme Google, Bing, …) qui lisent votre contenu (en suivant vos liens) afin de comprendre l’information et de la corréler avec la recherche organique. Il y a également les “flux mobiles”, des bots qui transfèrent le contenu des sites web vers le mobile ou les apps web. Il peut aussi s’agir de robots d’analyse, qui scrute le code de votre site afin d’en extraire des informations à des fins d’études (performance), ou de robots commerciaux qui analysent du contenu, des images, du texte ou des prix à des fins de comparaisons (ex: un comparateur de produits & services).

Better Robots, Better Robots.txt
From https://www.incapsula.com/blog/bot-traffic-report-2016.html

À ce titre, vous ne le savez peut-être pas, mais si vous avez une boutique en ligne, avec des milliers de produits, et que vous avez une certaine popularité, il est probable que celle-ci soit fréquemment “analysée” par des robots autres que Google ou Bing, afin de récupérer vos informations, les noms & prix de vos produits, à des fins de comparaison ou d’ajustement par de grandes enseignes comme Amazon (ou même un compétiteur). L’idée ici étant d’obtenir très rapidement une grande quantité d’information concernant vos produits (plutôt que de le faire manuellement, page par page) et de permettre la mise en place de stratégies Marketing adaptées (sur base de votre nouvelle offre de produits) ou d’une politique de prix plus agressive.

À ce niveau, malgré tout ce qu’on peut penser de cette dernière pratique, les robots à l’origine de ces manœuvres, ne sont pas considérés comme mauvais, car fondamentalement, ils ne font que analyser et extraire les informations (sans pour autant les republier) de votre site en suivant certaines règles d’éthique minimales.

Concernant les négatifs: il s’agit ici essentiellement de “scrapers”, des robots destinés à extraire vos informations et vos données afin de les republier sur un autre site (sans votre autorisation) ou encore de robots, de type “Impersonators” utilisant/simulant de fausses identités afin de bypasser la sécurité de sites web. Il y a aussi les “Spammers” qui injectent des liens spammés dans des forums, des articles, des reviews afin de créer artificiellement des backlinks. Et finalement, les “scavengers” qui auditent les sites afin d’identifier les failles de sécurité et les exploiter.

Ce qu’il faut savoir, c’est que, en moyenne, 95% des sites web ont d’ores et déjà subis une “attaque” de robots.

Alors que faire avec ces informations ?

Se protéger, oui, mais sans pour autant devenir paranoïaque ! À l’heure actuelle, il est pratiquement impossible de se protéger de tous les robots malveillants arpentant le Web quotidiennement. Même les plus grands opérateurs Web de ce monde, en dépit d’un niveau accru de protection, sont victimes d’attaques, de copies et autres méfaits.

L’idée, ici, est donc d’en prendre conscience et de commencer quelque part. Voilà pourquoi, Better Robots.txt, vous propose une fonctionnalité avancée de protection de vos données en bloquant une sélection de robots malveillant (essentiellement des scrapers) parmi les plus populaires, notamment:

Better Robots.txt se base sur les résultats des analyses de Distill Networks, afin de se tenir à jour sa base de données ainsi que son plugin pour vous permettre un premier niveau de protection contre la copie et la surcharge de vos serveurs.


Alors, à quoi ressemble votre Robots.txt

Pour vérifier son contenu, il vous suffit de copier-coller l’URL de votre site Web (avec le http:// ou le le https:// ) dans le champs indiqué ci-dessous, ce qui permettra d’identifier tout d’abord si vous en avez un, et si oui, quel est son contenu:

[robotschecker]

À titre de comparaison, voici le notre: https://better-robots.com/robots.txt. Voyez-vous la différence?

Click to rate this post!
[Total: 1 Average: 5]