Blog

Protégez vos données et bloquez les robots malveillants

Le saviez-vous ?

Près de 50% du trafic mondial, sur le Web, n’est pas humain ! Ce sont des essentiellement des robots qui visitent votre site Web quand ce n’est pas du faux trafic. Donc, en moyenne, une visite sur 2 sur votre site n’a absolument rien d’humain.

Mais de quoi s’agit-il ?

D’après une étude récente, réalisée par Incapsula, une part toujours importante du trafic sur le Web (48,2%) est générée par des robots de tous types (des milliers de robots), on parle ici de “crawlers”, de bots de monitoring, de robots commerciaux, de scrapers, de trojans, … ayant chacun un rôle bien précis.

En fait, il y a deux catégories de robots:

  • Les positifs (“les bons”)
  • Les négatifs (“les mauvais”)

Concernant les positifs: ce sont essentiellement des moteurs de recherche (comme Google, Bing, …) qui lisent votre contenu (en suivant vos liens) afin de comprendre l’information et de la corréler avec la recherche organique. Il y a également les “flux mobiles”, des bots qui transfèrent le contenu des sites web vers le mobile ou les apps web. Il peut aussi s’agir de robots d’analyse, qui scrute le code de votre site afin d’en extraire des informations à des fins d’études (performance), ou de robots commerciaux qui analysent du contenu, des images, du texte ou des prix à des fins de comparaisons (ex: un comparateur de produits & services).

Protégez vos données et bloquez les robots malveillants
From https://www.incapsula.com/blog/bot-traffic-report-2016.html

À ce titre, vous ne le savez peut-être pas, mais si vous avez une boutique en ligne, avec des milliers de produits, et que vous avez une certaine popularité, il est probable que celle-ci soit fréquemment “analysée” par des robots autres que Google ou Bing, afin de récupérer vos informations, les noms & prix de vos produits, à des fins de comparaison ou d’ajustement par de grandes enseignes comme Amazon (ou même un compétiteur). L’idée ici étant d’obtenir très rapidement une grande quantité d’information concernant vos produits (plutôt que de le faire manuellement, page par page) et de permettre la mise en place de stratégies Marketing adaptées (sur base de votre nouvelle offre de produits) ou d’une politique de prix plus agressive.

À ce niveau, malgré tout ce qu’on peut penser de cette dernière pratique, les robots à l’origine de ces manœuvres, ne sont pas considérés comme mauvais, car fondamentalement, ils ne font que analyser et extraire les informations (sans pour autant les republier) de votre site en suivant certaines règles d’éthique minimales.

Concernant les négatifs: il s’agit ici essentiellement de “scrapers”, des robots destinés à extraire vos informations et vos données afin de les republier sur un autre site (sans votre autorisation) ou encore de robots, de type “Impersonators” utilisant/simulant de fausses identités afin de bypasser la sécurité de sites web. Il y a aussi les “Spammers” qui injectent des liens spammés dans des forums, des articles, des reviews afin de créer artificiellement des backlinks. Et finalement, les “scavengers” qui auditent les sites afin d’identifier les failles de sécurité et les exploiter.

Ce qu’il faut savoir, c’est que, en moyenne, 95% des sites web ont d’ores et déjà subis une “attaque” de robots.

Alors que faire avec ces informations ?

Se protéger, oui, mais sans pour autant devenir paranoïaque ! À l’heure actuelle, il est pratiquement impossible de se protéger de tous les robots malveillants arpentant le Web quotidiennement. Même les plus grands opérateurs Web de ce monde, en dépit d’un niveau accru de protection, sont victimes d’attaques, de copies et autres méfaits.

L’idée, ici, est donc d’en prendre conscience et de commencer quelque part. Voilà pourquoi, Better Robots.txt, vous propose une fonctionnalité avancée de protection de vos données en bloquant une sélection de robots malveillant (essentiellement des scrapers) parmi les plus populaires, notamment:

Better Robots.txt se base sur les résultats des analyses de Distill Networks, afin de se tenir à jour sa base de données ainsi que son plugin pour vous permettre un premier niveau de protection contre la copie et la surcharge de vos serveurs.


Alors, à quoi ressemble votre Robots.txt

Pour vérifier son contenu, il vous suffit de copier-coller l’URL de votre site Web (avec le http:// ou le le https:// ) dans le champs indiqué ci-dessous, ce qui permettra d’identifier tout d’abord si vous en avez un, et si oui, quel est son contenu:

[robotschecker]

À titre de comparaison, voici le notre: https://better-robots.com/robots.txt. Voyez-vous la différence?

Click to rate this post!
[Total: 1 Average: 5]

Protect your data and block malicious robots

Did you know?

Almost 50% of world traffic, on the Web, is not human! These are essentially robots that visit your website when it’s not fake trafic. So on average, a visit to 2 on your website has absolutely nothing human.

But what is it?

According to a recent study, carried out by Incapsula, an ever-important part of the Web traffic (48.2%) is generated by robots of all types (thousands of robots), we’re talking about crawlers, monitoring bots, commercial robots, Scrapers, Trojans,… each having a very specific role.

In fact, there are two categories of robots:

  • the positives (“the good ones”)
  • the negatives (“the bad ones”)

Regarding the positive: these are essentially search engines (like Google, Bing,…) that read your content (following your links) in order to understand the information and correlate it with organic research. There are also “mobile UX”, bots that transfer content from websites to mobile or web apps. It can also be crawling robots, which scans the code of your site to extract information for study purposes (performance), or commercial robots that analyze content, images, text, or prices for comparison purposes.

Protect your data and block malicious robots
From https://www.incapsula.com/blog/bot-traffic-report-2016.html

As such, you may not know it, but if you have an online store, with thousands of products, and you have a certain popularity, it is likely that it is frequent “analyzed” by robots other than Google or Bing, to retrieve your information, the names & prices of your products, for comparison or adjustment purposes by big brands like Amazon (or even a competitor). The idea here is to obtain very quickly a great amount of information about your products on a frequently basis (rather than doing it manually, page by page) in order to allow the implementation of adapted Marketing strategies (based on your new product offer) or a more aggressive pricing policy.

At this level, despite all that one can think of this last practice, the robots at the origin of these maneuvers, are not considered bad, because basically they only analyze and extract the information (without to republish them) of your site by following certain minimum ethical rules.

Concerning the negatives: this is essentially about “scrapers”, robots intended to extract your information and your data to republish on another website (without your permission) or robots, such as “Impersonators” using / simulating fake identities to bypass the security of websites. There are also “Spammers” who inject spam links in forums, articles, reviews to create backlinks. And finally, “Scavengers” who audit sites to identify security vulnerabilities and exploit them.

What you need to know is that, on average, 95% of Web sites have already undergone an “attack” of robots.

So what do we do with this information?

Protect yourself, yes, but without becoming paranoid! At the present time, it is virtually impossible to be protected from all the malicious robots roaming the Web daily. Even the largest Web operators of this world, despite an increased level of protection, are being attacked, copied and otherwise harmed. The idea here is to become aware of this and start somewhere. That’s why Better Robots.txt offers you an advanced feature to protect your data by blocking a selection of malicious robots (essentially scrapers) among the most popular:

Better Robots.txt is based on Distill Networks analysis results in order to keep its database up-to-date as well as its plugin to allow you a first level of protection against some of them (30).


So what does your Robots.txt look like?

Please copy and paste the URL of your website (with http:// or https://) into the fields indicated below, which will first identify if you have one, and if so, what its content is:

[robotschecker]

Did you try all
our WordPress plugins ?

Better Robots

BIALTY Bulk Image Alt Text (Alt tag, Alt attribute) for Google Images

Better Robots

BETTER ROBOTS.TXT Boost your ranking on search engines with an optimized robots.txt

Better Robots

MOBILOOK Get Dynamic/Instant Mobile Previews of your Websites

Click to rate this post!
[Total: 1 Average: 5]