Blog

Ottimizzazione Robots.txt su WordPress (Better Robots.txt)

Ottimizzazione Robots.txt su WordPress (+ Multisito) – Traffico del Sito Web, Posizionamento & SEO Booster + Woocommerce

Better Robots.txt crea un file virtuale robots.txt per il tuo sito WordPress, aiutandoti a migliorare l’SEO del tuo sito web (capacità di indicizzazione, posizionamento su Google, ecc.) e la tua performance di caricamento–Compatibile con Yoast SEO, Google Merchant, WooCommerce, e siti con rete basata su directory comune (MULTISITO)

Grazie a Better Robots.txt puoi identificare quali motori di ricerca possano scansionare o meno il tuo sito web, permettendoti di specificare chiare istruzioni su come posticipare richieste di scansione troppo aggressive, proteggendo il tuo server di web hosting da carichi eccessivi. Better Robots.txt ti permette di avere il controllo completo sul contenuto dei tuoi file Robots.txt per WordPress grazie ai riquadri di personalizzazione.

Riduci l’impronta ecologica del tuo sito e le emissioni di gas (CO2) relative all’esistenza dell’infrastruttura necessaria per mantenerlo.

Robots.txt

SUPPORTATO IN 7 LINGUE

I plugin Better Robots.txt sono tradotti e disponibili in: Cinese – 汉语/漢語, Inglese – English, Francese – Français, Russo – Руссɤɢɣ, Portoghese – Português, Spagnolo – Español, Tedesco – Deutsch

Lo sapevi che…

  • txt è un semplice file di testo che viene collocato sul tuo web server per far sapere agli web crawler come Googlebot se accedere o meno a un file.
  • Il file robots.txt controlla la maniera in cui gli spider dei motori di ricerca vedono e interagiscono con le tue pagine web;
  • Questo file e i bot con cui interagisce sono parti fondamentali del funzionamento di tutti i motori di ricerca;
  • La prima cosa in assoluto che viene controllata dai motori di ricerca nel momento in cui questi visitano una pagina è proprio il file robots.txt;

Il file robots.txt è una fonte di “juice” (succo) SEO non ancora sfruttato. Prova Robots.txt!

Riguardo la versione Pro (funzionalità aggiuntive):

  1. Spingi il tuo contenuto più in su nei motori di ricerca tramite la tua sitemap (mappa del sito)!

Fai in modo che le tue pagine, i tuoi articoli e i tuoi prodotti (anche i più recenti) siano presi in considerazione dai motori di ricerca!

Il plugin Better Robots.txt è stato realizzato per lavorare in concomitanza con il plugin Yoast SEO (molto probabilmente il miglior plugin SEO per siti WordPress). Questo plugin individuerà immediatamente l’installazione sia di Yoast SEO che della funzionalità sitemap. Nel caso in cui quest’ultima sia attivata, il plugin inserirà automaticamente delle istruzioni aggiuntive nel file Robots.txt, chiedendo ai bot/crawler di leggere la tua sitemap e ricontrollare i cambiamenti più recenti del tuo sito web (così che i motori di ricerca possano scansionare il nuovo contenuto del tuo sito, se disponibile).

Nel caso tu voglia creare la tua sitemap (o se stai usando un altro plugin SEO), allora dovrai copia-incollare l’URL della stessa, permettendo a Better Robots.txt di aggiungerla al file Robots.txt di WordPress.

  1. Proteggi i tuoi dati e i tuoi contenuti

Impedisci ai bot poco raccomandabili di scansionare il tuo sito web e commercializzare i tuoi dati.

Il plugin Better Robots.txt ti aiuta a bloccare i peggiori bot presenti sul mercato, impossibilitando la scansione o la raccolta dei tuoi dati.

Quando si tratta di scansionare il tuo sito, esistono sia bot “buoni” che bot “cattivi”. I bot buoni, come Googlebot, scansionano il tuo sito per indicizzarlo e renderlo pubblico sui motori di ricerca. Altri bot scansionano il tuo sito per ragioni più nefaste quali plagiare il tuo contenuto (testo, prezzi, ecc.) e pubblicarlo nuovamente o scaricare interi archivi del tuo sito, estraendo le immagini ivi contenute. Alcuni bot addirittura sono stati segnalati per aver tirato giù interi siti web dato l’uso eccessivo di banda larga.

Il plugin Better Robots.txt protegge il tuo sito web da spider/scraper identificati come cattivi da Distil Networks.

  1. Nascondi & proteggi i tuoi backlink

Non lasciare che i concorrenti identifichino i tuoi backlink più redditizi.

I backlink vengono chiamati anche “link inbound” o “link in entrata.” Questi vengono creati nel momento in cui un altro sito web decide di collegarsi al tuo. Il link ad un sito esterno viene chiamato backlink. I backlink sono molto importanti dal punto di vista SEO perché rappresentano una specie di “voto di fiducia” da parte di altri siti. In pratica, avere backlink che ridirigano al proprio sito aiuta i motori di ricerca a capire se agli altri piaccia il tuo contenuto.

Se molti siti si collegano alla stessa pagina o allo stesso sito web, i motori di ricerca intuiscono che valga la pena spingere quel contenuto più in alto nelle pagine di ricerca. Proprio per questo, guadagnarsi dei backlink genera un effetto positivo sul posizionamento del sito e sulla visibilità generale del sito web. Nel settore dell’SEM, è molto comune che gli specialisti cerchino di identificare da dove arrivino questi backlink (concorrenza) per creare un elenco dei migliori in assoluto e generare a loro volta backlink utili per i propri clienti.

Considerando che la creazione di backlink redditizi per una compagnia richiede molto tempo (tempo + energia + budget), permettere ai tuoi concorrenti di identificare i tuoi backlink così facilmente è una vera e propria perdita in termini di efficienza.

Better Robots.txt ti aiuta a bloccare tutti i crawler SEO (Ahrefs, Majestic, SEMRush) per rendere i tuoi backlink impossibili da tracciare.

  1. Evita Backlink di Spam

Se hai una sezione di commenti sul tuo sito web, molti bot cominceranno a spammarla con commenti quali “articolo fantastico,” “informazioni molto utili,” “spero che possiate elaborare altro sull’argomento,” ecc. I bot più avanzati potranno addirittura creare commenti con nome d’autore. Gli spambot diventano più e più intelligenti se li si lascia fare il proprio corso. Sfortunatamente, i link inseriti nei commenti del tuo sito web danneggiano il tuo profilo backlink in maniera importante. Better Robots.txt ti aiuta ad evitare che questi commenti siano indicizzati dai motori di ricerca.

  1. Strumenti SEO

Nel tempo abbiamo aggiunto alcune scorciatoie al nostro plugin per raggiungere due strumenti SEO molto importanti (nel caso in cui ti stia importante su posizionamento e motori di ricerca): Google Search Console & Bing Webmaster. In caso tu non li stia utilizzando, potrai adesso gestire l’indicizzazione del tuo sito web mentre ottimizzi il file robots.txt! L’accesso diretto ad uno strumento di ping di massa ti permette di distribuire i tuoi link su più di 70 motori di ricerca.

Abbiamo inserito inoltre 4 link di scorciatoia che portino ai migliori strumenti SEO disponibili tramite Better Robots.txt SEO PRO. In questa maniera potrai controllare la performance e il caricamento del tuo sito web, analizzare il tuo punteggio SEO, identificare il tuo posizionamento sulle pagine di ricerca per parola chiave & traffico. Potrai addirittura scansionare il tuo intero sito web per vedere se vi siano link morti (404, 503, errori, ecc.) direttamente dal plugin.

  1. Sii unico

Abbiamo ben pensato di aggiungere un tocco di originalità su Better Robots.txt aggiungendo una funzionalità che ti permetta di “personalizzare” il tuo file Robots.txt su WordPress con una vera e propria “firma.” La maggior parte delle compagnie del mondo personalizzano i propri file robots.txt aggiungendo proverbi (https://www.yelp.com/robots.txt), slogan (https://www.youtube.com/robots.txt) o addirittura disegni (https://store.nike.com/robots.txt – in fondo.) Perché non lo fai anche tu? A questo proposito abbiamo dedicato un’intera pagina d’impostazione dove potrai scrivere o disegnare qualsiasi cosa tu voglia (davvero) senza che l’efficienza del tuo file robots.txt sia compromessa.

  1. Non lasciare che i robot di scansionino link inutili di WooCommerce

Abbiamo aggiunto una funzionalità unica che permette di bloccare link specifici (“aggiungi al carrello,” “ordina ora,” “filtra,” carrello, conto, checkout, ecc.) Questo evita che i motori di ricerca scansionino link inutili dal punto di vista del posizionamento. La maggior parte di questi link richiedono molta potenza da parte della CPU & fanno uso spropositato di larghezza di banda (sul proprio hosting web) proprio perché non è possibile memorizzarli sulla cache. Inoltre, spesso questi link creano dei loop di scansione “infiniti” (e inutili.) Ottimizzare il tuo file robots.txt WordPress specificatamente per WooCommerce ti permetterà di utilizzare più potenza di calcolo per le pagine che contano davvero, migliorando nettamente la performance di caricamento.

  1. Evita le trappe da crawler

Le “trappole da crawler” sono un problema strutturale che si presenta su siti dove viene scansionato un numero infinito di URL irrilevanti. In teoria, i crawler dovrebbero essere in grado di uscirne da soli, senza mai bloccarsi in alcune parti del proprio sito e senza scansionare questi URL irrilevanti. In pratica non è sempre così. Better Robots.txt ti aiuta a prevenire le trappole da crawler dato che possono causare ribassi sul budget e duplice contenuto.

  1. Strumenti di crescita

Le compagnie in grado di crescere più in fretta oggi quali Amazon, Airbnb e Facebook hanno stabilito dei numeri di crescita record allineando i propri team per raggiungere processi di test/apprendimento molto veloci. Si parla di una vera e propria soluzione per “hackerare” la propria crescita. Il “growth hacking” è un processo di sperimentazione molto rapida che permette di implementare strategie di marketing e promozionali che si concentrino su efficienza e crescita business molto rapida. Better Robots.txt mette a disposizione più di 150 strumenti disponibili online per far sì che la tua crescita aumenti in maniera spropositata.

  1. Usa Robots.txt Post Meta Box per le esclusioni manuali

Questo Post Meta Box permette di decidere “manualmente” se una pagina debba essere visibile o meno da parte dei motori di ricerca. Questo avviene tramite l’iniezione di codice dedicato “disallow” + “noindex” direttamente dentro al tuo file robots.txt su WordPress. Perché si tratta di uno strumento efficace per il posizionamento sui motori di ricerca? Semplicemente perché alcune pagine non dovrebbero essere mai scansionate/indicizzate. Pagine di ringraziamento, pagine di cattura, pagine che contengano esclusivamente formulari utili ai visitatori ma non ai crawler… Tutte queste pagine non hanno necessità di rendersi visibili sui motori di ricerca. Inoltre, alcune pagine contengono calendari dinamici (per le prenotazioni online) che non dovrebbero MAI essere visualizzate dai crawler dato che li intrappolano in un loop infinito, impattando direttamente il tuo budget di crawling (e il tuo posizionamento.)

Nel tempo aggiungeremo ovviamente altre funzionalità…

Come mai non riesco a visualizzare alcun cambiamento nel mio file robots.txt nonostante Better Robots.txt sia attivato?

Better Robots.txt crea un file robots.txt virtuale su WordPress. Vai su Impostazioni > Permalinks e assicurati che questi siano attivati. Se i permalink funzionano in maniera appropriata, assicurati che non ci sia alcun file robots.txt fisico sul tuo server. Dato che il nostro plugin non può sovrascrivere file fisici, dovrai connetterti tramite FTP e rinominare o eliminare il file robots.txt dalla tua directory di dominio root. Generalmente lo troverai nella cartella /public_html/ se utilizzi un hosting con cPanel. Se non riesci a trovare la directory root del tuo dominio, ti consigliamo di chiedere direttamente al tuo provider hosting. Se continui ad avere problemi di questo tipo e hai già provato svariati metodi, ti consigliamo di scriverci direttamente nella nostra sezione di supporto o di inviare un’e-mail a [email protected]

Ci saranno dei conflitti con il file robots.txt che già utilizzo?

Se utilizzi un file robots.txt fisico sul tuo hosting questo pluging non funzionerà. Come già accennato, il plugin creerà un file robots.txt virtuale su WordPress. Si prega di seguire i passi della domanda più in alto se si vogliono utilizzare file robots.txt con questo plugin.

Come aggiungo una sitemap nel mio file robots.txt su WordPress?

Questa funzionalità è disponibile solamente tramite la versione Pro di Better Robots.txt, che aggiunge automaticamente una sitemap nel tuo file robots.txt. La funzionalità utilizza la sitemap creata tramite il plugin Yoast SEO. Nel caso tu stia usando un plugin per sitemap diverso, o nel caso tu abbia creato la tua sitemap manualmente, potrai semplicemente aggiungere l’URL della tua sitemap nella casella appropriata. In questo caso dovrai disattivare le sitemap XML di Yoast andando su Yoast > Impostazioni Generali > Funzionalità e disattivare la funzionalità Sitemap XML.

Perché dovrei ottimizzare il mio file robots.txt?

Perché no? Dato che il robots.txt è il primo file in assoluto che viene letto nel momento in cui il tuo sito web viene caricato da un browser, perché non permettere ai crawler di indicizzare il tuo contenuto in maniera continua? Anche solo aggiungere la sitemap nel tuo file Robots.txt è meglio di niente. Perché? Hai permesso a Google Search Console di accedere al tuo sito? Lo ha fatto il tuo sviluppatore? Come fanno i crawler a sapere che il tuo sito abbia appena aggiunto nuovo contenuto da indicizzare? Se vuoi che questo contenuto sia visualizzato sui motori di ricerca (Google, Bing, …) avrai bisogno che il sito venga indicizzato. Il fatto di aggiungere la sitemap ti aiuta a raggiungere proprio questo obiettivo. Un ultimo punto. La ragione principale per cui abbiamo creato questo plugin è che il 95% delle volte (dopo aver effettuato migliaia di analisi SEO), il file robots.txt non solo viene usato in maniera non appropriata, ma addirittura manca completamente. Questo perché è un file che spesso viene scordato o capito in maniera sbagliata. Prova a pensare se fosse attivo e funzionale per il tuo sito così come viene ottimizzato dalle grandi aziende.

In che modo riuscirà questo plugin a posizionare il mio sito più in alto?

Questo plugin aumenterà le capacità di indicizzazione del tuo sito, portando ad un miglior posizionamento nei ranking Google. Come? Beh, il concetto che sta alla base di questo plugin è stato creato dopo centinaia di ottimizzazioni SEO su siti professionali e aziendali. Come già accennato in una domanda precedente, il 95% dei siti analizzati non avevano alcuna ottimizzazione particolare per il file robots.txt. Mentre ottimizzavamo questi siti web, ci siamo resi conto che modificare il contenuto del file potesse finalmente “sbloccare” questi siti (ci siamo basati su analisi giornaliere tramite SEMRush). Dato che eravamo abituati a lavorare in 2 passi (o due periodi di tempo), utilizzare questa semplice modifica ci permetteva di generare un impatto maggiore sui ranking Google. Questo ancor prima che modificassimo il contenuto, la ramificazione e i dati meta del sito. Più si aiutano i motori di ricerca a capire il proprio sito web, più i risultati ottenuti saranno migliori, sia in termini di indicizzazione che di posizionamento.

Come si fa a testare e validare i propri file robots.txt?

Puoi vedere i contenuti del tuo file robots.txt usando l’URL diretta del file stesso, ma il modo migliore per testare e validare questo file è utilizzare l’opzione “Robots.txt Tester” di Google Search Console.

Accedi al tuo conto Google Search Console. Clicca su Robots.txt Tester, che si troverà sotto le opzioni di crawling. Clicca il bottone di Test.

Se tutto va bene, il bottone diventerà verde e l’etichetta mostrerà la dicitura ALLOWED o PERMESSO. Se ci sono problemi, sarà mostrata la dicitura disallow.

Che cos’è un file virtuale robots.txt?

Di default, WordPress utilizza un file robots.txt virtuale. Questo significa che il file non può essere modificato direttamente e che non può essere trovato nella root della propria directory.

L’unica maniera per visualizzare i contenuti di fun file virtuale è quello di inserire il seguente URL nel proprio browser: https://www.iltuodominio.com/robots.txt

I valori standard dei file robots.txt su WordPress sono:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Nel momento in cui attivi l’opzione “Non permettere ai motori di ricerca di indicizzare questo sito,” il file robots.txt mostra:

User-agent: *

Disallow: /

Questo non permette a nessun crawler di accedere al sito web.

Perché è così importante il file Robots.txt?

Ci sono 3 ragioni principali per cui dovresti utilizzare un file robots.txt.

Bloccare le Pagine Private: A volte creerai delle pagine sul tuo sito che non vorrai indicizzare. Per esempio, potresti voler pubblicare una pagina di test. O una pagina di accesso. Queste pagine sono necessarie, ma dovrai assicurarti che non sia possibile per le persone accedervi in maniera casuale. In questo caso potrai utilizzare il file robots.txt per evitare che i crawler e i bot dei motori di ricerca le indicizzino.

Massimizzare il Budget di Crawling: Se non riesci a indicizzare le pagine, potresti essere incappato in un problema di budget crawling. Bloccando le pagine poco importanti tramite file robots.txt, Googlebot può spendere più budget di crawling sulle pagine che contano davvero.

Prevenire Indicizzazione di Risorse: Usare direttiva meta funziona tanto bene quanto usare il file Robots.txt per prevenire che le pagine vengano indicizzate. Tuttavia, le direttive meta non funzionano bene per le risorse multimediali come i PDF e le immagini. È qui che entrano in gioco i file robots.txt.

Puoi controllare quante pagine saranno state indicizzate tramite Google Search Console.

Se il numero di pagine indicizzate combacia con quelle visibili, non devi preoccuparti del file Robots.txt.

Altrimenti, se il numero è più alto di quello che ti saresti aspettato (e noti l’indicizzazione di URL che non dovrebbero essere indicizzati), è tempo di creare un file robots.txt per il tuo sito web.

Robots.txt vs. Direttive Meta

Perché usare il file robots.txt se puoi bloccare le pagine a livello strutturale con il meta tag “noindex”?

Come già anticipato, il tag noindex è difficile da implementare per le risorse multimediali come video e PDF.

Inoltre, se hai migliaia di pagine da bloccare, a volte è più semplice bloccare un’intera sezione di un sito con robots.txt piuttosto che guardare manualmente ad ogni tag noindex delle pagine.

Ci sono anche dei casi isolati in cui non si voglia sprecare budget di crawling su pagine che Google vede nonostante abbiano un tag noindex.

Dettagli importanti sui file robots.txt

  • I file robots.txt devono trovarsi nella cartella principale del proprio sito, ovvero domain.com/robots.txt
  • Ogni sottodominio necessita un robots.txt a sua volta (sub1.domain.com, sub2.domain.com, …) mentre i multi-siti avranno bisogno di UN solo file robots.txt (domain.com/multi1, domain.com/multi2, …)
  • Alcuni crawler ignorano i file robots.txt.
  • Gli URL e i file robots.txt sono sensibili a maiuscole e minuscole.
  • Le richieste di posticipazione di crawling non vengono rispettate da Google (dato che ha il suo budget di crawling predefinito) ma potrai gestire le impostazioni di crawling direttamente da Google Search Console.
  • Valida i tuoi file robots.txt tramite Google Search Console e Bing Webmaster.
  • Non bloccare il crawling per evitare che si crei duplice contenuto. Non utilizzare l’opzione “disallow” su pagine da reindirizzare. I crawler non saranno in grado di seguire il reindirizzamento.
  • La grandezza massima permessa per i file robots.txt è 500KB.
Clicca per votare questo articolo!
[Voti: 2 Media: 5]