robot.txt: Cos'è e come ottimizzarlo per far scansionare sito web

Marzo 12, 2022
Truccone Davide
SEO
0

Il file robot.txt è un file di testo, molto semplice, che va inserito nella cartella root al momento della creazione del sito. Questo ha lo scopo di comunicare con i motori di ricerca, come Google, Bing e affini, in modo tale da permettergli di scansionare al meglio il sito web.

Il file robot.txt è da intendere infatti come una sorta di guida per i crawler del motore di ricerca, in quanto questi ultimi sono in grado di leggerlo e organizzare al meglio la scansione.

Da quanto è detto è facile capire che il file robot.txt svolga un ruolo fondamentale per ciò che riguarda l’indicizzazione di un sito, anche se ricordiamo che per non fare indicizzare una pagina bisogna utilizzare il meta tag noindex, e la sua organizzazione lato SEO.

In questo articolo vedremo com’è fatto un file robot.txt, in che modo aiuta la scansione dei motori di ricerca e come crearne uno.

Indice

1 Cos’è il robot.txt
2 Come funziona il file robot.txt
3 Istruzioni utilizzate all’interno del file Robots.txt
4 Creare un file robot.txt
5 L’importanza del file robot.txt per la SEO
- 5.1 ll robots.txt potrebbe non escludere la pagina dalla SERP
6 Precedenza delle regole
7 Regole utili
8 Gestione degli errori e dei codici di stato HTTP
9 Devi ottimizzare la configurazione del file robots.txt? Chiedi a Unidevs!

Cos’è il robot.txt

Come detto il file robot.txt è un piccolo file di testo, scritto in ASCII oppure UTF-8 che si trova nella directory principale del sito, nella cartella root.

Questo è un file pubblico che può essere visionato tanto dagli utenti che dagli spider dei motori di ricerca, e contiene tutta una serie di indicazioni per permettere a questi ultimi di scansionare al meglio il sito.

Nello specifico infatti, all’interno del file robot.txt sono inserite le informazioni, utili ai crawler, per comprendere quali pagine scansionare, e quali invece non scansionare, in quanto assenti o non indicizzabili.

In questo modo è possibile, ad esempio, evitare la comparsa di pagine con codice errore 404, di sicuro tra gli errori più comuni in un sito web, in quanto i crawler del motore di ricerca sapranno già, in base a quanto indicato nel file robot.txt, quali sono le pagine da non considerare nella loro scansione.

Come detto questo è utilissimo per una strategia di Marketing SEO rivolta all’ottimizzazione onpage, in quanto un file ben organizzato e ordinato, permetterà allo crawler di Google (o di altri motori di ricerca) di risparmiare tempo, in modo da poter scandagliare al meglio le pagine che realmente ci interessa indicizzare.

Come funziona il file robot.txt

Vediamo più nel dettaglio come funziona il file robot.txt e in che modo agisce. A tal proposito c’è da dire che le istruzioni inserite all’interno di questo file non sono obbligatorie per tutti i siti e che rappresentano più che altro delle linee guida per i crawler, nulla di più.

Quando si pensa alle indicazioni inserite in questo file, infatti, non bisogna pensare a queste come degli ordini che vengono imposti allo spider, ma più che altro come delle istruzioni che gli semplificano il lavoro.

Naturalmente puoi decidere di non far leggere queste istruzioni a tutti i crawler, ma magari solo a quelli di Google, o ancora puoi decidere per quali cartelle o file evitare la scansione.

Come vedremo nel prossimo paragrafo, infatti, esistono delle regole ben precise per scrivere il file robot.txt che ti permettono di indirizzare gli spider dei motori di ricerca nella direzione che preferisci.

Quello che è importante capire, in ogni caso, è che questo file può essere un alleato fondamentale per ottimizzare il proprio sito web, evitando errori che potrebbero comprometterne l’indicizzazione.

Istruzioni utilizzate all’interno del file Robots.txt

Dopo aver capito cos’è il file robot.txt e qual è il suo ruolo, cerchiamo di comprendere in che modo sia scritto e come poterne creare uno.

Come detto in precedenza questo file segue delle regole ben precise che è fondamentale rispettare.

Innanzitutto è importante capire che le righe del file robot.txt sono composte da un campo, due punti e un valore che può essere variabile.

Gli spazi sono totalmente facoltativi, ma possono fornire un aiuto importante in termini di leggibilità. In più gli spazi situati all’inizio e alla fine della frase vengono completamente ignorati dal crawler.

Per includere un commento in genere si utilizza il simbolo # e, pertanto, ogni valore riportato dopo questo simbolo sarà ignorato.

Ma vediamo nel dettaglio i vari elementi.

User- agent

L’user-agent è l’elemento che identifica a quale crawler si applicano le regole. Questo vuol dire che in questo campo dovrà esserci indicato il crawler di riferimento che ci interessa.

Il valore va inserito naturalmente dopo il termine user-agent

Allow

Il termine Allow è da intendere come un comando che indica al crawler quali contenuti possono essere sottoposti alla scansione.

In sostanza, dopo questo valore, vanno inseriti gli URL delle pagine che si ha intenzione di far scandagliare allo spider.

Importante ricorda che se non sono specificati dei percorsi, l’istruzione viene completamente ignorata.

Disallow

Al contrario del comando precedente, il valore Disallow sta a indicare un percorso che i crawler non devono seguire per la scansione.

Ciò significa che, inserendo gli URL dopo questo valore, gli spider eviteranno di scansionare quelle specifiche pagine.

Entrambi i valori Allow e Disallow vengono definite “istruzioni” in quanto indicano per l’appunto al crawler cosa fare e quale percorso seguire.

Sitemap

Infine il valore Sitemap sta a indicare dove si trova la sitemap del sito o un file indice sitemap. Questo è un elemento chiave, in fase di scansione, in quanto risulta incredibilmente utile ai motori di ricerca.

Importante ricordare in questo caso che il campo sitemap è sensibile alle maiuscole, deve essere un URL completo (incluso protocollo e host) e non deve essere codificato tramite URL.

È possibile inoltre specificare più campi sitemap e che quest’ultimo non è legato a nessun user-agent in particolare ma può essere scandagliato da tutti i crawler.

Creare un file robot.txt

Dopo aver capito cos’è un file robot.txt, quali sono i vari campi e che ruolo svolgono, vediamo nel dettaglio come crearlo.

Creare un file denominato file robot.txt

La primissima operazione da compiere è andare a creare un file denominato file robot.txt. Per farlo puoi utilizzare qualsiasi editor di testo come Blocco Note e altri, a patto che non si tratti di un elaboratore di testi.

Questi infatti spesso salvano il file in formato proprietario e possono aggiungere dei caratteri non previsti, come virgolette o altri, che possono creare dei problemi ai crawler.

Ciò che è importante ricordare è che esistono delle regole ben precise per creare un file robot.txt:

Il nome del file deve essere necessariamente file robot.txt, nessuna variante.
Hai la possibilità di avere un unico file robot.txt per il tuo sito.
Il file robot.txt deve trovarsi nella directory principale del tuo sito e non può trovarsi in una sottodirectory. Per intenderci meglio: se crei il file robot.txt per il sito www.tuosito.it il file robot.txt deve trovarsi al seguente URL www.tuosito.it/robot.txt e non in www.tuosito.it/pagina/robot.txt
Il file robot.txt può essere applicato ai sottodomini. Ad esempio www.website.tuosito.it/robot.txt
Il file robots.txt deve essere un file di testo codificato in UTF-8.

Aggiungere regole al file robot.txt

Affinché il file robot.txt svolga il suo compito è fondamentale aggiungere delle regole per i crawler.

Come detto le regole sono delle vere e proprie istruzioni che indicano ai crawler quali pagine del sito possono scandagliare e quali invece no.

Anche in questo caso è bene seguire alcune direttive per non sbagliare:

Il file robot.txt è formato da uno o più gruppi.
Per ogni gruppo sono presenti una o più regole, una per riga. Importante ricordare che ogni riga deve iniziare con il valore user-agent che indica a chi si rivolgono le regole.
Il gruppo fornisce fondamentalmente tre valori, ovvero a chi si rivolgono le istruzioni (il crawler) quali contenuti sono scansionabili e quali contenuti non sono scansionabili.
I crawler elaborano sempre i gruppi dall’altro verso il basso.
I crawler scansionano ogni contenuto che non sia segnato con il valore disallow.
Con il carattere # si indica l’inizio di un commento, pertanto sarà ignorato dal crawler.

Caricare il file robot.txt sul sito

Dopo aver creato il file robot.txt è necessario caricarlo sul proprio sito, in modo da renderlo disponibile ai motori di ricerca.

In questo caso non esistono strumenti o procedure standard per farlo, e molto dipende dall’architettura e dalla struttura del proprio sito.

Il miglior modo è eseguire una ricerca in base al proprio hosting, in modo da trovare la procedura più indicata.

Testare il file robot.txt

L’ultima operazione, per verificare se il file robot.txt è effettivamente funzionante, è testarlo.

Per farlo ti basterà aprire una pagina di navigazione privata e andare all’URL del file come ad esempio www.tuosito.it/robot.txt.

Se vedi i contenuti del file allora puoi procedere testando il markup.

Per farlo Google mette a disposizione due alternative:

Il primo è il Tester dei file robot.txt presente in Search Console. Naturalmente questo strumento è utilizzabile solo per il file robot.txt già accessibili al tuo sito.
Se sei un po’ più esperto puoi invece dare uno sguardo alla libreria open source dei file robot.txt di Google. In questo modo hai la possibilità di testare il file in locale sul tuo pc.

L’importanza del file robot.txt per la SEO

Come detto in apertura di questo articolo il file robot.txt può essere un ottimo alleato per l’ottimizzazione del proprio sito lato SEO.

Ma in che modo?

Il discorso è in realtà molto semplice e segue una logica ben precisa. L’intento del motore di ricerca, e quindi dei suoi spider, è quello di analizzare rapidamente i contenuti che vengono immessi in rete al fine di verificare se questi siano in linea con l’intento di ricerca dell’utente.

Naturalmente l’analisi di un intero sito richiede dei tempi tecnici che possono essere più o meno elevati a seconda della grandezza del sito e della quantità di contenuti che presenta.

Avere un file robot.txt ben organizzato permette ai crawler di risparmiare tantissimo tempo in fase di scansione, tempo che potrà poi essere impiegato per analizzare al meglio ogni singolo contenuto del sito.

È importante sottolineare inoltre che la presenza di pagine con codice errore 404 è un segnale che può inficiare in maniera molto negativa sul posizionamento del proprio sito. Creando e organizzando al meglio il proprio file robot.txt si eviterà questo tipo di errore andando a migliorare, inevitabilmente, il proprio punteggio SEO.

ll robots.txt potrebbe non escludere la pagina dalla SERP

Riguardo l’esclusione di determinati contenuti da Google, mediante il file robot.txt, è fondamentale sottolineare un concetto. Il robot.txt, infatti, non esclude totalmente una pagina dall’indicizzazione e, di conseguenza, questa può essere comunque raggiunta dagli utenti.

Come?

Se un utente digita l’URL preciso della pagina, ad esempio, o se ci sono delle altre pagine che rimandano alla pagina “esclusa”. In questo secondo caso, in particolare, la pagina risulterà comunque indicizzata ma senza gli elementi a cui il crawler non avrà accesso (come ad esempio la meta descrizione).

Comprendere questi concetti è fondamentale per non rischiare di cadere in errori comuni. Per eliminare totalmente una pagina da Google, infatti, non serve il file robot.txt ma bisogna ricorrere ad altri metodi come i tag noindex o proteggere le pagine con una password.

Precedenza delle regole

Quando si parla di robot.txt, e per far si che il file venga letto correttamente dai crawler, è fondamentale tener conto anche dell’ordine di precedenza delle regole.

Nello specifico per un determinato crawler è valido un solo gruppo alla volta. Questo significa che il crawler, in fase di lettura, sceglierà il gruppo di regole di cui tener conto individuando, all’interno del file robot.txt, il gruppo con lo user-agent più specifico corrispondente allo user-agent del crawler.

Gli altri gruppi saranno invece ignorati.

Questo vuol dire che, per far leggere un determinato gruppo a uno crawler in particolare, dovrai essere il più specifico possibile quando vai a inserire lo user-agent.

Se invece viene dichiarato più di un gruppo per uno specifico user agent, tutte le regole riguardanti i gruppi applicabili allo stesso user agent vengono combinate internamente in un unico gruppo.

Ma facciamo un esempio per capire meglio cosa si intende con precedenza e in che modo “ragionano” i crawler.

Prendiamo i tre gruppi qui in basso:

user-agent: googlebot-news
(group 1)

user-agent: *
(group 2)

user-agent: googlebot
(group 3)

Possiamo notare che i tre gruppi presentano delle istruzioni diverse e specifiche per un certo tipo di crawler. Il crawler googlebot-news, ad esempio, prenderà in considerazione solo il gruppo 1 in quanto presenta indicazioni più specifiche.

Allo stesso modo il crawler googlebot (web generico) prenderà in considerazione il gruppo 3 perché anche in questo caso presenta istruzioni specifiche.

Al contrario, invece, googlebot-images prenderà in considerazione il gruppo 2 perché non esiste un gruppo che riporti, in maniera specifica, il nome googlebot-images.

Regole utili

Dopo aver compreso la teoria, vediamo insieme alcune regole utili, e pratiche, per i file robot.txt.

Di seguito ho inserito per te alcune regole da poter utilizzare subito, con i relativi risultati.

User-agent: *

Disallow: /

Tramite questo comando non si consente la scansione dell’intero sito web. È importante ricordare però che alcuni URL potrebbero essere comunque indicizzati anche se non sono stati sottoposti a scansione.

User-agent: *

Disallow: /calendar/

Questo è un comando che non consente la scansione di una directory e dei relativi contenuti. La stringa specifica potrebbe essere presente in qualunque punto del percorso es: https://example.com/calendar/

User-agent: Googlebot-news

Allow: /

User-agent: *

Disallow: /

Questo comando consente solo al crawler indicato di scansionare l’intero sito. Secondo la regola presa in esempio solo googlebot-news è autorizzato a scansionare il sito. Naturalmente ti basterà sostituire il nome del crawler all’interno della regola in base a quello che ti interessa.

User-agent: Unnecessarybot

Disallow: /

User-agent: *

Allow: /

Questo è invece il comando totalmente opposto rispetto a quello precedente. Con questa regola infatti si concede l’autorizzazione a tutti i crawler tranne uno. Nel nostro caso Unnecessarybot non può eseguire la scansione mentre tutti gli altri si.

User-agent: *

Disallow: /file-page.html

Comando utilissimo che permette di escludere dalla scansione una singola pagina web. Nel caso specifico la pagina file-page.html non sarà sottoposta a scansione.

User-agent: Googlebot-Image

Disallow: /images/cats.jpg

Tramite questo comando si blocca un’immagine specifica su Google Images. In questo caso l’immagine cats.jpg non sarà consentita.

User-agent: Googlebot-Image

Disallow: /

Sempre un comando che rivolge a Googlebot-image ma con un intento diverso. In questo caso infatti si bloccano tutte le immagini del sito web su Google Immagini.

User-agent: Googlebot

Disallow: /*.gif$

Altro comando utilissimo che permette di bloccare la scansione di una tipologia di file specifico. Nell’esempio si sta dicendo a Googlebot di non scansionare i file .gif. Naturalmente è possibile inserire il tipo di file che più ci interessa.

User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /

Passiamo a un comando leggermente più avanzato. Tramite questa regola, in sostanza, si dice a Google di non scansionare l’intero sito ma si da l’autorizzazione al crawler Mediaparnters-Google in modo che possa stabilire quali annunci mostrare ai visitatori del sito.

User-agent: Googlebot

Disallow: /*.gif$

Riprendiamo per un secondo l’esempio di prima per mettere in evidenza un comando specifico. Il simbolo $ infatti permette di applicare una regola agli URL che terminano con una stringa specifica.

Nel nostro caso, come detto, si blocca la scansione di tutti i file .gif.

Gestione degli errori e dei codici di stato HTTP

Un concetto che è fondamentale comprendere quando si crea un file robot.txt sono i codici di stato HTTP. Questi infatti determinano il modo in cui i crawler interpreteranno il file robot.txt basandosi, per l’appunto, sul codice di stato HTTP di risposta del server.

Vediamo nello specifico i vari stati e in che modo reagiscono i crawler.

2xx (success): Quando i codici di stato HTTP mostrano un esito positivo, indicano ai crawler di elaborare normalmente i file robot-txt.
3xx (redirection): L’iter seguito da Google prevede almeno cinque hop di reindirizzamento, dopo i quali si interrompe e lo considera come un errore 404. Questo discorso si applica anche a tutti gli URL non consentiti nella catena di reindirizzamento, poiché, per l’appunto, il crawler non è stato in grado di recuperare le regole a causa di questi reindirizzamenti.
4xx (client errors): Gli errori 4xx sono trattati dai crawler come se non esistesse un file robot.txt valido. Questo fatta eccezione per l’errore 429.
5xx (server errors): Gli errori 5xx e l’errore 429 citato un attimo fa sono interpretati temporaneamente da Google come se il sito fosse interamente non consentito. Google pertanto tenterà di scansionare il file robot.txt fino a quando non otterrà una risposta valida dal server. Se il file robot.txt non è raggiungibile per più di 30 giorni Google utilizzerà l’ultima copia del file memorizzata nella cache e, in assenza di questa, Google presumerà che non vi siano restrizioni di scansione.
Altri errori: Oltre a quelli visti, che sono errori più specifici, esistono anche errori più generici per cui un file robot.txt non può essere recuperato. Parliamo ad esempio di problemi di rete o DNS, come risposte non valide dal server, timeout nelle operazioni, connessioni interrotte e ripristinate. In questi casi viene considerato un errore del server.

Devi ottimizzare la configurazione del file robots.txt? Chiedi a Unidevs!

Siamo arrivati alla fine di questa lunga guida riguardante i file robot.txt. Mi rendo conto di averti fornito una grande quantità di informazioni e, soprattutto se non avevi mai sentito parlare prima dei file robot.txt, tutto questo materiale potrebbe avert creato un po’ di confusione.

Creare e ottimizzare un file robot.txt non è infatti un’operazione semplice e, affinché tutto funzioni al meglio, è fondamentale essere esperti della materia e sapere dove mettere le mani.

Anche il più piccolo errore in fase di scrittura e creazione del file potrebbe infatti costare caro in termini di scansione e ottimizzazione del proprio sito web.

Come abbiamo visto anche nei vari esempi, i crawler sono molto “pignoli” in fase di scansione ed eseguono le regole indicate nel file alla lettera.

È molto importante non sbagliare!

Hai bisogno di creare, ottimizzare e configurare un file robot.txt per il tuo sito web?

Non improvvisare! Chiedi a Unidevs.

Contattataci senza impegno, spiegaci di cosa hai bisogno e provvederemo a fornirti la soluzione di cui hai bisogno.

In Unidevs abbiamo una squadra di sviluppatori esperti che metteremo a tua disposizione per rendere il tuo sito ottimizzato e funzionale.