Abuso del robots.txt e soluzioni

Alcune delle pagine più importanti di siti molto famosi sono bloccate dal file robots.txt. Anche il tuo sito abusa del robots.txt?
Questo file è stato creato nel giugno 1994 per indicare quali pagine o directory non dovrebbero essere accessibili ai bots (i robots dei motori di ricerca).

Molti di questi, tra i quali anche Google, non indicizzano il contenuto delle pagine bloccate dal robots.txt, ma continuano comunque ad includerle nella SERP. Per accorgervene basta cercare la pagina che avete bloccato all’interno del vostro sito (site:www.vostrosito/urldabloccare), ad esempio per upnews.it tempo fa avevo rimosso, tramite robots.txt, la pagina live, ma su google appare questo.

Come si può notare il title tag e la url sono ancora visibili, manca soltanto la descrizione.

Se volete rimuovere realmente queste pagine da Google dovrete farlo tramite Google Webmasters, dal menù Configurazione sito–> Accesso Crawler–> Rimuovi Url. Nel giro di 24 ore vedrete rimosse le vostre url.
Il fatto di utilizzare il file robots.txt per bloccare una pagina non solo è poco efficace per rimuoverne l’indicizzazione dei motori di ricerca, ma blocca gli inbound links, ossia i link in essa contenuti, quindi avrete una pagina senza uscita.

Digg.com

Un esempio è quello di Digg.com, che fino a poco tempo fa bloccava 425,000 links, escludendo la pagina http://digg.com/submit

Ultimamente hanno rimosso questa limitazione, ma come è possibile vedere ancora google non ha iniziato ad indicizzarle.

Forse dovrebbero aggiungere in queste pagine il metatag noindex

<meta name="robots" content="noindex, follow">

Infatti, grazie ad esso, i bots non indicizzeranno la pagina ma seguiranno comunque i link.
Questo metodo è utile ad esempio per la pagina dei risultati di ricerca di un sito o per le pagine tag, che si preferisce non far indicizzare, sia perchè cambiano il loro contenuto ogni giorno, cosa non gradita da Google, sia perchè generano contenuti duplicati, ma in questo modo aumenterebbero comunque gli inbound links.

Blogger vs Blogspot?

Un altro strano esempio è quello di Blogger e Blogspot, entrambi di Google: il modo con cui si scambiano link fra di essi non è fra i migliori.

Il robots di blogspot blocca l’intero sito, ma è comunque indicizzato su google, inoltre se si prova ad aprirlo si viene reindirizzati su blogger.com (tutti i sottodomini sono accessibili dai bots).

Sarebbe meglio un redirect 301 da blogger a blogspot, in questo modo i 3 mila e passa link verso blogger dai siti esterni verrebbero sfruttati.

Negli esempi sopra abbiamo visto alcuni abusi del file robots.txt, le soluzioni più efficaci sono:

  • Noindex

    Nella maggior parte dei casi, la sostituzione migliore al file robots.txt è il meta tag robots. Aggiungendo ‘noindex’ e non mettendo ‘nofollow‘, le vostre pagine non verranno indicizzate ma rimarrà il valore dei links.

  • Redirect 301

    Il file robots.txt non è ottimo per bloccare le vecchie pagine rimosse. Se la pagina è scaduta (eliminata, spostata, ecc) non va solo bloccata ma è meglio utilizzare un redirect permanente.

  • Tag Canonical

    Non bloccare le tue pagine duplicate nel file robots.txt. Utilizza il tag canonical per escludere le versioni extra dall’indice e per consolidare il valore di collegamento.

Il modo migliore per utilizzare il robots.txt sarebbe quello di non utilizzarlo, in realtà si usa per comunicare ai robots che hanno pieno accesso al sito e per indicargli dove si trova la vostra sitemap, dovrebbe essere quindi del tipo:

User-agent: *
Disallow:

Sitemap: http://www.yoursite.com/sitemap.xml