Penalizzazione google, come ne sono uscito 2 volte…

Circa un anno fa un sito che ho insieme ad un amico ha subito una penalizzazione nella serp da parte di google: i risultati che apparivano in prima pagina nei risultati di ricerca ora erano finiti in quinta, sesta…

Questa penalizzazione molto probabilmente era stata causata dal fatto che sul sito erano state apportate diverse modifiche, non solo a livello grafico e quindi del codice html, ma anche per quanto riguarda la struttura delle url delle pagine principali, come le categorie o le paginazioni, che rimanevano comunque accessibili anche digitando le vecchie url. Questo aveva prodotto diversi contenuti doppi ed erano andati persi i pagerank sia delle vecchie che delle nuove url, esclusa comunque la homepage.
Il problema era stato risolto nel giro di 3 mesi inserendo nell’.htaccess dei redirect 301 dalle vecchie url alle nuove e eliminando attraverso il tool di rimozione di google webmaster quelle vecchie url che generavano contenuti doppi e altre directory come i risultati di ricerca o i tag, che erano divenuti eccessivi.

Per la rimozione di queste pagine google richiede, anzi richiedeva fino a poco tempo fa, di bloccarle anche attraverso il file robots.txt o inserendo il metatag noindex, io avevo utilizzato la prima soluzione, ma l’avevo poi sostituita con il metatag…

Dopo aver inoltrato 2-3 volte una richiesta di riconsiderazione a google, finalmente siamo usciti dalla penalizzazione.

 

Un paio di mesi fa google ci ha inviato una mail dicendo:

Messaggio: Googlebot ha riscontrato un numero estremamente elevato di link sul tuo sito. Ciò può indicare la presenza di un problema relativo alla struttura del tuo sito…

in questa mail veniva consigliato di non far scansionare a google alcune pagine inutili e dopo averlo fatto attraverso il robots.txt, è arrivata un altra mail

Durante il tentativo di scansione del tuo sito, è stato rilevato un aumento nel numero di URL che non siamo in grado di sottoporre a scansione a causa di una restrizione imposta da robots.txt.

che è un controsenso, ma in realtà dice solo che c’è un anomalia nella scansione del sito e che se quelle pagine sono state bloccate appositamente di non prendere in considerazione tale mail.

Nello stesso periodo c’è stato nuovamente il crollo delle visite, ovvero una seconda penalizzazione, questa volta però non era stata apportata alcuna modifica nè a livello grafico nè strutturale.
Visualizzando le statistiche di google webmaster tool erano presenti diversi errori di scansione: pagine 404, pagine non trovate, etc…erano anche presenti diversi suggerimenti html per tag title duplicati.

In seguito mi sono accorto che le pagine che erano state eliminate con il tool di google erano scadute! ossia non le bloccava più, infatti il blocco dura 3 mesi.
Il brutto è che una volta scaduti quei blocchi, non solo il bot ricomincia a scansionare quelle pagine ma riappaiono nei risultati di ricerca tutte le vecchie url che erano state eliminate (google le mantiene in un indice) e quindi url che ora non erano più esistenti, generando diversi errori.

In un primo tempo ho pensato di ribloccare quelle url tramite il tool, ma dopo 3 mesi si sarebbe potuto ripresentare nuovamente il problema.

Ho deciso quindi di correggere eventuali problemi e aspettare che google riscansionasse ed eliminasse le pagine non più esistenti.

Mi sono accorto che per le notizie eliminate utilizzavamo un redirect 302 verso la 404, costringendo il bot comunque a riscansionarle: lo abbiamo sostituito con un 404.
Sono state rimosse completamente url doppie che restituivano la stessa pagina finale e pagine dal contenuto di bassa qualità. Sono stati ineriti alcuni link canonical.

E’ stato inerito il metatag noindex Sono inoltre state rimosse quelle pagine che rimandavano a una fonte non più esistente o il cui dominio era stato eliminato: infatti sembrerebbe che un numero di link rotti estremamente elevato possa portare ad una penalizzazione.
A tal proposito ho utilizzato 2 tool.

– il primo è Xenu: funziona su windows, dopo avergli passato la url del dominio e una lista di url, verifica lo stato di queste pagine, i reindirizzamenti e riporta anche i metatag delle pagine, per vedere se ci sono pagine duplicate.

– il secondo è un servizio online e si chiama Link Tiger: anche se ha ancora qualche bug è molto utile e semplice, in quanto fa tutto da solo, scansiona le pagine del vostro sito alla ricerca di link rotti sia interni che esterni al sito, ed ogni giorno vi invia per mail un report con gli errori, purtroppo è a pagamento ma i primi 15 giorni sono gratuiti.

Altra cosa molto importante per capire cosa google fa sul vostro sito è visualizzare i logs di apache sul vostro server…

In conclusione vi consiglio di non utilizzare il tool di rimozione di google webmaster per rimuovere pagine che vi generano contenuti duplicati, più che altro è utile se avete urgenza di rimuovere una pagina che avete pubblicato per sbaglio o che continene dati sensibili.
Per non far indicizzare pagine che creano contenuti doppi sconsiglio anche il blocco tramite robots.txt (la cosa migliore sarebbe indicare nel robots.txt l’indirizzo della sitemap).
Consiglio invece l’utilizzo del metatag noindex: in questo modo i bots scansionano le pagine, non le indicizzano, seguono comunque i link contenuti, e aggiornano le statistiche del google webmaster tool, cosa che non farebbe bloccando completamente l’accesso al bot.

 

Dimenticavo, finalmente un paio di giorni fa siamo usciti dalla seconda penalizzazione!