Number Nine Posted July 19, 2011 Share Posted July 19, 2011 Ciao a tutti,Quanti di voi non si sono trovati con un sito di e-commerce da ottimizzare o semplicemente da gestire di un numero limitato di articoli, che però ha indicizzato in Google un numero incalcolabile di pagine?Mille contro trentamila, cioè moltiplico per trenta volte quello che inserisco.Qualcuno grida al miracolo (ho un sito con ben trentamila pagine!!!) ma un SEO avveduto si rende conto che c'è qualcosa che non va. E sì, si tratta di un processo di generazione di pagine fantasma da parte del bot di Google quando vaga per il nostro CMS.Ho fatto una ricerca e ho trovato diverse voci da dover tagliare tramite il robots.txt, come ad esempio:Disallow: /addresses.phpDisallow: /address.phpDisallow: /authentication.phpDisallow: /cart.phpDisallow: /discount.php...Solo per citarne alcune. Ma c'è un punto in cui non so come agire.Quando il bot di Google si imbatte nel fatidico menù a tendina "Ordina per: Prezzo dal più basso, Prezzo dal più alto ecc." va in tilt e si trasforma in un vero e proprio generatore di pagine fantasma per il nostro CMS Prestashop.Prendiamo l'installazione base solo in italiano coi dati di partenza precaricati. Perché dovrei vedere indicizzata la paginamiosito . it /2_shure-incorporated?orderby=price&orderway=ascmiosito . it /2_shure-incorporated?orderby=price&orderway=descmiosito . it /2_shure-incorporated?orderby=name&orderway=ascmiosito . it /2_shure-incorporated?orderby=name&orderway=descmiosito . it /2_shure-incorporated?orderby=quantity&orderway=ascmiosito . it /2_shure-incorporated?orderby=quantity&orderway=descSI RIFERISCONO TUTTE AD UN'UNICA PAGINA, solo che vengono create pagine false come Giuda e quindi inutili e quindi DANNOSE per Google.C'è qualcuno più esperto di me nella gestione del robots.txt che riesce a tagliar via tutto quello che viene dopo ?orderby PER TUTTE LE PAGINE?Avete un'idea di come risolvere e di come migliorare la nostra attivitò di SEO?Grazie a tutti. Link to comment Share on other sites More sharing options...
Number Nine Posted July 21, 2011 Author Share Posted July 21, 2011 Dopo ulteriori ricerche e consultazioni sto provando le seguenti istruzioni nel robots.txt:Disallow: /*orderby*Disallow: /*orderway*In pratica dovrebbero bloccare tutte le URL che al loro interno contengono queste variabili.Non ho ancora la certezza che funzioni.Se qualcuno di voi ha qualcosa da aggiungere è benvenuto. Link to comment Share on other sites More sharing options...
Gipielle Posted July 21, 2011 Share Posted July 21, 2011 Noi abbiamo fatto così:User-agent: *# DirectoriesDisallow: /classes/Disallow: /config/Disallow: /download/Disallow: /mails/Disallow: /modules/Disallow: /translations/Disallow: /tools/Disallow: /lang-it/# FilesDisallow: /addresses.phpDisallow: /address.phpDisallow: /authentication.phpDisallow: /cart.phpDisallow: /discount.phpDisallow: /footer.phpDisallow: /get-file.phpDisallow: /header.phpDisallow: /history.phpDisallow: /identity.phpDisallow: /images.inc.phpDisallow: /init.phpDisallow: /my-account.phpDisallow: /order.phpDisallow: /order-opc.phpDisallow: /order-slip.phpDisallow: /order-detail.phpDisallow: /order-follow.phpDisallow: /order-return.phpDisallow: /order-confirmation.phpDisallow: /pagination.phpDisallow: /password.phpDisallow: /pdf-invoice.phpDisallow: /pdf-order-return.phpDisallow: /pdf-order-slip.phpDisallow: /product-sort.phpDisallow: /search.phpDisallow: /statistics.phpDisallow: /attachment.phpDisallow: /guest-trackingDisallow: /*orderby=Disallow: /*orderway=Disallow: /*tag=Disallow: /*id_currency=Disallow: /*search_query=Disallow: /*id_lang=Disallow: /*back=Disallow: /*utm_source=Disallow: /*utm_medium=Disallow: /*utm_campaign=Disallow: /*n=Disallow: /*token*Disallow: /*token*Disallow: /cart.php*Disallow: /carrello*Disallow: /my-account.php*Disallow: /order-opc.php*Disallow: /authentication.phpDisallow: /history.phpDisallow: /guest-tracking.phpDisallow: /address.php Link to comment Share on other sites More sharing options...
Number Nine Posted July 31, 2011 Author Share Posted July 31, 2011 Ciao Gipielle, Avevo visto la tua risposta, per la quale ti ringrazio, e avevo messo in pratica quanto da te suggerito, integrandolo con quanto stavo facendo io. Ho creato una nuova installazione e ho aspettato che Google indicizzasse le pagine. Adesso mi faccio vivo con quanto sto rilevando. Dopo circa due settimane dal lancio erano indicizzate solo le pagine giuste, cioè quelle che non avevo bloccato col robots.txt, ma in seguito Google ha iniziato a indicizzare anche diverse pagine fantasma, del tipo: www . sito . com /ordine?ipa=6 Questo nonostante avessi inserito nel robots.txt le seguenti istruzioni: Disallow: /ordine Disallow: /ordine* Disallow: /*ipa=* C'è qualcosa di sbagliato in questo codice? Oppure siamo in un periodo in cui Google sta infischiandosene del robots.txt e indicizza quello che vuole? Anzi, c'è di più: se leggo la URL nella SERP, il link che vedo è: www . sito . com/carrello?qty=1&id_product=6... mentre la pagina si apre su www . sito . com /ordine?ipa=6 Anche in questo caso avevo bloccato con: Disallow: /carrello Disallow: /*qty=* Disallow: /*id_product* Disallow: /*id_product=* Grazie a tutti. Link to comment Share on other sites More sharing options...
Number Nine Posted August 2, 2011 Author Share Posted August 2, 2011 L'azione di ripulitura continua. Con i Webmaster Tools ho cercato di cancellare le URL fantasma, del tipo: www . sito . com /carrello?qty=1&id_product=6... [troncata dal browser] Come dicevo questa URL in serp apre questa pagina: www . sito . com /com/ordine?ipa=6 Dato che la URL in SERP è troncata posso cancellare solo la pagina che viene aperta, e in effetti i webmaster tools la rimuovono. Però la URL iniziale (www . sito . com /carrello?qty=1&id_product=6...) non se ne vuole andare dalla SERP, almeno per ora. Nessuna idea? Link to comment Share on other sites More sharing options...
Recommended Posts
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now