CMT Posted February 5, 2019 Share Posted February 5, 2019 Bonjour à tous, Après avoir épluché plusieurs posts sur le sujet (certains remontant à 2013 comme celui-ci), je vous sollicite sur le sujet de l'autorisation de crawl pour les flux shopping. Voici le cas dans lequel je me trouve : L'un de mes clients vient de mettre en prod un site neuf sous Prestashop, début janvier 2019. Particularité de ce site, la BDD (produits/marques/appareils etc...) est bourrée d'incohérences et de données foireuses :(. Par conséquent, je ne souhaite autoriser au crawl (et à l'indexation mais c'est un autre sujet) que certaines URLs à savoir : - La homepage - Quelques "catégories" au cas par cas Ceci, afin d'avoir une maîtrise maximale du crawl par Googlebot. Quelques données complémentaires pour bien saisir le problème : - Mes fiches produits contiennent toutes un répertoire /p/ - Les user-agent a autoriser pour les flux sont : Googlebot, Googlebot-image, AdsBot-Google-Mobile, AdsBot-Google (d'après la documentation Google officielle) - La volumétrie du site est relativement importante : 20K URL a l'heure actuelle. 2M après injection de l'ensemble du catalogue produit, dans quelques semaines/mois. Mon soucis est donc le suivant : en l'état avec un fichier robots.txt tel que celui-ci, mon client ne peut valider son flux shopping puisque les fiches produits ne sont pas autorisées au crawl. Le fichier robots.txt était jusqu'ici le suivant : User-agent: * #Blocage par defaut de l’ensemble des pages Disallow: / #Pages autorisees Janvier 2019 Allow: /$ Allow: url-cat-1 Allow: url-cat-2 Allow: url-cat-1 Allow: Etc... Dans la mesure ou le "*" concerne tous les user-agent et donc y compris ceux mentionnés plus haut pour les flux, en principe le nouveau fichier robots.txt correct devrait être : User-agent: * #Blocage par defaut de l’ensemble des pages Disallow: / #Pages autorisees Janvier 2019 Allow: /$ Allow: url-cat-1 Allow: url-cat-2 Allow: url-cat-1 Allow: Etc... Allow: /p/ L'ajout de la directive "Allow: /p/" devrait régler le problème. Mon client m'indique cependant que celui-ci ne fonctionne pas.. Pourtant, l'outil de test du fichier robots.txt m'indique bien que mes URLs produits sont autorisées. Question 1 : cette nouvelle version est-elle correcte selon vous ? Question 2 : Je parlais du crawl et de l'indexation plus haut. Dans la mesure ou Shopping est décorélé de la partie Search, pouvez-vous me confirmer que la directive ajoutée "Allow: /p/" est compatible avec l'ajout d'une balise noindex sur l'ensemble des fiches produits contenant le répertoire /p/ ? Je souhaite par ce biais, autoriser le crawl des fiches produits mais interdire leur indexation pour ne pas spammer l'index Merci d'avance de votre retour, Link to comment Share on other sites More sharing options...
Recommended Posts
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now