Jan.01

Est-ce utile de configurer les paramètres d’url dans Google Webmaster Tools?

Parmi toutes les fonctionnalités les plus utilisées dans la console Google Webmaster Tools (GWT), les plus connues sont forcément celles permettant par exemple de vérifier le temps de chargement d’une page par Googlebot, ou encore le nombre d’erreurs 404 rencontrées lors du crawl. D’autres sont moins souvent citées, c’est le cas de l’outil de configuration des paramètres d’url:

Configurer google webmaster tools

Qu’est ce qu’un paramètre d’url?

Il s’agit simplement de caractères supplémentaires présents dans des url’s générées généralement par les différents CMS lorsque les internautes effectuent certaines actions spécifiques sur un site web. C’est le cas bien souvent lorsque les visiteurs effectuent des tris,des recherches ou qu’ils ajoutent des produits à leur panier sur des sites e-commerce. Ces formats d’url sont du type http://www.abc.com/panier?add&id_product=10&token=e7d9b0e5a62. Cette page web correspond à l’ajout au panier d’un produit ayant un ID égale à « 10″ .  D’ailleurs, cette problématique de gestion des paramètres d’url n’est rencontrée quasiment que dans le cadre de sites marchands, les autres types de sites étant souvent plus statiques.

 

Les raisons de s’intéresser aux paramètres d’url quand on soigne son SEO

On le sait, Google n’aime pas le contenu dupliqué et n’aime pas tellement non plus le contenu dit en « near duplicate », comprenez partiellement dupliqué. Dès lors, le problème de ces paramètres d’url est vite cerné: ils génèrent des pages très similaires sans grande valeur ajoutée pour l’internaute; la pénalité Google Panda n’est donc jamais loin si l’intégralité de ces pages de faible qualité sont indexées. Si une paire de chaussure est disponible en 20 tailles et en 50 couleurs et ainsi de suite pour chaque produit ayant de multiples critères de filtres, le nombre de pages inutiles sera alors exponentiel. Si un site détient 50 produits et qu’il y a 50 000 pages indexées, il y a fort à parier que des pages ayant des url’s avec paramètres soient indexées.

L’enjeu est donc de donner des indications à Google sur ces pages lorsque ses bots viendront crawler le site. Nous en revenons donc à cet onglet dans l’interface GWT  vu précédemment. Cette page en question recense tous les paramètres détectés par Google. Dans la colonne de droite, on voit « laisser Googlebot décider », cela signifie en d’autres termes laisser le choix à Googlebot de visiter les pages web ayant ces paramètres dans leurs url’s:

parametres url

 

Or, ce que nous voulons justement, c’est indiquer à Google le comportement que ces bots doivent adopter lorsqu’ils  rencontrent ces paramètres. En effet, tout webmaster qui se respecte sait (doit savoir) à quoi servent les paramètres présents sur le site qu’il gère. Ici, nous avons   »token » qui correspond à un paramètre présent dans les pages paniers. Celles-ci n’ont pas d’utilité à être visitées par Google, nous allons donc cliquer sur « modifier » puis bloquer le crawl de cette page. En revanche, le paramètre « p », qui est présent sur les pages de pagination pour les longs listings produits par exemple ne devra pas être forcément bloqué aux bots de Google car la pagination est potentiellement le seul chemin d’accès aux fiches produit.

Et le fichier robots.txt dans tout ça?

C’est vrai, au fond, pourquoi prendre la peine de configurer cela dans GWT alors que bloquer ces paramètres aux crawler de Google dans le fichier robots.txt a le même effet?  Je me le demande; c’est d’ailleurs pour ça que je ne configure JAMAIS les paramètres dans Google Webmaster Tools mais toujours via le fichier robots.txt. En revanche, je me sert de cet outil pour DETECTER de nouveaux paramètres d’url pour les sites de mes clients par exemple. Ce fichier robots.txt est le premier fichier pris en compte par Google lorsqu’il visite un site, c’est donc la manière la plus sûre de lui indiquer la marche à suivre. D’autant plus que d’après mes test, Google ne prend pas toujours en compte les instructions qu’on lui donne en configurant les paramètres dans GWT…

L’analyse de logs montre que Google continue à crawler des pages pourtant bloquées!

Malgré le fait d’avoir indiqué dans GWT d’ignorer certaines pages paramétrées, je me suis rendu compte que Google continuait d’aller crawler régulièrement certaines pages complètement inutiles et consacrait finalement très peu de son temps de crawl à aller voir les bonnes pages du site. Cela me conforte donc, et doit donc vous inciter fortement à NE PAS configurer vos paramètres dans GWT et de ne vous en servir que pour détecter de nouveaux paramètres, notamment lorsque vous changez de CMS ou que vous ajouter des plugins et modules.

Dernière chose, avant de foncer tête baissée en bloquant tout immédiatement dans le fichier robots.txt, pensez bien à désindexer auparavant les pages indexées dans Google avec la balise <meta name= »robots » content= »noindex »/> les pages indexées dans Google (à placer dans la section <head> des pages en question) , car si vous ne le faites pas, Googlebot arrêtera certes d’aller crawler ces pages mais il ne les désindexera pas car sera bloqué avant d’avoir vu ces balises. Une fois ces pages hors de l’index Google, vous pourrez alors travailler votre fichiers robots.txt.

SEO
Comment