Jan.01

Mettre du Noindex dans le fichier robots.txt, une rustine intéressante!

Aujourd’hui, je voulais vous faire part de quelque chose que j’ai testé plusieurs fois et qui marche pas mal du tout, ça devrait vous intéresser.

Du noindex dans le fichier robots.txt en lieu et place des balises meta noindex !

En soit, je pense que beaucoup savent qu’on peut le faire, que ce n’est certes pas très orthodoxe, mais que Google le digère bien. Voici comment cela ce présente dans le  fichier robots.txt :

noindex: /repertoire/

noindex: /page

noindex: /*paramètre d’url=

En gros, on remplace juste le traditionnel « disallow » par « noindex ».

Quel intérêt?

Ils sont non négligeables. C’est le cas principalement lorsque l’on veut désindexer des URLs contenant des paramètres générées via une navigation à facettes par exemple. En effet, nul besoin de recourir à cette technique lorsque l’on veut désindexer une page ou un répertoire, l’outil webmaster tools suffit amplement. En revanche, quand il s’agit de pages contenant des paramètres d’URLs dynamiques, il faut, en suivant la procédure normale, insérer des balises  <meta name= »robots » content= »noindex » /> dans la section <head> de chacune de ces pages. Cela passe le plus souvent par une écriture dans le fichier .htaccess où l’on  donne la règle suivante: « dans chacune des pages où se trouve tel paramètre d’url, place une balise noindex ». C’est plus complexe et cela nécessite des compétences en php. La désindexation est également assez lente avec cette technique.

Autre avantage: pas besoin de retirer temporairement les lignes « Disallow » du fichiers robots.txt

Souvent, on se rend compte que des pages inutiles qu’on veut désindexer sont bloquées dans le fichier robots.txt. Ce n’est pas un problème fondamental en soit étant donné que Google est bien « prévenu » qu’il ne s’agit pas de pages intéressantes mais si l’on veut faire les choses dans les règles de l’art, autant tout faire pour que des dizaines de milliers de pages inutiles ne restent pas dans l’index de Google (même si les pages bloquées dans le fichier robots.txt on tendance à se désindexer au fil des mois, mais c’est long…). Or, avec la méthode « traditionnelle » qui est de désindexer ces pages en plaçant des balises noindex dans la section <head> de chaque page, on se trouve confronté à un léger problème: comment Googlebot pourra-t-il voir ces balises dans la mesure où on lui interdit l’accès dans le fichier robots.txt? Logiquement, on devrait donc : 1)  placer des balises  noindex sur toutes les pages qu’on veut désindexer 2) retirer les lignes qui lui bloquent l’accès à ces pages 3) attendre que les pages soient désindexées 4) remettre les lignes pour de nouveau bloquer le crawl.  Sauf que lors de l’étape 2, Google passera donc la majorité de son temps de crawl à visiter des pages inutiles au détriment des autres belles pages de contenu tellement intéressantes pour le visiteur.

Plus besoin de faire tout ça avec du noindex dans le robots.txt! Vous verrez, en un mois, quasiment toutes les pages ciblées auront été désindexées.

SEO
Comment