Jan.01

Le Pagerank et le pouvoir des liens, la faille de Google

Cet article est destiné aux débutants en SEO, il présente rapidement le fonctionnement de base de Google. Le concept du Pagerank et aussi expliqué ainsi que la menace que celui-ci représente pour la pertinence des résultats de recherche dans Google.
les 3 facteurs principaux de classement de Google sont le contenu, la popularité, et les performances techniques d’un site web. Mais avant de classer ces résultats de recherche, Google doit les indexer,  les crawler (parcourir le contenu), puis stocker certains éléments de chaque page. Comment Google arrive-t-il à indexer tout le web ? C’est d’ailleurs tout l’enjeu ; si certaines pages du web n’étaient pas indexées, celles-ci ne « concurrenceraient » pas les autres, la pertinence globale serait donc mauvaise puisque la base de données de résultats proposée aux internautes ne serait pas exhaustive. En réalité, Google suit tous les liens présents sur chaque page qu’il parcourt avec ses « crawlers » (logiciels ou plus communément appelés robots, programmés pour aller de page en page et suivre tous les liens qu’ils trouvent). Il s’agit de la meilleure technique que les ingénieurs de la Mountain View  ont trouvée pour être sûrs de pouvoir indexer chaque page du web. Le lien est donc devenu la matière première de Google. Sans liens, impossible de découvrir les millions de pages créées chaque jour. Il a donc été indispensable d’inclure ce facteur dans l’algorithme et d’inciter au départ les webmasters à se faire le maximum de liens. Plus un site allait recevoir de liens plus il allait pouvoir être  établi comme « populaire », les sites référents ayant faits aux yeux de Google un « vote de confiance » en posant un lien vers un autre site. En effet, le fait de faire un lien vers une autre page web d’un autre site peut signifier qu’il y a un intérêt  à suivre le lien, il s’agit donc d’une recommandation. Une note de popularité  est par la suite donnée à chaque page en fonction du nombre de liens reçus et de la qualité de ceux-ci. Cette note est appelée le « Pagerank » (du nom de Larry Page, cofondateur de Google). Voici la définition qu’on peut donner à cette note:

«Le Pagrerank est  la probabilité qu’un surfeur aléatoire (robots de Google navigant aléatoirement sur les sites web de page en page )  passe sur une page»

La formule savante est d’ailleurs la suivante:

fonctionnement-des-moteurs-de-recherche-12-728

La conséquence de tout cela est limpide : le fait de suivre tous les liens trouvés sur la toile a amené Google à être ce qu’il est devenu, à savoir le leader incontestable du marché du Search de par sa capacité à collecter et à traiter les données. En effet, rien de tel que de s’inspirer du concept même de l’internet (sites web reliés par des liens, la fameuse « toile » en français) pour créer un outil se devant d’indexer tous les sites existants pour être performant. Les autres moteurs de recherche qui l’ont précédé n’ont jamais eu cette ambition technologique pourtant logique lorsque l’on voit la taille du web aujourd’hui. Seul Yahoo et Bing ainsi que Qwant plus récemment ont adopté plus ou moins le même fonctionnement.  La majorité des moteurs de recherches étaient au début des années 2000 davantage des annuaires où il fallait venir sois-même inscrire son site si l’on voulait y être indexé.

Mais ce « pouvoir du lien »  pourrait finir par le fragiliser.  En effet, il est coutume d’affirmer, dans la sphère SEO, que 60% de ce qui va faire le classement d’un site est la popularité, 30% le contenu et 10% la technique. Mais cette popularité peut être manipulée.

Prenons l’exemple suivant : un site web légitime souhaitant se positionner sur l’expression « hôtel 2 étoiles paris » respecte à la lettre les consignes de Google, c’est-à-dire un contenu de qualité et des liens entrants acquis naturellement par recommandation réelles depuis d’autres sites. Globalement, admettons que ce site ait une note de 30/30 en termes de contenu, une note de 10/10 en termes techniques et 4/60 pour la popularité (obtenir des backlinks de manière naturelle est très difficile, à moins de s’appeler lemonde.fr ou autre site à très forte autorité). Dans le même temps, prenons un site ayant 0/30 en termes de contenu, 60/60 en termes de popularité (Pagerank proche de 10)  et 5/10 pour la technique. Le second site de faible qualité obtiendra un score de 65/100 tandis que le premier, au contenu remarquable et pertinent aura 44/100. Sur la requête, le site le moins pertinent sera donc mieux classé que l’autre. Or c’est justement cette notion de pertinence qui a notamment amené le succès qu’on connait à Google. Le concept du « black-hat » est justement le fait d’exploiter cette faille de Google pour positionner n’importe quelle page finalement moins pertinente qu’une autre et de faible qualité dans les premières positions de Google en créant des liens de façons massive, sources de popularité aux yeux de Google.

Les pénalités Pingouin, une rustine fragile!

Afin de limiter ces campagnes « black-hat » et favoriser les actions « white hat » (conformes aux consignes de Google), Google met régulièrement en place des sanctions ayant pour but de chasser les liens dit « toxiques » ou « non légitimes ».  Car si Google a besoin de liens pour continuer à parcourir la toile, l’excès de liens va permettre à des pages de se positionner sur des requêtes alors que d’autres ayant un profil de liens plus « naturel » et un meilleur contenu se classeront derrière. La difficulté est donc de trouver un juste milieu car lutter contre le black-hat en supprimant totalement l’impact des liens dans son algorithme causerait la mort de Google. Si les propriétaires de sites arrêtaient de se faire des liens, Google n’aurait plus accès aux nouvelles pages web crées par millions chaque jour.  Les experts en algorithmes ont donc développé des outils d’analyse de profils de liens permettant de vérifier s’ils sont légitimes ou non. Les résultats sont étonnants, avec des centaines de critères, Google sait dire, avec une faible marge d’erreur, si tel ou tel lien est «naturel » ou non. Il est ainsi légitime de se demander dès lors, pourquoi cette faille n’a pas été comblée. En effet, pour chaque lien « non naturel », il suffirait de ne plus les prendre en compte. La réponse est simple. Le cout.  En effet, développer des algorithmes capables de repérer des opérations black-hat est une chose, les greffer sur les infrastructures existantes en est une autre. Les infrastructures (serveurs, bases de données, réseaux…)  représentent l’un des plus gros centres de cout avec l’intelligence humaine. Ainsi, tout ajout d’un infime changement correspond déjà à des centaines de  milliers de dollars. Google peut se permettre d’ajouter ponctuellement ce qu’on appelle des « filtres », mais insérer un système complet d’analyse de liens factices serait trop onéreux. C’est d’ailleurs pou cela que je doute fortement de l’annonce récente qui a été faite par Google d’un déploiement constant et inclus dans l’algorithme de Pingouin 3.

Mais la raison principale expliquant le fait que Google ne puisse pas investir massivement contre les opérations black-hat va bien plus loin. De fait, avec les milliards générés par Google Adwords, investir pour lutter contre le black-hat pourrait globalement se faire. Mais cela reviendrait à conserver le degré de pertinence de son index d’un côté pour mieux le perdre de l’autre. En effet, l’enjeu majeur  de Google, comme montré précédemment, est d’indexer tout le web. Si Google n’arrivait plus à analyser certaines pages nouvellement créées faute de ressources pour visiter et stocker les données, la multinationale fermerait à coup sûr dans les années à venir. Imaginez un index proposant des informations vielles de plus d’un an aux internautes, inimaginable! Google se doit donc de conserver une grande partie de ses budgets à suivre l’évolution du web et la croissance exponentielle du nombre de pages.

Incontestablement, ces milliards de données à collecter et à analyser demandent des ressources en infrastructure au moins aussi importantes que pour analyser les liens non naturels. Ainsi, l’objectif est à la fois de minimiser l’impact des actions réalisées par la communauté black-hat, nocives pour la qualité globales des résultats présentés aux internautes, et les coûts. Une guerre psychologique est donc menée depuis environ 3 ans et des pénalités déployées ponctuellement du jour au lendemain font trembler le monde du référencement, les spécialistes du référencement craignant toujours que les liens crées soient considérés comme « factices ».  Ces algorithmes, appelés « Penguin 1, 2 et 3 » emploient justement les découvertes trouvées par les ingénieurs qui n’ont pas été incorporées aux critères structurels de classement du moteur. Etant donné que ces pénalités (appelées diplomatiquement « filtres » par Google) sont utilisées quelques heures une fois tous les quelques mois, cela limite grandement le coût et permet de « nettoyer » les résultats de recherche jusqu’au prochain passage de ces filtres. Les opérations de positionnement de sites « black-hat » grâce à des campagnes de liens factices durent donc généralement une période limitée et, une fois que Google découvre le nombre de backlinks « factices », ces sites  sont tous voués à disparaître des premiers résultats de recherche. Il n’empêche qu’entre deux campagnes de « purification » des résultats de recherche, la qualité de ceux-ci  s’avère dégradée.

SEO
Comment