Système développé par les fondateurs de Google qui attribue une notation à une page
web en fonction des liens externes pointant vers cette page et de la nature des sites sur lesquels ces liens sont présents. Le
PageRank (TM) est un des éléments influençant fortement la position d’une page dans les résultats de Google.
Le
PageRank (terme anglais signifiant «
classement d'une page ») ou PR désigne l'
indice de popularité d'une page
Web utilisé par le
moteur de
recherche Google pour le
classement de ses résultats de
recherche.
PageRank fait aussi référence à Larry Page cofondateur de Google et inventeur de ce principe.
Google affecte une note de popularité à chaque page
Web. Cette note est faite en fonction des liens externes (popularité de liens) pointant vers elle et des liens qu'elle fait vers elle-même (liens internes). Dans ce calcul est intégré un des algorithmes
PageRank pour donner une note stable à chaque page.
Le
PageRank réel d'une page n'est connu que de Google, mais les internautes peuvent obtenir une approximation du
classement de la page en consultant la zone
PageRank de la Google Toolbar, qui indique sa valeur sur une échelle de 0 à 10 (Échelle logarithmique).
Le
PageRank a été un facteur prégnant dans le
classement des résultats de
recherche de Google. C'est moins vrai aujourd'hui.
Les référenceurs ont longtemps créé massivement des échanges de liens. Google ayant alors une vision quantitative de la popularité d'une page, cette technique permettait de gonfler artificiellement son
indice de popularité. Google a réagi : d'une part en instaurant des filtres (comme la
Sandbox) détectant et sanctionnant les campagnes massives de liens artificiels ; d'autre part en intégrant des critères qualitatifs à l'
analyse des liens (sémantique, confiance :
indice TrustRank).
Consultez également notre définition concernant le TrustRank.
Améliorer la "pertinence" des résultats constitue un objectif technologique majeur pour la plupart des moteurs de
recherche. Le problème, c’est que cette "pertinence" est une notion purement subjective, qu’il est donc difficile de manier avec des algorithmes purement mathématiques.
Le
moteur de
recherche Google, notammment, cherche depuis plusieurs années une solution à ce problème. Les premières pistes en ce
sens ont été lancées par Larry Page, dans une publication publiée alors qu’il était encore étudiant à l’université de Stanford.
Stanford conserve depuis l’époque de Page et Brin, les fondateurs de Google, un département de
recherche consacré au
Pagerank. Depuis deux ans, une nouvelle équipe de chercheurs a ouvert la voie à des solutions permettant de calculer des
PageRank personnalisés, et donc d’affiner, avec une économie de moyens remarquable, les pages de résultats des moteurs dans un contexte donné.
Ces travaux sont mal connus, en dehors du cercle des spécialistes et ne sont pas tous encore utilisés par les moteurs. Mais il y’a fort à parier que les premiers moteurs thématiques, construits autour de ce type d’
algorithme, ne devraient pas tarder à sortir : certains des chercheurs de Stanford ont constitué en juin 2003 la société Kaltix, rachetée par Google fin septembre 2003...
Les avantages et les limites du
Pagerank
L’
algorithme du
Pagerank : la force brute du calcul au service de la pertinence des résultats
Google a construit son succès autour d’un
algorithme de calcul permettant de stocker dans l’index du
moteur, avec chaque page, une "valeur" indicative de l’"importance" de ces pages sur le
web. On se référera aux excellents articles de Dan Hetzel pour en comprendre les principes [1] Cette valeur part du principe intuitif que l’importance d’une page dépend du nombre de liens entrants pointant vers cette page, mais aussi de l’importance des pages d’où partent ces liens.
Calculer un
Pagerank pour une page demande donc un calcul itératif, puisque doter une page d’un
pagerank modifie par ricochet le
pagerank de toutes les pages vers lesquelles pointe un lien de cette même page, et de toutes les pages reliées à ces pages. Toute modification du
pagerank d’une page se "propage" donc au fil des liens de page en page... Mais si l’une des pages ainsi reliée, quel que soit le nombre de liens qui la sépare de la page dont on a calculé le
pagerank, contient un lien réciproque vers la page de départ, cela modifie également le
pagerank de la page de départ.
L’
algorithme itératif de calcul du
Pagerank converge au bout d’un certain nombre d’itérations, vers une valeur fixe. Le problème, c’est que cette "convergence" de la suite des résultats n’est pas assurée en théorie (mais elle l’est dans la pratique compte tenu de la structure réelle du
web) et la "vitesse de convergence" (le nombre d’itérations pour atteindre une valeur précise proche de la limite) est très variable suivant les zones du
web.
Le calcul du
Pagerank nécessite du temps et une puissance de calcul phénomale
La puissance de calcul nécessaire pour calculer le
Pagerank pour un index de la taille de Google est assez fantastique. Mais heureusement, il s’agit essentiellement de calculs matriciels très simples, qui sont facilement gérables avec une architecture basée sur un grand nombre de machines calculant chacune les valeurs pour une petite zone de la colossale
matrice du
web.
Selon quelques "fuites" en provenance du
Googleplex, le temps de calcul nécessaire pour calculer le
PageRank de toutes les pages du
Web indexées prenait jusqu’à une bonne semaine... (La m
éthode utilisée a changé au printemps 2003, on le verra plus loin.)
Par contre, une fois ce calcul effectué, le
pagerank est stocké dans l’index avec les pages, et est donc disponible pour affiner le calcul des positions sur les pages de résultats, qui dépend aussi d’autres critères plus classiques, mais propres à chaque page, comme la densité de mots clés par exemple.
L’architecture d’un
moteur basé sur le
Pagerank
La m
éthode imaginée par Page et Brin a deux vertus : les calculs les plus complexes et les plus longs se font offline. Le
moteur n’a plus que des calculs très simples à effectuer pour construire les pages de résultats à la volée.
Ensuite, la prise en compte du seul "nombre de liens" comme critère permet une totale modélisation mathématique du calcul de la "valeur d’une page". Sur le plan théorique, le
PageRank est un calcul qui
mesure les conséquences du comportement d’un internaute téléporté au hasard de page en page au hasard des liens qui les relient.
Les limites du
PageRank
Sur le plan théorique, le postulat de Brin et Page selon lequel la valeur des pages dépend du nombre de liens entrants a été critiqué dès 1999 par les chercheurs du laboratoire Almaden d’IBM. Ces critiques portaient sur deux points :
ce postulat fait fi de la véritable structure du
web, qui n’est pas uniformément reliée par des liens hypertextes.
le
pagerank n’apporte aucune info sémantique, et est susceptible de donner de l’importance à des pages qui n’en ont pas
On peut vérifier dans la pratique la justesse de ces remarques en consultant les pages de résultats renvoyées par Google.
Suite de l’article (Deuxième partie) :
Les différentes pistes pour calculer un
PageRank Personnalisé
Philippe YONNET
Pour Webmaster-Hub