Le Trust Rank (terme anglais signifiant confiance d'une page) ou TR désigne le degré de confiance que le
moteur de
recherche Google attribue, à une page
web ou un
site web pour le
classement de ses sites, une note comprise entre 0 (qui équivaut à du
spam) à 1 (page de confiance). La note est donc le TR.
Le TrustRank est à la fois le nom d'un
algorithme cherchant à réduire le
spam dans les moteurs de
recherche et une marque déposée par Google en Mars 2005. Le TrustRank est-il censé remplacer le fameux PageRank ? Difficile de savoir pour l'instant ce que Google veut faire du TrustRank. Voici en attendant d'y voir plus clair une
description de l'
algorithme du TrustRank.
Dès le 11 Mars 2004, 2 chercheurs (Zoltan Gyongyi et Hector Garcia-Molina) de l'université de Stanford (Etats-Unis), celle-là même d'où sont issus les co-fondateurs de Google, Larry Page et Sergey Brin, écrivent avec Jan Pedersen, un chercheur de
Yahoo! (un concurrent de Google) un article intitulé Combating
Web Spam with TrustRank. Cet article décrit un
algorithme qui a pour objectif de réduire le
spam dans les moteurs de
recherche, c'est-à-dire d'améliorer la pertinence des résultats.
L'
algorithme du TrustRank propose une m
éthode semi-automatique de classification des pages
web (
spam ou pas
spam). Il est basé sur une liste de pages de référence garanties "propres" après une
analyse manuelle faite par un humain. Par propagation et
analyse des liens entre pages, l'
algorithme détermine si les autres pages sont également "propres" ou si au contraire elles sont du
spam, en partant du principe que les pages "propres" font très rarement des liens vers des pages de
spam.
L'
algorithme nécessite une très bonne sélection des sites de référence (une simple liste de 200 sites a donné de bons résultats d'après l'article).
Au final, il attribue une note à chaque page, son TrustRank (TR). Comprise entre 0 (
spam) et 1 (page de référence), elle indique le degré de confiance que l'on peut attribuer à la page.
Le TrustRank peut être utilisé seul pour filtrer l'index d'un
moteur de
recherche, ou en complément du PageRank pour aider à classer les résultats d'une
recherche.
Google utilise peut-être déjà cet
algorithme (ou une variante) depuis des mois... ou bien prévoit de le faire bientôt. Difficile d'être catégorique dans ce
domaine.html">
domaine.