Se dit lorsque 2 pages d'un
site web rigoureusement identiques sont indexées dans un
moteur de
recherche.
Volontaire ou non, cette opération peut résulter en une suppression pure et simple de l'index d'une des 2, voire des 2 pages indexées.
L'origine la plus répandue de cette anomalie est sans doute l'
indexation multiple d'un même nom de
domaine dont les sous domaines seraient mal configurés. Par exemple:
http://monsite.com/accueil.html
http://www.monsite.com/accueil.html
Bien que les
URL soient différentes, les fichiers quant à eux sont identiques, on peut donc parler de Duplicate Content.
Il est essentiel de comprendre que les moteurs de
recherche gèrent le "Duplicate Content" en appliquant un filtre appliqué sur les résultats et qu'ils n'appliquent pas une pénalité au
sens habituel de ce terme . La "sandbox", le "blacklistage" ou la perte de "PageRank" ne découlent jamais d'un phénomène de "Duplicate Content", excepté dans un cas bien particulier : lorsque deux pages sont très exactement identiques (lire à ce sujet la page "
URL canonique" du
site Annuaire-Info)
Les pages qui sont retirées des résultats ne sont pas pour autant désindexées. Elles figurent toujours dans les index des moteurs de
recherche et conservent leurs PageRank (sauf dans le cas particulier évoqué ci-dessus). Si une petite portion de leur
contenu est originale (cas de pages similaires, mais non identiques) elles figureront toujours dans les résultats de
recherche portant sur ce
contenu original.
Le filtre "Duplicate Content" s'applique à certaines pages et non pas aux sites qui contiennent ces pages. Les sites comportant des pages dupliquées entre elles ou dupliquées à partir d'autres sites ne sont pénalisés en aucune façon (ou du moins, jamais pour cette unique raison).
Pour éviter le cas le plus fréquent et le plus ennuyeux de "Duplicate Content", retenez que toutes les pages de votre
site doivent absolument comporter des balises
et différentes !