Lorsqu’un même contenu web est accessible via plusieurs adresses, Google n’indexe qu’une seule version : l’URL canonique. Reste à comprendre laquelle le moteur de recherche retient et pourquoi il écarte parfois celle que le site a déclarée, un point qui alimente régulièrement les discussions sur les erreurs techniques de référencement. John Mueller, Search Advocate chez Google, a détaillé ce raisonnement en réponse à un internaute sur le forum r/TechSEO de Reddit.
John Mueller a commencé par rappeler les limites de l’exercice. « Il n’existe aucun outil qui explique pourquoi un contenu a été jugé dupliqué : avec le temps, on finit souvent par s’en faire une idée, mais ce n’est pas toujours évident », indique-t-il. Le Search Advocate a ensuite détaillé les principaux cas de figure qui conduisent Google à regrouper des pages pour n’en retenir qu’une :
Le cas des paramètres d’URL, dont Google tend à généraliser les schémas, illustre la difficulté. « Si /page?tmp=1234 et /page?tmp=3458 sont identiques, alors /page?tmp=9339 l’est probablement aussi », explique John Mueller du comportement des robots, qui reconnaît que l’exercice « peut se révéler délicat et aboutir à une erreur avec plusieurs paramètres ».
La version réellement analysée par Google constitue un autre angle mort fréquent. « Nous utilisons la version mobile (les gens vérifient généralement sur ordinateur), et nous utilisons la version que voit Googlebot », rappelle le Search Advocate. Il ajoute que le moteur s’appuie sur la version rendue de la page : « Cela suppose que nous puissions l’afficher si elle repose sur un framework JS pour son contenu ; si nous n’y parvenons pas, nous risquons de retenir la page HTML de base, qui a toutes les chances d’être dupliquée ».
Ces scénarios rappellent que l’attribut rel=canonical reste un indice fourni à Google, et non une directive contraignante. Le moteur le met en balance avec d’autres signaux pour désigner la version à indexer, selon un tri qui s’apparente à un classement flou construit à partir de critères qui se recoupent. Quand le résultat ne correspond pas à la version déclarée, la cause est donc rarement un bug isolé.
John Mueller invite toutefois à relativiser. « S’il s’agit d’un contenu similaire, les internautes peuvent malgré tout y accéder, donc ce n’est généralement pas si grave », observe-t-il, ajoutant qu’il est « assez rare » que Google finisse par traiter un mauvais regroupement comme un problème sérieux. Pour les professionnels du référencement, l’essentiel reste de fournir des signaux cohérents et un contenu réellement distinct, dans la lignée des recommandations SEO publiées par Google.
Integer iaculis ultrices velit nec tempor. Pellentesque aliquet est massa, sit amet tempor mi auctor nec. Mauris a nibh sed libero fermentum aliquet. Quisque sit amet faucibus magna. Do purus mi, commodo id commodo vel, im perdiet ut mauris. Ut ultricies arcu risus, males uada efficitur orci euismod in. Proin ele est risus, ac sodales nulla mollis vel. .
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat.
In nec libero luctus, aliquet turpis at, vehicula nisi. Cras eget mauris in nisl tempus lobortis.
Neque porro quisquam est, qui is dolor emr ipsum quia dolor sit amet the consec tetur is adipisci velit, sed Neque porro.