Duplicate Content : Solution pour s’en sortir

J’édite un site dans l’immobilier depuis 2005. Il a connu une très forte progression entre 2009 et 2013 avant de se prendre coup sur coup des pénalités Panda et Pingouin. Il faut dire qu’il traine de formidables techniques de bourrin derrière lui. Une chute de 150.000 à 45.000 sessions mensuelles, c’est difficile à encaisser mais ça apprend à développer des réflexes de ninja pour passer en mode « Survie » !

Après avoir audité le site sous toutes ses coutures, il s’avère qu’il a été atteint par du panda, lié à deux axes :

  • Des pages de faible contenu
  • Des pages abordant les même sujets, encore et encore.

Résoudre le problème du contenu faible est facile, il suffit de compléter les contenus ou de passer la page en noindex.

C’est une autre paire de manches pour vaincre le « near duplicate ». En effet, Il ne s’agit pas d’un simple « Different URL Same Text » (DUST), qui aurait été résolu très facilement à coup de balises canonical. Ici le problème est plus profond, bien plus compliqué. Il est organisationnel et éditorial : les rédacteurs produisaient depuis plusieurs années des articles, fort bien écrits par ailleurs, sur des sujets récurrents que le monde journalistique appelle des « marronniers ».

Nécessité de former l’équipe éditoriale

La première chose à faire est de former l’équipe éditoriale pour lui expliquer comment gérer les marronniers correctement et éviter de pondre en un an 12 articles similaires sur un évènement mensuel.

Les rédacteurs ont encore tendance à se répéter mais c’est moins pire qu’avant.

La seconde action à été de reprendre, pour chaque sujet, tous les textes déjà publiés et les sabrer, la mort dans l’âme, pour conserver uniquement les expressions discriminantes.

Et le petit test SEO qui va bien

Chose étonnantes : Certains textes, très légers par rapport à leurs autres versions dupliquées, étaient indexés et présents dans le cache de Google alors qu’ils n’étaient ni les plus partagés, ni les plus commentés, ni les plus anciens. Si ces signaux sont des indicateurs de performance utiles, ils ne peuvent être suffisants pour déterminer si une page est de « qualité », du point de vue de Google.

Résolu à ne pas jeter définitivement le travail des rédacteurs, j’ai essayé de déplacer certains articles vers d’autres blogs où ces topics n’étaient pas encore abordés (en changeant le Title) et ceux ci ont été indexés rapidement par Google.

Deux hypothèses se dessinent :

  • Soit le near duplicate est filtré efficacement au niveau du domaine uniquement
  • Soit il est filtré à chaque mise à jour de Google Panda

Vivement la prochaine mise à jour Panda pour être fixé ! 😉