Les freins à l’indexation

Mes clients me demandent d’optimiser les contenus de leur site web ou de préparer des campagnes de communication pour améliorer le référencement naturel.

Néanmoins, ils oublient à coup sur une étape primordiale : L’indexabilité du site.

En effet, à quoi bon optimiser un site s’il n’est pas prêt techniquement à être indexé par les moteurs de recherche ?

[indexabilité] : Capacité d’une ou plusieurs pages web à être indexable. C’est à dire être indexée par un outil de recherche tel que Google ou Qwant.

 

broekn-robot-1

Mauvais usage du fichier robots.txt

 

Diagnostic

Le fichier robots.txt suggère des règles de bonne conduite aux crawlers lorsqu’ils visitent un site web. Un crawler est un logiciel qui indexe automatiquement les contenus pour les moteurs de recherche.

Ce fichier se trouve à la racine du site, au même niveau que la page d’accueil. Souvent par manque de maîtrise ou par inattention, un webmaster pourrait placer un fichier avec des règles contraires au bon fonctionnement des crawlers.

Tapez le nom de domaine du site dans un moteur de recherche. Si aucune page du site n’apparait, c’est probablement lié à une interdiction d’indexation.

Problème

Si le fichier robots.txt interdit l’indexation de tout ou partie des pages d’un site, alors le site n’apparait pas dans les moteurs de recherche et ne reçoit pas de trafic de leur part.

Solution

Si vous n’êtes pas sûr du contenu de votre fichier robots.txt, le plus sage est de le supprimer totalement.

 

 

Mauvais usage du meta robots

Diagnostic

L’indexabilité d’une page peut être personnalisée page par page en ajoutant le meta tag « robots » et en précisant « index » ou « noindex ».

L’erreur courante consiste à ajouter les instructions « index/follow » à toutes les pages en pensant ainsi garantir l’indexation du site. Certaines pages n’ayant pas vocation à être indexées pourraient alors l’être.

Inversement, suite à une refonte graphique votre intégrateur oublie de supprimer les instructions « noindex/nofollow »  qu’il avait placé sur le serveur de développement et la version Prod subit une désindexation en règle.

Problème

Votre site n’est pas correctement indexé. Un trop grand nombre de pages présentant un contenu faible ou dupliqué peut conduire à une pénalité Panda.

Votre site peut être désindexé si vous changez les instructions sans maîtriser la propagation de la modification.

Solution

Assurez vous que seules les pages ayant un intérêt affichent les instructions « index,follow ». Dans le doute, abstenez vous d’utiliser ce meta-tag.

 

www

La page d’accueil est accessible avec ou sans index.html

Diagnostic

  • Tapez le nom de domaine de votre site.
  • Une fois la home affichée, ajoutez à la fin de l’url « /index.php »
  • Essayez aussi avec « /index.html » ou « /index.htm »

 

Problème

Techniquement, vous présentez deux pages ayant le même contenu, ce qui peut conduire à une pénalité au Duplicate Content et à une perte de liens.

Solution

En haut du script php de votre page d’accueil, ajoutez ceci pour rediriger automatiquement vers la version sans index.php ou index.html


if(preg_match('/\/index.(html|php)/i', $_SERVER['REQUEST_URI']) ) {
header ('HTTP/1.1 301 Moved Permanently');
header('Location: http://www.ventimmo.eu');
die();
}

Le site est accessible sans redirection avec et sans les WWW

Diagnostic

Tapez « www.domaine.com » et affichez votre page d’accueil.

Enlevez les « www. » dans l’url et rendez vous à cette adresse

Si le même contenu s’affiche, sans redirection, alors Google pensera que vous avez deux copies parfaites du même site.

Problème

Avoir deux copies parfaites du même site est problématique parce que l’une des copies génère du Duplicate Content, ce qui peut conduire à une pénalité Panda et descendre les positions de votre site.

Si quelqu’un fait un lien vers la version avec les www, la version sans les www ne profite pas du potentiel de ce lien. Si vos liens sont distribués à 50/50 entre les deux versions, alors le Capital Référencement (Link Juice) est divisé par deux !

 

Solution

Vous devez choisir une version et faire des redirections permanentes (301) en page à page, de l’une vers l’autre. Copiez et adaptez ce code dans votre fichier .htaccess :

RewriteEngine On

RewriteCond %{HTTP_HOST} ^monsite\.com
RewriteRule ^(.*)$ http://www.monsite.com/$1 [R=permanent,L]

Le site est accessible sous plusieurs noms de domaine

Diagnostic

Vous avez un site avec plusieurs noms de domaine tels que mondomaine.com et mondomaine.fr

Tapez « www.mondomaine.com » et regardez la barre d’adresse.

Tapez « www.mondomaine.fr » et regardez la barre d’adresse.

Si l’un des domaines ne redirige pas vers l’autre, alors vous avez un sérieux problème de Duplicate Content.

Problème

Bien souvent, on réserve son nom de domaine en plusieurs extensions, pour protéger sa marque et éviter le cyber-squatting. Bon nombre d’agences web font l’erreur de câbler tous les domaines vers le site. Qui devient accessible à la fois depuis les adresses http://www.example.net/ ET http://www.example.com

Résultat : Duplicate content ! Qui mène à la dilution des liens entrants et des positions plus faibles qu’elles ne pourraient l’être.

Solution

Il existe plusieurs manières de rediriger ses domaines. Seules celles utilisant des redirection 301 sont intéressantes. Voici celle que j’utilise :

On continue dans la série « Anti Duplicate Content » avec une technique qui permet de rediriger ses domaines alternatifs vers le domaine principal.

Par exemple, un visiteur allant sur domaine.net sera redirigé automatiquement vers domaine.com

  1. Préparer un dossier sur votre hébergement où vous ferez pointer tous vos domaines alternatifs. Par exemple : « example.xxx »
  2. Faites pointer tous vos domaines alternatifs sur ce dossier
  3. Préparez la redirection 301 à l’aide du fichier .htaccess ci dessous
  4. Placez le .htaccess dans le dossier recevant vos domaines à rediriger

C’est fini !

Contenu du .htaccess :

RewriteEngine On

Options +FollowSymLinks

RewriteRule (.*) http://www.example.com/$1 [R=301,QSA,L]

Les identifiants de session PHP passés en GET.

Diagnostic

Quand une session est démarrée sur un script codé en PHP, le serveur apache ajoute automatiquement à la fin des URL une variable « PHPSESSID=XXXXXXX ».

Problème généré

A chaque visite, le PHPSESSID va changer et générer de nouvelles URL avec le même contenu.

  1. Les robots des moteurs de recherche ont l’impression que le site n’arrêtent pas de supprimer des pages et de les remplacer par d’autre.
  2. Inextenso, cette variable peut générer du duplicate content, ce qui impliquerait l’apparition de pénalités de type « PANDA ».

Solutions :

Ajouter ces lignes au début de tous vos scripts :


ini_set("url_rewriter.tags","");
ini_set("session.use_trans_sid", false);
ini_set("session.use_only_cookies", 1);

 

 

Alternative : Ajouter ceci dans le fichier .htaccess :

(Déconseillée : Certains hébergements génèrent une erreur 500 sur cette méthode)

php_flag session.use_trans_sid off
php_flag session.use_only_cookies on