Indexation indésirable sur les moteurs de recherche

Lors du développement d’un projet, il est utile de prévoir une version développement, ou de pré-prod. Cette version permet d’une part d’avoir une version dite de « répétition générale », mais aussi de pouvoir faire une présentation des prochaines mises à jour à une personne tierce (comme un commanditaire par exemple). Par habitude, je mets cette version accessible sur l’adresse dev.mon-site.com avant de la rendre accessible sur l’adresse principale www.mon-site.com. Récemment, en utilisant comme d’habitude une version de dev, je me suis rendu compte que mon URL dev.mon-site.com était d’ores et déjà indéxée par Google.

Constat et analyses

Aujourd’hui, la plupart des internautes recherchent un site en tapant son URL dans le moteur de recherche google, et pas dans la barre d’adresse. C’est en observant un ami tentant de rejoindre la version de dev que j’ai remarqué justement, qu’en entrant l’expression/url mon-site.com sur Google, il lui était proposé ma version dev.mon-site.com. Ce n’est pas une catastrophe en soit, mais ça pourrait le devenir si certaines rectifications ne sont réalisées. Explications.

Tout d’abord, si le site à lancer vise à faire un ‘buzz’ ou un quelconque effet de lancement : permettre à certains internautes d’accéder à la version non-finale présente en dev ferait perdre une grande partie de l’effet d’annonce en dévoilant une partie du futur produit.

Deuxième gros désavantage : au point de vue référencement SEO. En effet, chaque référenceur sait que pour conserver un maximum de pertinence aux yeux des moteurs, un contenu (donc une page) doit être accessible par une et une seule adresse. 2 URLs pour un même contenu est donc pénalisant. Or, dans notre cas, il existe une page dev.mon-site.com/page-a et dans un futur proche (lors de la sortie officiel du site) une du type mon-site.com/page-a. Ces deux pages possèdent/posséderont exactement le même contenu, mais accessibles depuis 2 URL différentes.

La solution

Pour les débutants en SEO, la solution est simple : indiquer aux robots indexeurs de ne pas indexer la version de dev avec la connue balise méta suivante :

<meta name="robots" content="noindex,nofollow">

Le « noindex » indique aux robots d’une part de ne pas indexer les pages qui contiennent cette balise méta, et le nofollow de ne pas suivre les liens présents sur cette page.

Dans certains cas, il est suffisant d’indiquer seulement la requete « noindex » sur la page d’index, puisque tous les liens partent depuis cette page. En revanche, si des liens de cette page index pointent vers des sites externes, il peut y avoir des fuites. L’exemple simple serait qu’un webmaster remarque dans ses statistiques des visites en provenance de dev.mon-site.com/.

Mais… d’où ?

Google indexe les pages dans ses bases de données en naviguant sur l’Internet au fil des liens qu’il croise. Chaque fois qu’il croise une URL qu’il ne connait pas, il s’empresse de l’enregistrer et de faire sa tambouille habituelle.Dans le cas rencontré, il s’agit d’une version de dev, dont l’URL n’a été indiquée nulle-part, et encore moins mis à la disposition de l’Internet via des liens. Mais alors comment cette URL dev.mon-site.com a t-elle été rencontrée par les robots indexeurs ?

Suppositions

Une imprudence, un lien diffusé sur un réseau social ? peut être, mais peu probable. Une autre hypothèse, effrayante (mais pas pour autant si farfelue) : Google lirait nos échanges de mails entre développeurs et aurait croisé cette URL durant un envoi de messages ? Peut être, mais pas sur qu’il se servirait à foison. Sur la page accessible de mon-site.com est présent un splash screen, ou une page de présentation du futur service est dévoilée. Après vérification, aucun lien ne pointent vers dev.mon-site.com.

On m’a toujours dit : « si tu veux voir ce que google voit, ouvre ton site avec Lynx ». Après vérification, aucun lien ou relation entre dev.mon-site.com et mon-site.com était possible… sauf que : sur cette page de teasing était présent une image, image elle même hébergée sur dev.mon-site.com/image. Serait-ce par ce trou de souris que les robots auraient découvert l’url rendant à la version de dev ? Après tout, google indexe bien les images, bien qu’invisible aux yeux de Lynx…

Rectifications faites, j’aimerai désormais l’avis de mes collègues et pairs développeurs/référenceurs sur cette question, par où est-ce que mon url de dev a pu se faire connaître des robots google ?