Google ne semble pas suivre les liens présents dans nos mails

Lors d’un précédent article sur l’indexation intempestive, je publiais quelques interogations : des contenus que je ne souhaitais pas indexer se trouvaient bien visibles dans les pages de résultats de Google. Je me demandais d’ Google avait pu détecter et crawler mes pages et mes contenus. Négligence ? Peut être (probablement même). Mais je souhaitais en avoir plus.

Suite à cet épisode, j’ai souhaité réaliser quelques tests moi même sur des façons de proposer à Google des contenus à indexer.

Cette expérience a pour but de mieux comprendre comment fonctionne l’indexation Google, à avoir l’avis de la communauté SEO quant à la préparation de ce test, mais aussi et surtout avoir des retours complémentaires sur le sujet.

Continue reading

La morale et le référencement

Pourquoi ce billet

Il y a quelques jours, j’ai croisé la route d’une très bonne opportunité. Une circonstance qui me semble être une veine pour un référenceur. Cette opportunité, c’était une porte grande ouverte à de bons résultats quasi assurés. Cette opportunité, elle relevait d’une méthode de réféncement noir. Je ne m’y suis pas jeté dessus, la faute à une question d’éthique, de morale : profiter de cette aubaine me dérangeait.

Suite à cet épisode, j’ai souhaité revenir sur cette question, et même l’étendre plus largement à la place de morale et de l’éthique au sein du référencement, le noir plus précisemment.

Ce billet, c’est une façon de disserter ouvertement, mais aussi de rassembler différents avis sur ce sujet qui me semble très intéressant.

Continue reading

Indexation indésirable sur les moteurs de recherche

Lors du développement d’un projet, il est utile de prévoir une version développement, ou de pré-prod. Cette version permet d’une part d’avoir une version dite de « répétition générale », mais aussi de pouvoir faire une présentation des prochaines mises à jour à une personne tierce (comme un commanditaire par exemple). Par habitude, je mets cette version accessible sur l’adresse dev.mon-site.com avant de la rendre accessible sur l’adresse principale www.mon-site.com. Récemment, en utilisant comme d’habitude une version de dev, je me suis rendu compte que mon URL dev.mon-site.com était d’ores et déjà indéxée par Google.

Constat et analyses

Aujourd’hui, la plupart des internautes recherchent un site en tapant son URL dans le moteur de recherche google, et pas dans la barre d’adresse. C’est en observant un ami tentant de rejoindre la version de dev que j’ai remarqué justement, qu’en entrant l’expression/url mon-site.com sur Google, il lui était proposé ma version dev.mon-site.com. Ce n’est pas une catastrophe en soit, mais ça pourrait le devenir si certaines rectifications ne sont réalisées. Explications.

Tout d’abord, si le site à lancer vise à faire un ‘buzz’ ou un quelconque effet de lancement : permettre à certains internautes d’accéder à la version non-finale présente en dev ferait perdre une grande partie de l’effet d’annonce en dévoilant une partie du futur produit.

Deuxième gros désavantage : au point de vue référencement SEO. En effet, chaque référenceur sait que pour conserver un maximum de pertinence aux yeux des moteurs, un contenu (donc une page) doit être accessible par une et une seule adresse. 2 URLs pour un même contenu est donc pénalisant. Or, dans notre cas, il existe une page dev.mon-site.com/page-a et dans un futur proche (lors de la sortie officiel du site) une du type mon-site.com/page-a. Ces deux pages possèdent/posséderont exactement le même contenu, mais accessibles depuis 2 URL différentes.

La solution

Pour les débutants en SEO, la solution est simple : indiquer aux robots indexeurs de ne pas indexer la version de dev avec la connue balise méta suivante :

<meta name="robots" content="noindex,nofollow">

Le « noindex » indique aux robots d’une part de ne pas indexer les pages qui contiennent cette balise méta, et le nofollow de ne pas suivre les liens présents sur cette page.

Dans certains cas, il est suffisant d’indiquer seulement la requete « noindex » sur la page d’index, puisque tous les liens partent depuis cette page. En revanche, si des liens de cette page index pointent vers des sites externes, il peut y avoir des fuites. L’exemple simple serait qu’un webmaster remarque dans ses statistiques des visites en provenance de dev.mon-site.com/.

Mais… d’où ?

Google indexe les pages dans ses bases de données en naviguant sur l’Internet au fil des liens qu’il croise. Chaque fois qu’il croise une URL qu’il ne connait pas, il s’empresse de l’enregistrer et de faire sa tambouille habituelle.Dans le cas rencontré, il s’agit d’une version de dev, dont l’URL n’a été indiquée nulle-part, et encore moins mis à la disposition de l’Internet via des liens. Mais alors comment cette URL dev.mon-site.com a t-elle été rencontrée par les robots indexeurs ?

Suppositions

Une imprudence, un lien diffusé sur un réseau social ? peut être, mais peu probable. Une autre hypothèse, effrayante (mais pas pour autant si farfelue) : Google lirait nos échanges de mails entre développeurs et aurait croisé cette URL durant un envoi de messages ? Peut être, mais pas sur qu’il se servirait à foison. Sur la page accessible de mon-site.com est présent un splash screen, ou une page de présentation du futur service est dévoilée. Après vérification, aucun lien ne pointent vers dev.mon-site.com.

On m’a toujours dit : « si tu veux voir ce que google voit, ouvre ton site avec Lynx ». Après vérification, aucun lien ou relation entre dev.mon-site.com et mon-site.com était possible… sauf que : sur cette page de teasing était présent une image, image elle même hébergée sur dev.mon-site.com/image. Serait-ce par ce trou de souris que les robots auraient découvert l’url rendant à la version de dev ? Après tout, google indexe bien les images, bien qu’invisible aux yeux de Lynx…

Rectifications faites, j’aimerai désormais l’avis de mes collègues et pairs développeurs/référenceurs sur cette question, par où est-ce que mon url de dev a pu se faire connaître des robots google ?