• les contenus sur un site de pré-production ne sont pas toujours "corporate". Bien que cela m'ait déjà joué de vilains tours, je continue à utiliser des photos de Tux jusqu'en pré-prod. Ennuyeux si vos contenus de test se retrouvent indexés;
  • si le site devait accompagner un lancement, l'info est éventée avant l'annonce officielle, et le client pas content. Et quand client pas content...
  • une fois le site en ligne, il vous faudra gérer des re-directions propres pour que Google indexe la bonne adresse.

Les fora regorgent de théories pour pour essayer de comprendre comment Google a pu découvrir ces adresses. Est-ce la faute au navigateur du client sur lequel est installé l'indiscrète barre d'outil Google ? Via des referer ? L'activation trop précoce de Google Analytics ? un test de la sitemap ? ou une preuve de plus du complot et de l'omniscience de Big Google... Le débat continue.

Désormais, un risque de plus existe: Google Chrome. En effet, sous prétexte de minimiser l'interface, Google a fusionné la barre d'URL et la barre de recherche. Or les barres des recherche des navigateurs modernes proposent une fonctionnalité de suggestion: chaque caractère que vous tapez est envoyé au moteur de recherche de votre choix qui vous suggère en retour des recherches parmi les plus courantes. En fusionnant la barre de recherche et la barre d'adresse, cette fonctionnalité est étendue à tout ce que vous tapez dans la barre d'adresse, que ce soit une recherche ou l'adresse d'un site web[1]. Ainsi donc, par défaut, si vous saisissez preprod.monclient.com, Google aura connaissance de cette adresse, et il pourra envoyer ses robots l'indexer. Même punition par exemple pour l'adresse de l'interface d'admin, et tant pis si en pré-production vous n'avez pas choisi de mot de passe assez sécurisé.

Bref, grâce à Chrome, Google pourrait bien se mettre à indexer à votre insu bien des contenus que vous pensiez masqués. Bien sûr, il y a toujours moyen de désactiver l'auto-complétion, ou de choisir un autre moteur que Google. Mais qui le fera ?

Une solution pour essayer d'empêcher l'indexation prématurée d'un site est de penser à créer un fichier robots.txt spécifiques à vos sites de test pour en interdire l'accès aux araignées, ou, plus radical, de gérer cela dans un htaccess à coup de règles de ré-écritures basées sur HTTP_USER_AGENT. M'enfin, pensez-y, un chat échaudé en vaut deux.

(source: Google Chrome privacy worse than you think via Tristan)

Notes

[1] apparemment sauf si vous tapez explicitement http: