Je viens de tomber (via Nexen) sur un article expliquant comment, quelles que soient les précautions que vous prenez, n'importe quel site peut essayer de cerner votre personnalité. La méthode est si simple que je me sens très con de n'y avoir jamais pensé.

Vous savez que par défaut votre navigateur affiche les liens que vous avez déjà consultés avec une autre couleur que celle des liens sur lesquels vous n'avez pas cliqué. Ca peut être pratique pour l'utilisateur, mais cela permet aussi à un site d'avoir une idée des adresses que vous visitez: il lui suffit d'afficher une série d'url et de regarder leur couleur. Il pourra ainsi savoir si vous êtes déjà allé sur un site. Si vous effacez votre historique de navigation à la fin de chaque session, ça ne révélera sans doute pas grand chose, mais la barre géniale de Firefox 3 est si géniale que moi-même je n'efface plus que rarement mon historique.

Cette méthode ne permet certes pas de connaître votre fréquence de consultation de ces sites, mais comme dit l'adage: dis-moi sur quels sites tu vas et je te dirai qui tu es. Ainsi par exemple l'article essaie de déterminer le genre de son lecteur, et m'annonce qu'il y a 78% de chances que je sois une fille, je ne dois pas fréquenter assez de sites fleurant bon la testostérone ;-) En poussant le concept un peu plus loin, un autre bloggueur affiche un nuage de tags de vos centres d'intérêt, basé sur la catégorisation des sites les plus populaires d'un service de partage de marque-pages. Les résultats peuvent manquer de pertinence car ils testent votre fréquentation de sites étasuniens. Mais je ne doute pas qu'on puisse facilement obtenir un bon niveau de pertinence en géolocalisant l'internaute à partir de son adresse IP et en testant des urls de son pays.

Exemple pratique

Wikio publie régulièrement un classement de 300 blogs populaires. Peu importe la pertinence de ce classement, il y a des chances pour que vous lisiez plusieurs de ces blogs. Le petit script suivant, à exécuter dans Firebug sur cette page, va vous donner une idée de vos centres d'intérêts:

// Ajout d'une règle de style pour afficher tous les liens en rouge
var _style=document.createElement("style");
_style.setAttribute("type","text/css");
_style.innerHTML = "A:visited{color: red ! important}"
document.getElementsByTagName("head")[0].appendChild(_style);
// Boucle sur les liens
var _links, category;
var _res = {}
for each (var _item in document.getElementById('tab1').getElementsByTagName('tr'))
{
 if (_item.getElementsByTagName)
 {
  _links = _item.getElementsByTagName("A")
  // Si le lien est rouge, on incrémente le compteur de sa catégorie
  if (window.getComputedStyle(_links[0], '').color == 'rgb(255, 0, 0)')
  {
    _category = _links[1].textContent.replace(/\s/g,'');
    if (_res[_category]) _res[_category]++; else _res[_category]=1;
  }
 }
}
// Affichage des résultats.
for (_category in _res){console.log(_category, _res[_category])};

Tiens, apparemment je suis technophile[1] ;-)

L'expérience peut se répéter à l'infini, avec d'autres listes de sites. Elle peut révéler vos centres d'intérêt, vos affinités politiques, vos usages... Un site peut injecter dynamiquement ce code dans sa page, récupérer le résultat en un coup d'Ajax puis effacer le script. Un peu d'offuscation et ça devient difficilement détectable. Et si le site en plus vous a convaincu de vous inscrire, et connaît donc votre mail, voire votre nom... Brrr, je vais finir par devenir parano.

Notes

[1] en fait non, car je lis beaucoup de blogs via leurs flux RSS, et les seuls remontés par mon script sont ceux sur lesquels je suis passé par hasard