Comment Facebook sait où vous allez, en vrai comme sur le net

Facebook traîne la réputation un peu sulfureuse de savoir beaucoup de choses à propos de ses utilisateurs, voire même de tout internaute, même s’il n’en est pas membre. Quelques articles précédents en font état (1, 2, 3). Nous allons présenter ici deux techniques utilisées par Facebook (et bien d’autres) leur permettant d’une part de (souvent) savoir quels sites web vous visitez et d’autre part où vous vous rendez physiquement. Bien qu’il soit difficile de savoir ce que fait exactement Facebook de ces données, ils ne cachent pas les utiliser à des fins publicitaires ; par exemple, sur leur page consacrée aux cookies (qui permettent de pister une bonne partie de vos déplacements sur le net),  Facebook indique que ceux-ci …

[…] nous aident à comprendre qui vous êtes et à afficher du contenu mieux adapté à vos attentes, notamment en termes de fonctionnalités, de produits et de publicités.

Plus grand monde n’est surpris de voir apparaître de la publicité pour une voiture après avoir été lire un article traitant d’automobile sur un site web d’information générale, ou pour des couches-culottes après s’être rendu sur un forum traitant de la grossesse.

Nous verrons également, et c’est l’intérêt de cet article, comment l’on peut s’en prémunir autant que possible.

Savoir où vous allez sur le web

Une première façon pour Facebook de suivre vos centres d’intérêts est de voir quels sont les articles partagés par vos amis sur lesquels vous cliquez dans votre fil d’actualité. Puisque vous cliquez sur un lien se trouvant sur une page de Facebook, il n’est pas surprenant qu’ils puissent s’en rendre compte.

La seconde méthode est plus subtile, et nécessite d’abord de comprendre le fonctionnement des cookies, et en particulier les cookies tierce-partie (third-party cookies).

Cookies

Fonctionnement des cookies (Illustration:  Wikipedia)

Fonctionnement des cookies (Illustration: Wikipedia)

Supposons que l’on se rend sur le site de “La Libre Belgique” (www.lalibre.be) pour la première fois. Le navigateur (Chrome, Internet Explorer, Safari, Firefox…) envoie une requête au serveur web qui gère le site en question. À cette requête, le serveur web renvoie principalement deux choses : le contenu de la page, ainsi qu’un ou plusieurs petits fichiers, appelés cookies, dont le contenu est choisi par le serveur. Lors du prochain chargement d’une page sur ce même site web (pas nécessairement la même page), ce petit fichier est renvoyé avec la requête au serveur, qui répondra à nouveau avec le contenu d’une page, et une nouvelle version du cookie.

Ce mécanisme permet au serveur de savoir que la même personne a chargé ces deux pages, et peut donc, par exemple, lui garder les mêmes préférences, comme typiquement la langue. Mais il permet également au gestionnaire du site web de savoir comment les gens naviguent sur leur site web : vont-ils au-delà de la page d’accueil, à quelle fréquence reviennent-ils, visitent-ils uniquement des articles sur le même sujet… Ce genre d’information est précieux pour améliorer “l’expérience utilisateur”.

Les cookies ne représentent jamais un danger en soi, ne peuvent pas contenir de virus ou autres objets malveillants. Ils permettent cependant d’un peu mieux connaître ses visiteurs. Certains peuvent donc se sentir un peu “pistés”, puisqu’il est relativement facile pour les gestionnaires du site de savoir quelles sont, par exemple, vos rubriques préférées (sans pour autant pouvoir y associer votre nom, sauf si vous vous identifiez vous même). Il est cependant possible de brutalement empêcher tout site web d’utiliser les cookies, mais c’est fortement déconseillé : en effet, sans cookies, il est impossible de s’identifier sur un site web, comme sa boîte mail, un forum ou les réseaux sociaux.

Il est par contre impossible, pour un site web, d’accéder aux cookies des autres sites web. En effet, quand votre navigateur se rend sur la page www.lalibre.be, il lui envoie uniquement les cookies correspondant au domaine www.lalibre.be (et pour être plus précis, ainsi que ceux du domaine lalibre.be). De base, le risque de traçage se limite donc au comportement sur un site web. Mais les choses se compliquent quand une page mélange du contenu de plusieurs sites web.

Cookies tierce-partie

FB-lalibre

Module “Facebook” sur le site www.lalibre.be

Lorsque le navigateur effectue une requête du type “donne-moi le contenu de la page d’accueil” au serveur web www.lalibre.be, il n’obtient en fait pas directement tout le contenu de la page, mais uniquement sa structure, c’est-à-dire, pour faire simple, le texte et l’organisation des différents éléments. Il doit ensuite charger tous ces éléments, tels que les images. Ces éléments ne se trouvent pas forcément sur le serveur www.lalibre.be. Il peut s’agir d’un simple bouton “J’aime” de Facebook, d’un flux Twitter ou d’un bloc “Facebook” avec la photo de profil de quelques personnes ayant “liké” la page (voir ci-contre). Les membres de Facebook auront probablement remarqué que, souvent, les premières photos correspondent à certains de leurs propres amis.

Pour charger ce module Facebook, le navigateur va donc contacter le serveur de Facebook, en lui communiquant la page sur laquelle se trouve le module en question, mais également les cookies de Facebook (Facebook ne recevra cependant pas les cookies de lalibre.be, et vice-versa). On parle ici de cookies tierce-partie (ou cookies tiers), puisqu’ils ne correspondent pas aux cookies de la page principale. Mais les cookies de Facebook envoyés pour récupérer ce petit module sont les mêmes que ceux qui ont servi la dernière fois que vous vous êtes rendus sur le site de Facebook.com. Facebook reçoit donc deux informations précieuses : la dernière personne qui s’est connectée à Facebook sur cette machine (avec ce navigateur), ainsi que la page sur laquelle elle s’est rendue.

La plupart des sites d’informations contiennent des éléments provenant de Facebook, permettant de “liker” un page, de la partager, ou de le commenter directement depuis son compte Facebook (idem pour Twitter ou d’autres réseaux sociaux). Si le but premier de ces éléments et de permettre facilement aux visiteurs d’un site web d’en faire la publicité, il donne également d’énormes possibilités de traçage aux gestionnaire de ces modules.

Par ailleurs, si l’objectif de l’implémentation de ces modules est clairement publicitaire à la base, il pourrait très bien avoir d’autres applications : techniquement, on peut parfaitement imaginer que la justice américaine impose à Facebook de lui fournir la liste de (presque) tous les pages web visités par un citoyen Européen (éventuellement avec l’heure de la visite),  sans qu’ils ne leur soit nécessaire de passer par le fournisseur d’accès à Internet de l’internaute en question, sur lequel ils n’auraient qu’un pouvoir limité.

Dans le même ordre d’idée, beaucoup de sites web utilisent un outil de statistiques développé par Google (Google Analytics), ce qui permet à Google de vous suivre de site en site.

Comment s’en prémunir

Se déconnecter

Cookie “c_user” de Facebook (Chrome)

Lorsque vous êtes connecté sur Facebook, un cookie nommé “c_user” contient votre identifiant (un nombre vous représentant de façon unique sur Facebook). Chaque fois que vous vous rendez sur une page contenant un des modules décrits ci-dessus, même si vous n’avez pas de page Facebook ouverte, cet identifiant est envoyé à Facebook, avec l’adresse de la page sur laquelle vous vous trouvez.

Par contre, lorsque vous vous déconnectez, ce cookie, ainsi que quelques autres, sont effacés. Et si vous vous rendez à présent sur une page quelconque reprenant le module illustré ci-dessus avec les photos de personnes “aimant” le site, il y a des chances que vous ne voyez plus vos amis en tête de liste. On pourrait donc penser que Facebook arrête de vous “pister” à ce moment-là.

Cookie "datr" de Facebook

Cookie “datr” de Facebook (Chrome)

Cependant, tous les cookies ne sont pas supprimés à la déconnexion. En particulier, un cookie (nommé “datr”) contenant un numéro unique, est créé la première fois que l’on se rend sur la page de Facebook (avant même de s’y connecter).  Il reste présent et inchangé lorsque l’on s’y connecte, ainsi que lorsque l’on se déconnecte. Facebook peut donc parfaitement continuer à vous “pister”, puisque dès que vous êtes connecté, il peut faire le lien entre votre compte, et ce numéro unique qu’il a créé pour “datr”. Nous n’avons cependant pas d’information attestant que Facebook le fasse réellement, mais ses ingénieurs se sont en tout cas donné les moyens de le faire.

Ce n’est donc pas une mesure parfaite : elle est d’une part laborieuse (il faut souvent se connecter et se déconnecter), et aucune garantie de résultat n’est donnée. Par ailleurs, elle vous protège du pistage par Facebook, mais pas par d’autres acteurs.

Utiliser le mécanisme “DO NOT TRACK”

Option "Do not track" de Firefox (onglet "Vie privée")

Option “Do not track” de Firefox (onglet “Vie privée”)

C’est le principe de l’autocollant “Pas de publicité” que vous apposeriez sur votre boîte aux lettres. Si cette option est activée dans les paramètres de votre navigateur, il demande “gentiment” aux sites sur lesquels il effectue des requêtes de ne pas activer les mécanismes de pistage. Le problème est que ce n’est pas du tout contraignant, et la plupart des sites n’en ont que faire. Les grands acteurs du secteur estiment par ailleurs que si un visiteur d’un site tiers dispose d’un compte chez eux (Facebook, Gmail…), ils ne sont pas tenus de respecter le “do not track”.

Refuser les cookies tierce-partie

Une troisième solution, moins brutale que de refuser tous les cookies, consiste à refuser tous les “cookies tierce-partie”. Cela se fait facilement sous Chrome, Firefox, ou Internet Explorer. Votre navigateur, lorsqu’il charge les différents modules d’une page, omettra d’envoyer les cookies associés. Pour chacun de ces modules, il donnera donc l’impression qu’il les charge pour la première fois, et que vous ne vous êtes jamais connecté sur les sites associés.

L’inconvénient est que certaines fonctionnalités pourraient être désactivées. Par exemple, certains sites d’information proposent de commenter directement un article avec son compte Facebook, ce qui ne sera pas possible sans cookie tiers. Mais de notre expérience, après plusieurs mois passés en les ayant bloqués, le désagrément est tout à fait mineur.

On sera surpris de voir le nombre de cookies qui sont bloqués par cette option. Par exemple, sur le site de la Libre Belgique, on retrouve des cookies pour Addthis.com, Dailymotion, Facebook, Gemius.pl, Google-Analytics, Logic-Immo, Twitter… Autant de services qui pourront donc savoir par quelle page (contenant le même module) vous êtes passé. Même sur des sites très officiels comme “France.fr”, on retrouve Facebook, Google-Analytics, Xiti (un autre outil statistique) ou Yahoo.

Utiliser une extension

ghosteryDe nombreux extensions (ou plugins) vous permettent de bloquer toute une série de “mouchards” (trackers), en allant beaucoup plus loin que le simple blocage de cookie. Probablement la plus avancée, Ghostery (pour Chrome, Firefox, Safari, Opera, Android ou iOS) repère automatiquement tous les mouchards et les bloque totalement. ghostery2La solution précédente (blocage de cookie tierce-partie) charge les modules sans leur envoyer de cookies, alors que Ghostery ne les charge tout simplement pas. Les modules en question sont alors remplacés par le petit encart ci-dessus. Le plugin est largement paramétrable, permettant de choisir ce qu’on veut bloquer ou non. Une petite icône affiche en permanence le nombre de mouchards trouvés, il n’est pas rare qu’il dépasse largement la dizaine.

Installer une extension alourdit certes le navigateur, mais étant donné qu’il limite le chargement de toute une série de modules, l’effet global sur les performances reste en général positif.

Savoir où vous allez en vrai

Facebook-permissionsRégulièrement dans la presse, on s’offusque des permissions que Facebook s’accorde pour ses applications pour smartphone. Que ce soit par rapport au fait que Facebook puisse lire vos SMS, utiliser le micro pour écouter ce qui se passe autour de vous ou plus généralement espionner les moindres de vos faits et gestes. Et si l’on regarde la liste de ces permissions, par exemple sur Android dans la figure ci-contre (cliquer pour l’agrandir), on ne peut objectivement que se demander si elles sont réellement légitimes par rapport au service offert : consultation de l’agenda, des contacts, de la position précise, des SMS, appels téléphoniques… Les permissions accordées à l’application Facebook Messenger sont légèrement différentes. Mais toujours est-il que Facebook a largement la possibilité de vous localiser à tout moment, et pourrait très bien s’en servir pour affiner la publicité qu’il vous adresse.

Il parait donc légitime de se poser deux questions :

  1. Est-ce que Facebook utilise réellement son droit ? Va-t-il réellement lire vos SMS, par exemple ?
  2. Est-ce qu’on peut l’en empêcher, sans désinstaller l’application ?

La réponse à ces deux questions dépendra du système d’exploitation (Android, iOS…) utilisé.

Android

AppOpsDepuis la version 4.3 d’Android (Jelly Bean et Kit Kat), un écran “caché” de la configuration permet un accès très fin aux permissions données aux applications. Il permet d’une part de voir la dernière fois qu’une application a demandé l’accès à une ressource en particulier (localisation, liste des SMS…), et d’autre part de bloquer individuellement chacune de ces permissions.

Pour accéder à cet écran caché, il suffit d’installer une application telle que AppOps ou Permission Manager (très légère et ne demandant aucune permission ! Il s’agit en fait de simples raccourcis vers des fonctionnalités du système) et y retrouver Facebook (écran ci-contre). On peut y constater que, après plusieurs mois d’utilisation quotidienne de Facebook sur ce smartphone (et avant d’avoir limité les permissions de Facebook), ni les SMS, ni l’agenda, ni le journal d’appel ou le téléphone n’avaient été accédés par l’application. Par contre, la localisation avait été utilisée, et l’application a accédé aux contacts.

J’ai par ailleurs depuis plusieurs mois bloqué tout ce qui ne paraissait pas nécessaire (localisation, contacts, agenda, téléphone, SMS…), sans la moindre conséquence jusqu’à présent. À se demander pourquoi s’octroyer autant de permission, si ce n’est pas pour s’en servir…

Il n’y a bien sûr pas que pour Facebook que cet outil de configuration est utile : elle vous permet par exemple de désactiver toutes les permissions qui ne vous semblent pas nécessaires pour la mission principale d’une application en laquelle vous n’avez pas totalement confiance.

iOS

Le fonctionnement des applications sur iOS (iPhone, iPad…) est quelque peu différent : à l’installation, une application ne demande aucune permission particulière. maps-ipadPar contre, dès qu’une application tente d’accéder à votre position, vos contacts, votre agenda ou tout autre information personnelle, la tablette ou le smartphone vous en demande la permission (cf image ci-contre, pour l’application “Maps”). Pas de risque donc qu’une application accède à certaines de vos informations à votre insu. Par contre, une fois la permission accordée, vous ne serez plus notifié pour les accès suivants.

Il est bien sûr possible à tout moment de changer d’avis, en allant dans les paramètres, onglet “Privacy” (Confidentialité). Pour chaque donnée (localisation, contact, agenda, micro…), vous pouvez choisir les applications qui y auront accès, et donc, empêcher par exemple à Facebook de suivre vos déplacements à la trace.

Windows Phone

Nous n’avions pas de Windows Phone à notre disposition au moment d’écrire ces lignes, mais la documentation indique que le principe est le même que celui pour les iOS : avant d’accéder à la localisation (ou à d’autres informations personnelles), l’application demande explicitement l’autorisation à l’utilisateur. Celui-ci peut par ailleurs changer d’avis par la suite et retirer cette autorisation.

Pour conclure

Cet article présente une partie des technologies à disposition de Facebook et d’autres grands acteurs comme Google ou Twitter pour suivre à la trace les internautes. Nous avons montré qu’il est facile de s’en protéger, et de les empêcher d’utiliser ces techniques sans perdre en fonctionnalité.

Dans un article précédent (Ce qu’un réseau social peut nous apprendre), nous avions déjà fait remarquer que l’information dont disposaient les réseaux sociaux à propos de ses membres allait bien au-delà de celle qui leur était explicitement fournie. Cet article va quelque part dans le même sens, comme beaucoup d’autres : Facebook ne se contente pas de savoir ce qui se passe au sein de son réseau, il se sert également de ce que ses utilisateurs font en dehors.

On pourrait cependant arguer que rien n’est totalement gratuit (Facebook doit financer ses serveurs et ses ingénieurs) et que donc si l’on ne paye pas en argent pour un service, il faut bien le faire d’une autre façon. La publicité ciblée rapportant beaucoup plus que la publicité “tout azimut”, cela permet à Facebook de minimiser la surface publicitaire. On peut également ne pas être en accord avec ces arguments, et vouloir être conscient du prix que l’on paye en contrepartie du service offert. Nous espérons que cet article peut y avoir contribué.

This entry was posted in Social and tagged , by Vandy Berten. Bookmark the permalink.
avatar

About Vandy Berten

Consultant Recherche chez Smals depuis mai 2013. Vandy était auparavant Professeur Assistant à l'ULB, où il enseignait les langages de programmation. Il a obtenu une thèse de doctorat dans la même institution en 2007. Il a été d'octobre 2015 à septembre 2018 chargé du cours de "Visualisation des données et de l'information", à l'ULB. Depuis quelques années, s'est spécialisé dans les techniques de Data Science, incluant le "(social) network analytics", le "data quality", le "machine learning", en particulier dans le domaine de la détection de la fraude.

8 thoughts on “Comment Facebook sait où vous allez, en vrai comme sur le net

  1. Votre article répond très bien à des questions que je me suis longtemps posées. Personnellement, j’utilise “uBlock Origin” pour bloquer les cookies tiers, qui est installé par défaut sur Tor.

    Toujours est-il que la collecte de données est bien pire avec sur applications de smartphones qu’avec les navigateurs internet.

  2. Bonjour Vandy,
    merci pour cet article très bien expliqué. Une petite question me taraude: comment les sites de retargetting publicitaires collectent les informations sur notre historique?
    Par exemple, si je me connecte aux sites A, puis B puis C, tous les trois indépendants (pas de liens facebook ou autre), comment la société de retargetting peut me proposer sur un site D une publicité ayant un lien avec A, B ou C? En d’autres termes, la société de retargetting a-t-elle un moyen d’aggreger tous les cookies des sites que nous visitons?
    Merci d’avance
    JL

    • Bonjour,

      Il suffit que les sites A, B, C et D possèdent tous un encart publicitaire géré par la même société de gestion de publicités. Les publicités pour les marques (Coca-cola, Toyota…) ne sont en effet pas gérées par les marques elles-même, mais par des intermédiaires (AdHese, Criterio, DoubleClick…). Ces publicités sont également des “iframes”, comme les boutons Facebook.

      Vous pourriez par exemple avoir une pub pour Coca-Cola sur le site A, LeMonde.fr sur le site B, et Toyota sur le site C, toutes les trois gérées par exemple par AdHese. Si AdHese gère également un encart publicitaire sur le site D, il peut savoir que vous êtes passé au préalable sur les sites A, B et C et peut donc adapter sa publicité en conséquence.

      Un plugin comme “Ghostery” protège également contre ce type de “traçage” publicitaire.

      • Peut-on en conclure que les sociétés de retargetting ne savent pas les sites que l’on visite si ceux-ci n’ont pas d’encarts publicitaires, ou existe-t-il d’autre moyen de tracking?
        merci

        • Exact. À nuancer par le fait que les sociétés publicitaires peuvent se vendre ou échanger leur données entre elles. Donc ils peuvent uniquement connaitre les sites que vous avez visités à partir du moment où eux-même ou un de leurs partenaires y ont un encart publicitaire. Mais une page web sans aucun encart publicitaire, ça n’existe quasiment pas…

  3. Pingback: Un lien vers Facebook sans “vendre” ses visiteurs | Smals Research

  4. J’ai vécu une expérience curieuse qui nuance peut-être un peu ce que vous dites concernant les cookies tierce-partie. Etant enregistré sur le site de Tripadvisor au moyen d’un pseudonyme, je me suis vu poser la question suivante par le site, à l’aide d’un pop-up : “Nous pensons que vous êtes Untel (identité Facebook différente du pseudonyme Tripadvisor). Pouvez-vous le confirmer ? “. Il semblerait donc que Tripadvisor soit utilise les cookies de Facebook, soit fait appel aux services de Facebook pour identifier ses visiteurs.

    • Bonjour,

      C’est une expérience intéressante, mais il me manque des éléments pour pouvoir l’expliquer. Ce qui est certain, c’est que c’est le navigateur qui gère les cookies, et qu’à moins d’être “buggué”, il ne donnera pas à TripAdvisor les cookies de Facebook, et vice-versa.

      Il faudrait d’abord savoir si la question a été posée dans une “fenêtre” (pop-up, iframe…) de TripAdvisor ou Facebook (dans un bloc à l’intérieur d’une page TripAdvisor). Si elle l’est par Facebook, il lui est facile de savoir quel est le dernier utilisateur qui s’est connecté sur cette machine, grâce aux cookies de Facebook (consultés par Facebook).

      Si la question vient de TripAdvisor, je vois principalement une explication : si vous avez, sur votre profil TripAdvisor, renseigné une adresse email ou un nom et un prénom, TripAdvisor peut aisément faire une recherche sur Facebook avec ces informations (via les API de Facebook), et vous proposer le compte qu’il a trouvé.

      Si vous avez plus de détails, ils m’intéressent !

Leave a Reply to Julien S Cancel reply

Your email address will not be published. Required fields are marked *