Dans notre dernier article, nous avons détaillé le fonctionnement du navigateur “Tor”, qui permet de naviguer de façon quasiment intraçable sur le web. C’est une des deux façons d’utiliser Tor. La seconde, c’est d’utiliser cet outil comme portail d’entrée sur le “dark web”. Nous avons ces derniers mois exploré cette zone sombre du web. Qu’est-ce que c’est ? Qu’y trouve-t-on ? Comment s’y retrouver ? Dans cet article, nous allons partager notre modeste expérience de ce monde qui, s’il a été créé au départ pour offrir un espace d’expression sécurisé pour les dissidents de régimes autoritaires, est devenu aujourd’hui essentiellement le paradis de la cybercriminalité.

Commençons par un peu de vocabulaire. Différencions d’abord deux concepts trop souvent confondus : Internet et le Web. Internet, c’est une infrastructure, interconnectant des milliers de réseaux, permettant à n’importe quelle machine en faisant partie, dont l’appareil avec lequel vous lisez cet article, de communiquer avec (presque) n’importe quelle autre (par exemple le serveur qui héberge notre site web). Internet, qui existe depuis le début des années ’70, a permis le déploiement d’un grand nombre d’applications : le courrier électronique, le transfert de fichiers (FTP), le contrôle à distance (telnet, SSH et successeurs), les messageries, la visioconférence, ou encore le (World Wide) Web, apparu au CERN début des années ’90 et qui a réellement popularisé Internet. Il permet, à l’aide d’un “navigateur” (le premier étant Mosaic, qui a évolué en Netscape, pour devenir aujourd’hui Firefox ; mais aussi Chrome, Edge, ou Opera), d’afficher de façon interactive un document généré par un serveur Web. Le Web, de son nom complet “World Wide Web”, c’est donc une des nombreuses applications utilisant l’infrastructure d’Internet ; il est composé d’un protocole de communication entre le serveur et le navigateur (HTTP/HTTPS), d’un protocole de désignation d’une ressource (URL) et d’un format de document (HTML).

On considère en général que le contenu du Web peut être divisé en trois catégories :

le “web de surface” (surface web, clear web) est toute la partie directement accessible avec un navigateur, sans restriction d’accès et indexée par les moteurs de recherche : ce blog, le contenu de la plupart des médias, Wikipédia ou tout un tas d’autres ressources ;
le “deep web” est la partie du web qui n’est pas indexée par les moteurs de recherche. On peut y accéder à l’aide d’un navigateur classique, pour autant qu’on en connaisse l’adresse, ou les informations privées (nom d’utilisateur, mot de passe…) pour s’y rendre. Le contenu non public des médias sociaux, votre boite mail, le contenu d’entreprises à accès restreint…
le “dark web” est la partie du web qui nécessitera des outils spécifiques ou des configurations particulières pour y accéder. On aura typiquement besoin d’un navigateur tel que Tor, mais également d’une “adresse .onion”, une chaine de 56 caractères impossible à retenir (par exemple http://juhanurmihxlp77nkq76byazcldy2hlmovfu2epvl5ankdibsot4csyd.onion/).

C’est cette dernière partie qui va nous intéresser dans cet article. Il faudrait en fait plutôt parler des dark webs. Il en existe plusieurs, chacun utilisant une architecture propre et des technologies différentes. Les plus populaires sont Tor, et, loin derrière, I2P et Freenet (devenu Hyphanet). Nous allons nous concentrer sur Tor dans la suite de cet article.

Si on utilise le navigateur Tor pour naviguer sur un site du “clear web” (par exemple, https://www.smals.be), le client est très bien protégé, mais pas le site visité : on peut connaitre facilement son adresse IP, et donc où il est hébergé, et les autorités du pays concerné pourront imposer sa fermeture, voire obtenir de nombreuses informations sur ses utilisateurs. Ceci parce que le réseau Tor ne contrôle pas la connexion entre son nœud de sortie et le serveur de destination.

Il existe une façon, pour l’hébergeur d’un site web, de se protéger autant que le client, de façon à ne jamais dévoiler son adresse IP. L’idée est de mettre d’abord en place un serveur web classique (avec NGINX ou Apache, par exemple), puis d’installer, sur la même machine, un “serveur Tor” (moins de 5 minutes de travail). Celui-ci va générer une “clé publique” de 56 caractères alphanumériques qui servira d’adresse (de la forme <clé publique>.onion), et la renseigner auprès des annuaires décentralisés du réseau Tor. En procédant de la sorte, le gestionnaire du site web en question peut publier une adresse “.onion”, qui ne sera plus accessible aux utilisateurs d’un navigateur classique, et à partir de laquelle il sera très difficile, voire impossible, de remonter jusqu’à lui. Intéressant pour un dissident dans un pays autoritaire, mais également pour gérer en toute sécurité un business criminel.

Pour plus de détails, à la fois le client et le serveur vont utiliser un “circuit Tor” de 3 nœuds, pour se retrouver à un “point de rendez-vous”, ce qui permet tant au client qu’au serveur d’obtenir toutes les garanties d’anonymat. Mais avec dans certaines situations jusqu’à 6 nœuds intermédiaires. Notons que lorsqu’on se connecte avec le navigateur Tor a un service “.onion”, la connexion est chiffrée de bout en bout. Il n’est donc pas nécessaire d’ajouter une couche de chiffrement en utilisant HTTPS.

Remarques générales

Nous avons passé quelques semaines à explorer le dark web et à nous familiariser avec cet univers. Clairement pas suffisant pour pouvoir se targuer d’en être devenus des experts, mais assez pour se faire une première impression. Nous avons fait cette exploration avec Tails + Tor. Nous n’avons bien sûr jamais rien commandé sur les “markets”, ne sommes pas intervenus sur les forums et ne sommes de toute évidence pas entrés sur des sites contraires à la loi et à la décence. Avant d’entrer dans plus de détails dans les différentes types de contenu, commençons par quelques remarques générales.

La gestion des noms “.onion” est particulièrement peu conviviale. Impossible à retenir, et très difficile de s’assurer qu’on est sur le bon site et pas sur une version “pirate” ;
Beaucoup plus que sur le web “classique”, il y a une grande volatilité des adresses. Si vous trouvez une adresse sur une page (par exemple via un moteur de recherche ou un “hidden wiki”, voir plus bas), il y a beaucoup de chances qu’elle ne soit plus valide ;
Une partie importante des sites (markets, forums, moteurs de recherches) semblent sortir tout droit du début des années 2000… un design et une ergonomie très “vintage”, peu conviviale, qui fait souvent presque mal aux yeux. Peut-être entre autres parce que la plupart sont conçus pour pouvoir fonctionner sans Javascript, ce qui est recommandé pour limiter les risques ;
La méfiance étant la norme sur le dark web, de nombreux sites sont protégés par un système de Captcha, mais ceux-ci sont particulièrement difficiles à résoudre. Pour empêcher les robots de les réussir, ils sont réglés à un tel niveau que même un humain (en tout cas votre serviteur) a du mal à les réussir. Voir l’exemple ci-contre. Sauriez-vous lire le mot ?
La plupart des sites web sont particulièrement lents. Ceci est sans doute dû à la nature même du réseau Tor, qui fait passer chaque requête par au moins 3 (voire 6) nœuds intermédiaires, pas nécessairement très puissants.

Contenu

Points d’entrée

Il est de loin plus difficile de trouver ce que l’on veut sur le dark web que sur le “clear web”. Il est clairement impossible de retenir, voire même de retaper une adresse “.onion”. Il y a principalement deux façons de démarrer une exploration avec Tor :

utiliser un “hidden wiki”, soit un annuaire de liens classés par catégorie. Il en existe un certain nombre, certains sur le clear web facilement trouvables en cherchant “hidden wiki” avec un moteur de recherche classique. Il faut cependant s’attendre à ce qu’une part importante des liens ne marchent plus.
se servir d’un moteur de recherche dédié, uniquement accessible avec Tor, dont on trouve facilement l’adresse “.onion” sur un “hidden wiki”. “Torch” ou “Ahmia” en sont des exemples. Il ne faut cependant pas s’attendre à des performances comparables à des Google ou autres DuckDuckGo : non seulement peu de résultats pour une recherche un peu ciblée, mais souvent une liste de résultats peu explicites. On ne sait donc pas toujours sur quoi on clique.

Markets

De nombreux “markets” sont disponibles sur le dark web, fonctionnant un peu comme Amazon ou Bol.com. La plupart exigent des paiements en Bitcoin (ou plus souvent Monero, qui empêche de faire le lien entre deux transactions), et proposent toute un série de produits qui ne sont pas accessibles sur des marchés plus classiques :

armes et munitions, du petit pistolet aux fusils d’assaut ;
drogues et médicaments, probablement le secteur le plus fourni ;
faux documents : passeports, permis de conduire, cartes d’identité, et ce pour de multiples pays ;
numéros de cartes de crédit volés, d’autant plus cher que le plafond est élevé. Compter entre 50 et 100 euros le numéro ;
fausse monnaie ;
services :
- hackers : des hackers proposent de nombreuses options, allant d’une DDoS, à la pénétration d’un système ou au piratage de comptes mail ou réseaux sociaux,
- atteinte aux personnes : on trouve de nombreuses proposition de “services” : assassinat, enlèvement, agression. Certains estiment cependant qu’il ne s’agit là que de tentatives d’extorsion.

Forums

De nombreux forums sont disponibles, dans toutes les langues. Ils ont tous en commun que les participants étant intraçables, ils ne se privent pas pour faire des demandes ou propositions totalement illégales, voire carrément abjectes. Les insultes et vulgarités sont la norme. Messages ouvertement racistes, propositions ou recherches de stupéfiants, demande ou vente de contenu pédopornographique…

Data leaks

On peut trouver facilement, gratuitement ou non, une grande quantité de données volées, que ce soit sur des forums ou sur des markets. On pourrait les classer en deux catégories :

des listes de “credentials” : nom d’utilisateur + mot de passe, parfois avec le site concerné. Vraisemblablement obtenus par phishing ou par “keylogger”, difficile de s’assurer (sans les avoir testés, ce que nous n’avons bien sûr jamais fait) de l’actualité des données. Mais sur des millions de lignes, on peut imaginer qu’on trouvera toujours des accès fonctionnels ;
des résultats de ransomware. Quand des pirates parviennent à s’introduire dans le système d’une entreprise, ils vont souvent chiffrer l’intégralité des données et exiger une rançon pour les rendre accessibles. Et si la rançon n’est pas payée, de nombreux groupes publient en intégralité le contenu volé. On peut trouver un certain nombre de sites, avec pour les négociations “en cours”, des “preuves” (captures d’écran de quelques documents, typiquement ; voir ci-dessous pour le piratage du groupe Ahold Delhaize par le groupe INC Ransom), et pour celles expirées, un accès à de grands volumes. On pourrait citer :
- les données d’une mission locale dans le Sud-Ouest de la France : listing avec les noms (dates de naissance, n° téléphones) des jeunes suivis,
- une société pharmaceutique française, avec des plans d’usine, contrats avec des partenaires, contenu d’une base de données de test,
- pour une Loge maçonnique française : analyse interne de sécurité, invitations, listes de membres et montants de cotisations,
- pour les 200 GB de données du groupe néerlandais “Ahold Delhaize”, semble-t-il surtout concernant son activité aux États-Unis,
- pour un pôle de revalidation belge, parmi de nombreuses données (gestion, achat, finances, RH…), des informations personnelles sur plus de 30.000 patients (nom, prénom, date de naissance, code de pathologie), ainsi qu’un “export” de 380.000 patients avec beaucoup de détails personnels (nom, adresse, téléphone, email, numéro de mutuelle…), mais peu de détails médicaux .

Activisme

À côté des activités illégales citées plus haut, on trouve aussi une série de sites web qui se rapprochent des raisons initiales de la création du réseau Tor. On va y trouver un certain nombre d’organisations ayant pignon sur rue, mais ayant une version “.onion” de leur site web pour recueillir les informations de lanceurs d’alerte : Greenpeace, CNN, The Guardian, ProPublica, la CIA…

On trouvera aussi un certain nombre de blogs que l’on pourrait qualifier d’activistes, de rebelles, en lutte contre les violences policières, et qui se mettent sur le dark web pour éviter la censure. Il s’agit souvent de sites web à deux accès : un sur le “clear web”, un autre sur le dark web.

Conclusions

Il se dit que les marchandises les plus “sensibles” ne s’obtiennent de personne à personne qu’après avoir établi une relation de confiance avec ceux qui les possèdent, en particulier en ce qui concerne le hacking et ses outils. N’étant rentré en contact avec personne sur le dark web, nous sommes sans doute passé à côté de tout un pan de ce qu’on pourrait y trouver.

Mais ce que nous avons pu y trouver en seulement quelques semaines d’exploration nous a convaincus que de nombreuses administrations et entreprises auraient tout intérêt à au minimum se demander si on y trouve des activités liées à leur domaine d’action, ou des données de leur personnel ou de leurs clients. Même s’il est quasiment impossible de faire disparaitre ces données, il conviendra de prendre les mesures adéquates en cas de fuite. En cas de problème, il est essentiel de se faire aider par des spécialistes. En Belgique, en fonction des circonstances, un appel au CCB (Center for Cybersecurity Belgium) ou la FCCU (Federal Computer Crime Unit, Police) sera à faire de tout urgence.

Ce post est une contribution individuelle de Vandy Berten, spécialisé en data science chez Smals Research. Cet article est écrit en son nom propre et n’impacte en rien le point de vue de Smals.

Smals Research

Le dark web, l’Eldorado des criminels ?