Fraud – Smals Research

E-discovery to the rescue

Joachim Ganseman — Wed, 16 Oct 2019 12:45:46 +0000

E-discovery is een algemene term voor technieken en software waarmee men informatie wil ontdekken in grote hoeveelheden heterogene documenten. “Document” mag daarbij breed geïnterpreteerd worden als eender welk bestand met machineleesbare informatie (e-mails, spreadsheets, presentaties, foto’s, …). Wat e-discovery onderscheidt van gewone data exploratie is dat men niet zozeer tracht een globaal overzicht te krijgen van de gegevens, maar vooral een specifieke vraag wil beantwoorden. Typische contexten waarin e-discovery wordt toegepast zijn gerechtelijke onderzoeken, onderzoeksjournalistiek, audits, of aanvragen in het kader van wetten op openbaarheid van bestuur.

Neem fraudebestrijding: op een reeks in beslag genomen harde schijven moeten bewijzen gevonden worden van, bijvoorbeeld, fraude met onkostennota’s. De inspecteur van dienst wordt geconfronteerd met veel te veel bestanden of emails om allemaal manueel te gaan uitpluizen, en onkosten kunnen gaan over vanalles en nog wat. Om geen bergen irrelevante info te moeten doorploegen zal men bijvoorbeeld eerst alle documenten willen groeperen waarin het woord “kost” of “rekening” in eender welke woordsamenstelling voorkomt. In een ander geval kan het dan weer nuttig zijn om alle emailconversaties tussen betrokken personen over een bepaald thema te kunnen afsplitsen van de rest. Nog een andere: alle documenten selecteren met het woord “factuur” in eender welke taal.

Segmentatie van datasets op basis van entiteiten herkend in de documentinhoud – visualisatie uit het e-discovery platform ZyLAB

In de juridische sector kan e-discovery worden ingezet om grote hoeveelheden jurisprudentie te doorzoeken naar eerdere zaken of naar wetgeving gerelateerd aan wat voorligt, om zo sneller een overzicht te krijgen van precedenten en/of mogelijke argumenten.

In Nederland krijgt de overheid jaarlijks zo’n 1400 verzoeken tot openbaarmaking van documenten vanwege journalisten, actiecomités of burgers. Dat vereist telkens dat bij vele verschillende instanties mogelijk duizenden documenten moeten worden opgevraagd, gebundeld, en actief geanonimiseerd voor publicatie (nodig om de privacy van betrokken personen te beschermen, en zo GDPR-compliant te zijn). In België is het “wobben” vooralsnog niet zo populair [1, 2, 3, 4, 5]. Vast staat wel dat de administratie die geconfronteerd wordt met de verplichting een groot intern dossier te publiceren, handenvol werk te wachten staat.

Documenten correct anonymiseren is een tijdrovend karwei zonder automatisering.

Dat soort grootschalige vragen beantwoord je niet in 1 keer. Veelal bekom je het resultaat pas na een iteratief proces van selecties en verfijningen. Gegeven de heterogeniteit en variabiliteit in de data, is het een kunst om zo snel mogelijk alle relevante documenten te groeperen, zonder enerzijds teveel irrelevante documenten te behouden of anderzijds relevante documenten over het hoofd te zien (dat selectieproces heet culling in het jargon). Om dat te faciliteren kunnen goede e-discovery tools ook machine learning inzetten, die de gebruiker toelaat classifiers te trainen die, naarmate er meer documenten zijn behandeld, steeds accurater zelf relevante documenten zullen kunnen identificeren, en/of daarin kunnen markeren wat eventueel nagekeken of geredigeerd moet worden voor publicatie. Het globale proces kan worden samengevat in het e-discovery reference model (EDRM):

In een typisch e-discovery proces worden gegevens uit verschillende bronnen eerst verzameld in een soort “data lake”. Daarna wordt een breed spectrum van tools voor analyse op deze gegevens losgelaten die zoveel mogelijk nuttige metadata uit de gegevens extraheert en opslaat. Een geavanceerde zoekinterface laat toe om het geheel verder te organiseren en in de diepte, desgewenst “fuzzy“, te doorzoeken. Vaak zijn er mogelijkheden om zelf concepten te definiëren die men belangrijk vindt en wil markeren – via systemen gaande van eenvoudige reguliere expressies, over allerlei vormen van named entity recognition, tot methodes van machine learning om moeilijker te vatten gecontextualiseerde informatie te kunnen capteren.

In de voorvermelde usecases wil men veelal binnen de inhoud van de documenten op zoek naar informatie waarvan men bovendien niet exact weet hoe die erin tot uiting komt. E-discovery tools trachten daarom vaak een vorm van “semantic search” aan te bieden en steunen daarvoor op allerlei technogieën die verder gaan dan enkel een full-tekst indexering van de gegevens: topic detection, clustering, classificatie, natural language processing, near-duplicate detection, zelfs sentiment analysis, kunnen allemaal nuttige indicatoren leveren die het zoekproces verrijken. Tot slot zal een goed e-discovery platform het verschil maken met een gewone zoekopdracht op een database door het faciliteren van het iteratieve karakter van het zoekproces (extraheer – review – analyseer – extraheer – …), aangevuld met batch editing en processing functionaliteit (denk aan het anonymiseren van vele documenten tegelijk).

Zo wordt de fase van data verzamelen, organiseren, schoonmaken en prepareren, die anders al snel 80% van een data-analyseproject uitmaakt, gestroomlijnd. De gebruikers van e-discovery tools zijn typisch geen IT-ers maar juristen, inspecteurs of journalisten. Een associatie zoals ACEDS verenigt gebruikers van e-discovery tools en organiseert opleidingen, certifiëringen of evenementen waarop best practices worden gedeeld. Dat is niet overbodig: je haalt pas echt rendement uit zulke gespecialiseerde tools eens je er de nodige ervaring mee hebt opgebouwd, en als je ze optimaal kan inbedden in de andere processen binnen je organisatie.

Enkele van de grote aanbieders van e-discovery platformen op de markt zijn RelativityOne, OpenText EnCase, nuix, IBM, AccessData, LogikCull, nextpoint, ZyLAB. Sommige van deze spelers richten zich specifiek tot juridische wereld of het overheidswezen. Open source tools voor bovenvermelde usecases beperken zich op het moment van schrijven vooral tot de domeinen van cybersecurity en low-level computer forensics (bvb. Sleuthkit). Voor algemene e-discovery is FreeEed zo goed als het enige bestaande open source project.

Screenshot van de open-source FreeEed e-discovery software met weergave van entity recognition.

Alles samengevat zijn gespecialiseerde e-discovery tools met name interessant wanneer je te maken krijgt met onoverzichtelijk grote datasets in een waaier aan documentformaten, waarin je gericht naar iets bepaalds op zoek bent, maar je hebt geen documentatie van de dataset of je kan niet rekenen op hulp van de eigenaar ervan – dus je zou niet weten waar te beginnen. Binnen de overheid kan dit vooral voor inspecteurs en auditeurs een hulp zijn, al kan vrijwel iedere overheidsdienst wel eens met een WOB-verzoek geconfronteerd worden waarvoor de archieven opengebroken moeten worden…

______________________

Dit is een ingezonden bijdrage van Joachim Ganseman, IT consultant bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Un fraudeur ne fraude jamais seul, partie 2

Vandy Berten — Tue, 13 Dec 2016 07:55:41 +0000

Dans l’article précédent, nous expliquions plusieurs scénarios dans lesquels des données de type “réseau” (à savoir un ensemble d’entités ou nœuds, comme des personnes ou des sociétés, reliées par un ensemble de liens ou relations, comme une relation de travail ou un lien d’amitié) sont collectées, et dans lesquels on cherche à identifier soit des structures particulières (comme dans le cas de spider constructions), soit des entités ayant des caractéristiques définies.

L’analyse de réseau (souvent appelée en anglais social network analytics) reprend l’ensemble des techniques algorithmiques permettant d’extraire certaines informations utiles à partir des données d’un réseau. Nous allons ici présenter quelques éléments de base de ce type d’analyse.

Simplifier

Réseau composé de personnes suspectes (P1-P5, orange), leurs employeurs (C1-C6, verts), les autres employés de ces employeyrs (a-t, bleu).

Lorsqu’un organisme de contrôle (inspecteurs fiscaux ou sociaux, services de police ou de renseignements) collecte des données “réseau”, il est rapidement confronté à un volume très important de données. Supposons que l’organisme en question ait 5 personnes dans le collimateur (P1-P5, en orange dans le réseau ci-contre), soupçonnées d’activités criminelles ou frauduleuses dans le cadre de leur travail, et voudrait d’une part déterminer les liens qui existent entre ces 5 personnes, et d’autre part identifier d’autres personnes qui pourraient être très proches de suspects, et mériteraient donc une attention particulière.

Une façon simple de faire serait de s’intéresser aux employeurs (présents et passés, en vert) de ces 5 personnes, puis à tous les autres employés de ces employeurs (en bleu, de “a” à “r”). Cela permettrait d’identifier des collègues en commun, et de voir à quel point les autres collègues sont liés.

Supprimer les super-connecteurs

Le problème d’une telle recherche est que si l’un des suspects a travaillé pour une très grosse entreprise (un ministère, une société de transport public, une grande chaîne de magasin…), ce nœud va faire exploser la taille du réseau, le rendant totalement inexploitable.

Réseau original après la suppression du super-connecteur “C4”, en ne gardant que la composante connexe principale.

Un exemple similaire apparaît si l’on veut retrouver des couples d’entreprises prétendument distinctes mais n’étant séparées que fictivement, en se basant entre autres sur leur adresse : certaines tours de bureaux dans des grandes villes sont parfois le siège social de plus de 1000 entreprises.

Une technique classique consiste alors à ignorer de tels nœuds (entreprise, adresse), que l’on peut qualifier de super-connecteurs, ou à tout le moins de les masquer provisoirement. On y perd potentiellement des informations importantes, mais l’on rend le reste du réseau exploitable. Moins d’information donc, mais plus de valeur.

Typiquement, la suppression de ces super-connecteurs va avoir pour conséquence de diviser le réseau en plus petits groupes, appelés “composantes connexes”, qui pourront être étudiées individuellement (cf image ci-dessus, où seule la plus grande composante connexe a été gardée).

Techniquement parlant, le degré d’un nœud désigne le nombre de ses relations. Par exemple, le degré d’un nœud “Travailleur” sera le nombre de ses employés, et le degré d’un nœud “Entreprise” correspondra au nombre de ses travailleurs. Les super-connecteurs sont donc des nœuds avec un haut degré.

Supprimer les feuilles isolées

Suppression des feuilles (nœuds de degré 1) n’étant pas un des nœuds orange (au cœur de l’analyse).

À l’autre extrémité, une “feuille”, c’est-à-dire un nœud de degré 1, connecté à un et un seul nœud, a souvent peu de valeur lorsque l’on veut établir des connexions entre des personnes ou d’autres entités. Il est souvent intéressant, en tout cas dans une phase de l’analyse, d’éliminer toutes les feuilles qui ne sont pas les nœuds à l’origine de l’analyse (les 5 individus évoqués ci-dessus, dans l’exemple cité). L’image ci-contre illustre ce filtre. Avec ce filtre, il ne reste que deux “nouveaux collègues”. On voit en particulier que “r” a été collègue avec chacun des nœuds orange, via les sociétés C2, C3 et C5, et mérite peut-être une attention particulière.

On peut même aller plus loin si on veut observer uniquement la “colonne vertébrale” d’un réseau, à savoir uniquement les nœuds principaux : on supprime alors tous les deux de degré inférieur à une valeur définie.

Une technique alternative, appelée “k-core”, consiste à supprimer tous les nœuds de degré 1 (plus généralement, de degré k). De ce fait, des nœuds, qui avant avait un degré deux, mais étaient connectés à un nœud que l’on vient de supprimer, se retrouvent avec un degré de 1 (par exemple C6 dans la figure ci-dessus). Le filtre “k-core” les supprime également, jusqu’à ce que plus aucun nœud du réseau n’ait un degré inférieur à deux (plus généralement k+1).

Distance

Après avoir collecté une série de nœuds et relations (provenant éventuellement de plusieurs sources), on peut se demander si deux individus, deux entreprises, deux organisations… ont des chances d’être en contact, même s’il n’existe pas de relation directe entre les deux. Différentes notions de “distance” permettent d’évaluer la proximité entre deux nœuds d’un réseau.

Plus court chemin

La mesure de la distance la plus classique consiste à compter le nombre minimum de relations qu’il faut parcourir pour joindre deux nœuds. Dans l’exemple ci-dessus, le travailleur P1 et son entreprise C1 sont à une distance de 1, deux collègues seront à une distance de 2, et P3 et C5 à une distance de 3. On parle de nœuds voisins pour désigner deux nœuds séparés d’une distance 1.

Différent algorithmes, dont les plus connus sont Dijkstra et A*, permettent de calculer efficacement cette distance.

Similarité de Jaccard

La similarité de Jaccard entre deux nœuds N₁ et N₂ d’un réseau désigne le ratio entre le nombre de nœuds étant des voisins communs de N₁ et N₂, et le nombre total de voisins de N₁ et N₂. Si l’on parle d’un réseau d’amitié comme Facebook, une similarité de Jaccard de 1 entre deux personnes signifierait que tous leurs amis sont communs, c’est-à-dire qu’aucun des deux n’a d’ami qui n’est pas également ami avec l’autre. Une similarité de 0 indique que deux personnes n’ont aucun ami en commun. Dans l’exemple de Facebook, une similarité élevée indique qu’il y a beaucoup de chances que les deux individus se connaissent, même s’ils ne sont pas “amis Facebook”. En d’autres termes, si deux personnes ont 1000 amis chacun sur un réseau social, mais seulement 50 en commun, ils seront considérés comme moins proches que deux personnes ayant chacun 100 amis, dont 50 en commun.

Dans notre exemple tout en haut de la page, P1 et P4 ont une similarité de Jaccard de 0,5 (2 voisins communs – C1 et C4 – et 4 au total – C1, C3, C4, C5), alors que P2 et P3 ont une similarité de 0.25 (1 voisin commun, 4 au total). Alors qu’en terme de distance simple, P1 et P4 sont séparés, comme P2 et P3, d’une distance de 2, la similarité de Jaccard nous enseigne que le premier couple est plus similaire que le second.

Centralité

Taille des nœuds en fonction de leur “betweenness centrality”.

Dans un réseau, tous les nœuds n’ont pas le même poids, la même importance. Il existe plusieurs façons de mesurer ce que l’on appelle la “centralité” d’un nœud. La mesure la plus simple, la “centralité de degré“, consiste à dire qu’un nœud de degré plus important est plus central. La “centralité d’intermédiarité” (betweenness centrality) évalue elle à quel point un nœud sert d’intermédiaire entre les autres nœuds. Le “PageRank” de Google est également un algorithme de centralité : il consiste à considérer que la centralité se diffuse via les liens. Si une page web importante A possède un lien vers une autre page web B, B héritera d’une partie de l’importance de A.

L’illustration ci-contre adapte la taille des nœuds en fonction de leur “betweenness centrality”. On y voit que le nœud “r” évoqué ci-dessus attire particulièrement l’attention par sa position centrale dans le réseau (en tant qu’intermédiaire).

Pour conclure

Si cet article présente l’utilisation de l’analyse de réseau dans le cas de la fraude, son utilisation est beaucoup plus large que ça. Elle permet également de modéliser des réseaux d’ordinateurs ou de télécommunication (serveurs/routeurs reliés entre eux par des câbles ou autre), des processus d’entreprises (tel service transmet tel document/demande/formulaire à tel autre service), d’usinage (une machine reçoit certaines pièces, produit une nouvelle pièce qui transite vers une autre machine), ou pour des analyses plus conceptuelles (liens entre des langues, des lois, des idées politiques…).

Il va de soi que les techniques utilisées en réalité sont beaucoup plus complexes que ce qui est présenté ci-dessus, ultra-simplifié à des fins pédagogiques. Mais la philosophie reste la même.

Illustrations réalisée avec Gephi (www.gephi.org)

Un fraudeur ne fraude jamais seul

Vandy Berten — Tue, 09 Aug 2016 08:58:48 +0000

Depuis toujours, certains essayent d’obtenir davantage que ce que la société veut leur accorder. Et depuis tout aussi longtemps, la société met un certain nombre de moyens en place pour prévenir ces abus. Aujourd’hui, la fraude occupe des équipes entières dans toutes les grandes banques, les assurances ou les institutions publiques et services de police et de renseignements. Si les techniques “classiques” (analyse individuelle et manuelle de dossiers, contrôles sur le terrain…) ont encore de beaux jours devant elles, tous ces organismes ont maintenant à leur disposition de très grandes quantités d’informations numériques à partir desquelles elles essayent de mettre en évidence des comportements suspects.

Techniques classiques

Voyons quelques techniques, ultra-simplifiées ici à titre d’illustration, d’analyse de données permettant de suspecter des fraudes, et qui nécessiteront bien sûr, ensuite, une investigation plus approfondie.

Détection “d’outlier”

On peut raisonnablement estimer que, dans la restauration, le chiffre d’affaire et le nombre d’employés soient corrélés, c’est-à-dire que, en général et pour une même classe de restaurant et une même région, une enseigne avec plus de personnel aura un chiffre d’affaire plus important (les deux mesures étant liées à un troisième facteur, à savoir le nombre de tables ou de clients). Un organisme tel que le ministère des finances, qui possède ces deux données, pourrait donc dessiner un graphique en nuage de points, dans lesquels chaque point représente un restaurant ; sa position sur l’axe des abscisses représente son nombre d’employés et sur l’axe des ordonnées son chiffre d’affaire, tel qu’illustré ci-contre (données totalement fictives).

Dans l’exemple ci-contre, le point orange en haut à gauche représente un restaurant ayant soit un chiffre d’affaire particulièrement élevé (par rapport à son nombre d’employés), soit un nombre d’employés très bas (par rapport à son chiffre d’affaire). On pourrait dès lors suspecter qu’une partie du personnel ne soit pas déclaré, voire, pire, que du blanchiment d’argent soit en cours dans ce restaurant.

De façon similaire, on pourrait suspecter dans le cas du point rouge (en bas) qu’il corresponde à un restaurant qui cache une partie de son chiffre d’affaire, ce qui pourrait inciter le service d’inspection à envoyer un de ses inspecteurs. En général, on appelle “outlier” une observation statistique qui se distingue nettement de la grande majorité des données. Il va de soi que dans la réalité, on fait ce genre d’exercice sur plus que deux variables.

Analyse du comportement

Les voleurs de cartes de crédit ont souvent un comportement d’achat en ligne différent d’un utilisateur classique. Par exemple, un fraudeur utilisera souvent plusieurs numéros de cartes de crédit depuis le même ordinateur (et donc depuis la même adresse IP). On sait aussi que, souvent, un fraudeur qui vient de voler un numéro de carte de crédit commence par l’essayer sur un faible montant, puis ensuite effectue une série d’achats plus conséquents. Par ailleurs, un même numéro volé peut avoir été revendu à plusieurs personnes ; un même numéro utilisé depuis deux ordinateurs très distants sur un court laps de temps peut être également considéré comme suspect. En combinant ce genre de règles, on peut établir un score, qui, s’il dépasse un seuil défini, déclenche un processus de vérification (comme par exemple un appel téléphonique au propriétaire de la carte).

Techniques de “Machine learning”

Comme la plupart des sociétés, les banques n’aiment pas prendre de risque, à moins qu’ils soient maîtrisés ou que le gain soit à hauteur du risque. Pour évaluer le risque qu’un client ne rembourse pas un crédit, les banques se servent souvent de techniques d’apprentissage automatique (machine learning). L’une d’entre elles consiste à fournir à un algorithme les données d’un grand nombre de crédit accordés par le passé (montant, nombre de mensualité, âge du créditeur, salaire, économies, situation familiale, autres crédits en cours, nombre de remboursements en retard, niveau d’études…), de façon à évaluer, lorsqu’un nouveau crédit est demandé, s’il doit être considéré comme risqué ou non. Autrement dit, on regardera si, dans une situation similaire (par rapport au créditeur et au crédit), les remboursements se passent en général bien ou non. Il s’agit de techniques de classification qui ont de nombreuses applications.

Paradoxe du faux positif

Un des grands arguments des opposants à l’utilisation de données massives par les services de police et de renseignement est connu sous le nom du “paradoxe du faux positif”. Supposons que, parmi la population belge, que nous arrondirons à 10 millions d’individus, il y ait 100 terroristes susceptibles de passer à l’action, et que, sur base d’une combinaison de techniques présentées ci-dessus (basées, par exemple, sur les méta-données de ses communications téléphoniques et par courriel, ou sur base du comportement sur les réseaux sociaux), on établisse un test qui identifie un terroriste, avec une fiabilité de 99 %, c’est-à-dire que 99 % des individus testés seront correctement catégorisés (et 1 % sera mal catégorisé). Avec un tel test, 99 des 100 terroristes seront (en moyenne) correctement identifiés par notre test (un seul individu sera donc un “faux négatif”). Ce qui peut sembler encourageant… mais cela signifie également que, parmi les (presque) 10 millions de personnes fiables, 1 %, soit 100’000 personnes, seront également qualifiées de terroristes (il s’agit donc de faux positifs). On aura donc que parmi le groupe de 100’099 personnes considérées par le test comme terroriste, moins d’un pour-cent sera en fait effectivement terroriste. Il ne sera clairement pas possible de tous les mettre sur écoute, ou de le faire surveiller.

Pour neutraliser le terrorisme en se basant uniquement sur des données collectées, il faudra donc un test beaucoup plus fiable que celui à 99 % évoqué ci-dessus.

Garbage In, Garbage Out

Par ailleurs, les chiffres présentés ci-dessous ne seront atteints que si les données sont de bonne qualité, c’est-à-dire que les données encodées correspondent à la réalité observable : les adresses des entreprises sont toujours correctes, un nom n’a pas mal été orthographié et confondu avec une autre personne… si ce n’est pas le cas, les résultats des algorithmes seront bien entendu encore moins fiables. D’où l’adage “garbage in, garbage out” : si on donne des données de mauvaise qualité à un algorithme, aussi performant soit-il, le résultat sera de mauvaise qualité. Or dans la réalité, il est d’une part impossible, à partir du moment où une personne encode des données, de s’assurer qu’elles soient toujours correctes, et d’autre part, la réalité évolue toujours plus vite que les données la représentant.

Limites

Une caractéristique commune des méthodes présentées ci-dessous est que l’on analyse le comportement ou la position d’une entité en la comparant ensuite à des repères calculés au préalable (typiquement basés sur l’ensemble des autres entités). Mais on ne considère pas une entité dans sa relation avec d’autres entités. Or en général, les fraudeurs et criminels n’agissent pas seuls. Un entrepreneur monte une structure financière parce qu’un de ses collègues l’a fait avec succès avant lui ; une personne entre dans le monde de la délinquance parce qu’elle est en contact avec des gens qui en font déjà partie. C’est de façon générale ce que les sociologues appellent l’homophilie : qui se ressemble s’assemble, toute personne est influencée par son environnement et ses relations (à ne pas confondre avec l’acception plus répandue de l’homophilie concernant l’orientation sexuelle).

De plus en plus, on s’intéresse au réseau social des entités considérées. Par réseau social, on n’entend bien sûr pas Facebook ou Twitter, mais un ensemble d’entités (personnes, entreprise, lieu…) et les relations qui existent entre elles (l’individu I travaille pour ou dirige l’entreprise E, qui a son siège social à l’adresse A, I₁a téléphoné à I₂…).

Analyse de réseaux sociaux

Un réseau (ou un graphe) est donc une abstraction mathématique qui représente un ensemble d’entités (appelées nœuds), dont certaines sont reliées entre elles (au travers de liens, ou d’arcs). Un blog y a déjà été consacré il y a quelques temps. Dans la majorité des pays du monde, les services officiels, tels que ceux liés à la sécurité sociale, au ministère des finances ou de l’économie, disposent d’un grand nombre d’informations pouvant être vues comme un réseau :

Une personne P travaille, est gérante ou administratrice d’une entreprise E. P et E sont les nœuds, l’arc est la relation de travail ;
Une entreprise E a son siège social à l’adresse A (éventuellement commune à d’autres entreprises) ;
Une entreprise E₁ sous-traite une partie d’un travail, comme un chantier de construction, auprès d’une entreprise E₂.

Pour chacune de ces relations, l’arc peut disposer d’un certain nombre de labels ou d’attributs : date de début, date de fin, type de relation (“travailleur”, “gérant”, “siège social”…), éventuellement poids de la relation (nombre de parts d’un actionnaire, montant financier d’une sous-traitance…).

Des services de police ou de renseignements peuvent également disposer d’autres informations :

Une personne P₁ téléphone à une personne P₂ ;
Une personne P₁ est le père/frère/cousin d’une personne P₂ ;
Une personne P a été vue à l’endroit X.

Faillite organisée

Une technique de fraude sociale répandue consiste à créer une société, y engager du personnel et le rémunérer, éventuellement commander des fournitures et, juste avant de devoir payer les charges sociales ou les fournisseurs, s’arranger pour mettre la société en faillite. Il suffit alors de recommencer le même processus, idéalement dans une autre région pour ne pas tomber sur les mêmes juges ou curateurs. Ce type de fraude est connu sur le nom de “spider construction” (ref1, ref2). Le schéma est en général complexe : on a par exemple deux associés, qui s’associent chaque fois à des personnes différentes pour créer différentes sociétés fictives ; avec de temps en temps des sous-traitants complices, de temps en temps victimes. Un fraudeur peut par ailleurs être gérant d’une compagnie, puis administrateur d’une autre et comptable de la troisième.

La figure ci-contre illustre un exemple, dans lequel trois sociétés (1, 2, 3, marquées par une croix rouge) ont déjà fait faillite, et par lesquelles les deux individus du milieu sont passés. Par ailleurs, une société a été sous-traitante pour les trois sociétés en question. La société 4 mérite toute l’attention des inspecteurs : elle partage à la fois les deux personnes “suspectes”, ainsi que le sous-traitant potentiellement complice.

Homophilie et diffusion

La technique précédente ne présuppose aucune connaissance par rapport au caractère frauduleux de certaines personnes. Mais souvent, les services d’inspection ont un historique et ont déjà pu découvrir de nombreux cas de fraude. Cette connaissance peut alors être utilisée. On se base alors sur le principe de l’homophilie déjà évoqué ci-dessus : on a plus de chance de trouver un fraudeur (ou plus généralement un criminel) dans l’entourage proche d’un autre fraudeur qu’en inspectant une personne ou une entreprise totalement au hasard. On constate également que plus une entreprise est liée à une entreprise où de la fraude a été mise à jour (beaucoup de responsables en commun, des sous-traitants identiques…), plus y a de la chance d’y trouver de la fraude.

Dans l’exemple ci-contre, une fraude a été mise au jour au sein de la société B, au centre (macaron rouge). On va dès lors examiner toutes les entreprises “voisines”, c’est-à-dire ayant partagé des employés (pas nécessairement simultanément), travaillé sur des chantiers communs (s’il s’agit d’entreprises de construction), ou utilisant des mêmes fournisseurs ou sous-traitants. Une relation ayant duré plus longtemps sera considérée comme plus “forte” (lignes plus épaisses dans le schéma ci-contre).

L’entreprise A étant plus fortement connectée à B que C, elle sera considérée comme plus à risque (macaron rose foncé pour A, pâle pour C). Par ailleurs, si A était également proche d’une autre entreprise aussi considérée comme à risque, cela ferait augmenter son “score de risque” en conséquence.

Plus généralement, les techniques utilisées pour diffuser les scores de risques sont proches de l’algorithme “PageRank” de Google, utilisé pour trier les résultats d’une recherche. Plus une page est importante, plus elle donnera de l’importance aux pages vers lesquelles elle a des liens.

Dynamique des réseaux

Dans le but d’éviter d’être repérés par la police, il n’est pas rare que deux individus ne se contactent jamais directement, mais passent systématiquement par un intermédiaire pour se transmettre des informations. Si l’on considère toutes les conversations téléphoniques entre les membres d’un groupe sous surveillance, comme illustré ci-contre, on pourrait penser que Charline n’est jamais en contact avec Bob, et que Danièle ne communique pas avec Frank.

Mais si l’on observe ce réseau comme un film, en ne considérant que les contacts ayant eu lieu sur une fenêtre de temps relativement courte, on pourrait apercevoir que, chaque fois que Danièle contacte Éric, celui-ci contacte Frank dans la foulée (temps 1), et que dans les minutes qui suivent chaque appel de Charline à Éric, ce dernier appelle systématiquement Bob (temps 2).

On peut donc en conclure que Danièle et Frank sont plus que probablement en contact (indirect), ainsi que Charline et Bob, et que, dans les deux cas Éric sert d’intermédiaire.

De façon générale, si l’on peut déjà obtenir beaucoup d’information d’un réseau “statique”, considérer sa composante dynamique ou temporelle apporte souvent de nombreux renseignements précieux.

Conclusions

L’analyse de réseaux sociaux (ou Social Network Analytics) est une des grandes tendances du moment en matière de lutte contre la fraude. Les grands fournisseurs de logiciels que sont SAS ou IBM mettent par ailleurs beaucoup de moyens dans le développement d’outils tels que SAS SNA ou IBM I2, avec pour cible tant les grandes sociétés privées (banques, assurances, télécommunication…) que les services publiques (sécurité sociale, finance, police…).

Avec des outils d’analyse de réseaux dans des environnements “Big Data”, des outils comme GraphX de Spark (compatible avec Hadoop) ouvrent encore de nouvelles possibilités, étant donné la quantité de plus en plus importante de données à la disposition des organismes, et la complexité de certains algorithmes.

Il va de soi de ces nouvelles possibilités d’analyse posent des questions en matière de vie privée. On peut par exemple techniquement sans difficulté combiner des données officielles avec des données publiques collectées sur Facebook ou Twitter. Ceux qui font donc ce genre d’analyse doivent s’assurer de le faire en conformité avec la loi. Et il va dans l’intérêt du citoyen lambda de faire attention à ce qu’il laisse trainer sur les réseaux sociaux.

Références :

[book] “Fraud Analytics ; using descriptive, predictive and social network techniques“, B. Baesens, V. Van Vlasselaer & W. Verkere, Winley, 2015
Social Network Analysis for Fraud Detection (B. Baesens, V. Van Vlasselaer)
Social Networks for Fraud Analytics (B. Baesens, V. Van Vlasselaer)

Schémas réalisés avec yEd (http://yed.yworks.com)