statistics – Smals Research

Privacybevorderende technologieën voor de publieke sector

Kristof Verslype — Tue, 12 Oct 2021 04:30:00 +0000

Het wordt steeds makkelijker om grote hoeveelheden persoonsgegevens te verzamelen en te verwerken. Dit creëert enerzijds heel wat opportuniteiten, zoals het doen van statistische analyses ter verbetering van de gezondheidszorg. Tegelijkertijd moet echter rekening gehouden worden met de privacy van de burger, wat een juridische basis vindt in de GDPR. Met traditionele aanpakken en technologieën kan het omslachtig tot zelfs onmogelijk zijn om functionele noden en privacyvereisten met elkaar in balans te brengen. De behoefte naar meer geavanceerde technologieën groeit dan ook. Privacybevorderende technologieën, of privacy-enhancing technologies (PETs), kunnen hier een uitweg bieden en laten met behulp van cryptografie en/of statistiek zaken toe die zelfs intuïtief onmogelijk kunnen lijken.

Doordat PETs een elegant alternatief kunnen bieden op meer omslachtige traditionele aanpakken, kan hun gebruik bovendien leiden tot een vereenvoudiging van bestaande procedures, niet alleen op technisch, maar ook op juridisch vlak. In deze gevallen worden de procedures dan ook sneller en goedkoper, terwijl ook de veiligheidsrisico’s afnemen. Een aantal redenen daartoe kunnen zijn:

Een reductie van het aantal informatiestromen
Een reductie van het aantal TTPs (Trusted Third Parties)
Een reductie van het vertrouwen dat in TTPs gelegd dient te worden
Maatwerk maakt plaats voor een meer uniforme aanpak.

Dit artikel wil een leidraad zijn bij het selecteren van de juiste PET. Wel moet beseft worden dat dit maar een selectie van PETs en use cases is, dat niet alle PETs vandaag volledig matuur zijn en dat steeds nagedacht moet worden over de correcte toepassing ervan. Dit artikel is een aanzet en zal, met voortschrijdend inzicht en voortschrijdende technologische evoluties in de toekomst verder verfijnd worden.

In het buitenland werden reeds gelijkaardige, uitgebreidere oefeningen gedaan. We verwijzen graag onder meer naar Privacy Enhancing Technologies Adoption Guide door het Centre for Data Ethics and Innovation, naar Protecting privacy in practice van The Royal Society en naar het meer academische A taxonomy for privacy enhancing technologies door Johannes Heurix, Peter Zimmermann, Thomas Neubauer en Stefan Fenz.

PETs selectieboom

Onderstaande figuur geeft onze eigen, adviserende PET-selectieboom weer, die focust op behoeften vanuit de publieke sector. De boom heeft (momenteel) acht bladeren, die elk een groep van use cases voorstellen. Elk van deze bladeren wordt onder de figuur toegelicht. Voor details over de PETS zelf voorzien we doorverwijzingen/links.

1. Burger wil controle over prijsgave eigen persoonsgegevens bij authenticatie

De burger moet zich geregeld, zowel online als offline, authentiseren, wat wil zeggen dat ze bepaalde eigenschappen over haarzelf dient te bewijzen. Een aantal voorbeelden:

Om alcohol te kopen moet ze bewijzen dat zij volwassen is
Om een auto te huren moet ze bewijzen dat ze over een rijbewijs van het juiste type beschikt en verzekerd is.
Om recht te hebben op korting bij een museumbezoek, moet ze bewijzen dat ze in die bepaalde gemeente woont.

In elk van voorgaande voorbeelden wordt in de praktijk m.b.v. de identiteitskaart en/of andere documenten veel meer informatie prijsgegeven dan strikt noodzakelijk. Om alcohol te kopen moet de burger bijvoorbeeld enkel kunnen bewijzen dat zij volwassen is. Om korting te krijgen in het museum volstaat te bewijzen dat haar postcode behoort tot de postcodes van die gemeente. Haar exacte geboortedatum, haar identiteit, exacte postcode, geslacht en andere informatie op de eID doen er niet toe en blijven vanuit een privacy-standpunt beter verborgen. Dergelijke selectieve prijsgave van attribuutinformatie wordt mogelijk dankzij zero-knowledge proofs, wat we terugvinden in self-sovereign identity (SSI) oplossingen, zoals attribute-based credentials. Ook zijn er oplossingen, zoals Sovrin, die zero-knowledge proofs integreren in blockchain technologie.

2. Onderzoeker wil inzichten verkrijgen uit persoonsgegevens die gefragmenteerd zijn over meerdere organisaties.

Dit kan gaan over een combinatie van gezondheidsdata, socio-economische data, etc. die gefragmenteerd zijn over meerdere organisaties. Gegeven de huidige stand der techniek, geven we er de voorkeur aan om eerst de data te kruisen (zie puntje 4), en vervolgens ter beschikking te stellen van de onderzoeker (zie puntje 3). Indien dit kruisen (samenbrengen van gegevens) omwille van strikte privacy- of andere redenen echt niet mogelijk is, moeten we echter terugvallen – als laatste redmiddel – op een andere aanpak.

Bij die andere aanpak worden de scripts/queries van de onderzoeker gedistribueerd uitgevoerd, wat wil zeggen dat de verschillende participanten met elkaar interageren, zonder een centrale partij. De (persoons)gegevens beheerd door de verschillende organisaties worden daarbij op geen enkel moment prijsgegeven. De onderzoeker krijgt enkel het resultaat van zijn script/query te zien en voor de rest lekken er geen persoonsgegeven, noch naar de onderzoeker, noch naar andere data bronnen.

Dit is in theorie mogelijk met secure multiparty computation (SMC). Vandaag is deze aanpak eerder experimenteel en blijft het doorgaans nog erg moeilijk om dit ook in de praktijk om te zetten.

3. Onderzoeker wil inzichten verkrijgen uit persoonsgegevens die zich bij één organisatie bevinden.

De onderzoeker die inzichten wil bekomen uit gezondheidsdata, socio-economische data, etc. van burgers kan niet zomaar toegang gegeven worden tot de ruwe geïdentificeerde persoonsgegevens. Het vervangen van de identifiers door codes (pseudoniemen) zal niet volstaan, gezien records via combinaties van attribuutwaarden te herleiden kunnen zijn naar unieke personen. Er zijn een aantal benaderingen om hiermee om te gaan, waaronder de volgende:

De onderzoeker krijgt slechts toegang tot een vervaagde (gegeneraliseerde) versie van de dataset. Daarbij gaat onvermijdelijk informatie verloren: de data wordt in het beste geval minder nuttig maar blijft wel bruikbaar, terwijl de identificatierisico’s significant dalen. In het slechtste geval wordt de data compleet nutteloos indien we de identificatierisico’s aanzienlijk willen reduceren. De voornaamste technologieën hiervoor zijn k-anonymity en l-diversity.
De onderzoeker krijgt geen toegang tot de data zelf, maar kan wel queries uitvoeren. Het resultaat van de query wordt vervaagd voor het aan de onderzoeker doorgegeven wordt. Gezien het voorzien van ruis later gebeurt dan in voorgaande bullet zal het effect op het uiteindelijk resultaat beperkter zijn. Deze aanpak steunt op differential privacy.
De scripts/queries van de onderzoeker worden in een beveiligde omgeving uitgevoerd en de onderzoeker krijgt enkel toegang tot het uiteindelijke resultaat. Dit vereist geen PET, maar leek ons desondanks het vermelden waard.

4. Publieke instelling wil persoonsgegevens afkomstig van meerdere bronnen kruisen

Dit kan noodzakelijk zijn voor de uitvoering van de opdracht van de publieke instelling zelf, of het kan gebeuren naar aanleiding van een specifieke vraag van een onderzoeker. In dit tweede geval krijgt de onderzoeker in een volgende stap op een gecontroleerde manier toegang tot de gekruiste persoonsgegevens (zie puntje 3).

Cruciaal bij het kruisen is dat het resultaat enkel de minimaal noodzakelijke gepseudonimiseerde gegevens bevat en dat er verder geen ongewenste lekken van persoonsgegevens zijn. Traditionele aanpakken zijn inefficiënt, en daardoor traag en duur.

Privacy-preserving record linkage technieken trachten hier een antwoord op te bieden, al focussen ze doorgaans op situaties waarbij er geen gedeelde burger identifiers zijn – zoals het rijksregisternummer – en er aan string matching gedaan wordt, bijvoorbeeld van – mogelijks verschillend gespelde – persoonsnamen in combinatie met een geboortedatum. Oblivious join – een innovatie van Smals Research – gaat wel uit van gedeelde identifiers en kreeg vorm op basis van businessvereisten in de context van de Belgische gezondheidszorg en sociale zekerheid.

5. Publieke instelling wil persoonsgegevens voor testen / software development

Bij het ontwikkelen en testen van systemen kan de verleiding bestaan om met echte persoonsgegevens te werken, wat uiteraard risico’s inhoudt. In werkelijkheid volstaan misschien gegevens die daarop lijken, maar geen echte persoonsgegevens zijn. Een dergelijke dataset noemt men synthetic data. Het bewaart de structuur van de individuele records, maar ook bepaalde statistische eigenschappen van de gehele dataset.

Indien de systemen in test- of ontwikkelomgevingen moeten interageren met systemen in productie, zal synthetic data alleen vaak niet volstaan gezien de overeenkomsen (vb. gelijk rijksregisternummer) tussen de interne (synthetische) data en de echte data op de externe systemen vernietigd is. In dat geval kan format preserving encryption als een schil rond de test- of ontwikkelomgeving helpen om rijksregisternummers en andere ‘echte’ persoonsgegevens afkomstig van systemen in productie die de schil binnenkomen om te zetten in pseudoniemen die dezelfde structuur hebben als rijksregisternummers. Daarbij kunnen eventueel ook bepaalde eigenschappen behouden blijven binnen de schil (zodat bijvoorbeeld een meerderjarige een meerderjarige blijft). Ook de omgekeerde operatie is mogelijk, waarbij bijvoorbeeld fake-rijksregisternummers (dus eigenlijk pseudoniemen) die binnen de schil bestaan terug omgezet worden in het echte rijksregisternummer wanneer er vanuit de test- of ontwikkelomgeving een vraag gesteld wordt aan een extern systeem in productie over de betrokken burger.

6. Publieke instelling wil extra gegevens opvragen over één of beperkt aantal geïdentificeerde burgers

Er kunnen vanuit justitie onderzoeken gevoerd worden naar specifieke burgers, bijvoorbeeld in het kader van terrorismebestrijding of fraudeopsporing. Persoonsgegevens die beheerd worden door derden moeten daarbij opgevraagd kunnen worden. Denk daarbij bijvoorbeeld aan metagegevens over telefoongesprekken gekend door telecomoperatoren of aan de verschillende officiële verblijfplaatsen doorheen de tijd, wat gekend is door het Rijksregister.

Dergelijke data opvragen bij een andere (private of publieke) organisatie over een specifieke burger is op zich geen uitdaging, althans niet op technisch vlak. Helaas lekt de vragende organisatie daarbij de identiteit van de betrokken burger naar de aanleverende organisatie. Dit brengt zowel de privacy van de betrokkenen als de confidentialiteit van het onderzoek in het gedrang. Dit is op te lossen met behulp van oblivious transfer.

7. Publieke instelling wil burgers selecteren a.d.h.v. eigenschappen gekend door andere organisatie

Stel dat een wetshandhavingsdienst A wil weten welke van de verdachten die het volgt ook door wetshandhavingsdienst B met hoge prioriteit gevolgd worden. Een naïeve aanpak is dat B een lijst bezorgt aan A met alle verdachten die het met hoge prioriteit volgt en dat A dan eenvoudigweg de doorsnede berekent van haar eigen verdachtenlijst met die van B. B geeft zo echter veel te veel gevoelige persoonsgegevens aan A, dat inderdaad de volledige lijst van personen te weten komt die door B met hoge prioriteit gevolgd worden, terwijl de doorsnede volstaat. Dit wordt opgelost met behulp van private set intersection (PSI).

8. Publieke instelling wil berekeningen op gevoelige persoonsgegevens outsourcen

Bij overwegingen om opslag van en berekenen op gevoelige persoonsgegevens te outsourcen, typisch naar de cloud, is een garantie dat de (cloud) provider zelf op geen enkel moment toegang tot de data zelf kan verkrijgen een noodzaak.

De sterkste garanties worden geleverd door Trusted execution environments (TEEs) en, meer nog, door homomorphic encryption (HE).

Een TEE biedt een door hardware beveiligde, afgeschermde omgeving aan op een processor, waarbinnen de confidentialiteit en integriteit van de data en correcte uitvoering van code wordt gewaarborgd. TEE blijft helaas gevoelig voor side-channel attacks.
HE laat toe om berekeningen te doen op de vercijferde data in plaats van op de data zelf. HE is vandaag doorgaans erg inefficiënt. In het bijzonder blijkt het erg lastig te zijn om ondersteuning te voorzien voor o.a. vergelijkingen condities en array lookups.

Conclusies

Privacy-enhancing technologies (PETs) zijn vandaag vaak nog emerging, waarmee we bedoelen dat de ontwikkeling tot enterprise-ready producten nog bezig is en/of dat praktische toepassingen nog zeldzaam zijn. Toch bieden ze heel wat opportuniteiten, zeker in een publieke sector die de privacy van de burger au serieux neemt. In de komende jaren zullen we dan ook ongetwijfeld een boom in de uptake van deze technologieën zien. Het lijkt uw auteur logisch dat de publieke sector hier een voortrekkersrol in speelt.

De PETs die in dit artikel vermeld worden zijn natuurlijk niet de enige. Bovendien moeten we de meeste hier vermeldde PETs eerder zien als afzonderlijke categorieën van PETs. Zo is oblivious transfer reeds een levend onderzoeksdomein op zich, waarbinnen heel wat verschillende protocollen met uiteenlopende eigenschappen voorgesteld werden en worden.

Smals Research heeft gelukkig reeds heel wat kennis in huis, met zelfs eigen innovaties en implementaties. Ook daarbuiten wordt hard aan de weg getimmerd, onder meer binnen de academische wereld, waarmee Smals Research goede contacten onderhoudt.

Ten slotte geven we nog mee dat PETs ook voor heel wat andere — soms verrassende — toepassingen kennen. Zo kan je met private set intersection (PSI) testen of je paswoord gelekt is, zonder je paswoord zelf prijs te geven. Of je kunt ermee nagaan of je een erfelijke ziekte hebt, zonder je genetische informatie zelf prijs te geven.

We kijken er alvast naar uit om samen met u na te gaan hoe PETs kunnen helpen bij het realiseren of optimaliseren van uw concrete use case.

Dit is een ingezonden bijdrage van Kristof Verslype, cryptograaf bij Smals Research. Het werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Enkele valkuilen in AI

Joachim Ganseman — Tue, 23 Jan 2018 15:00:29 +0000

Adversarial examples kunnen een AI om de tuin leiden: enkele afbeeldingen en hoe een AI ze met hoge zekerheid klassificeert. Illustratie (c) Nguyen A, Yosinski J, Clune J.: Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images. In Computer Vision and Pattern Recognition (CVPR ’15), IEEE, 2015.

Artificiële intelligentie (AI) maakt de laatste jaren grote sprongen. Het vakgebied is duidelijk ‘hot’. Dat blijkt uit de explosieve groei van de belangrijkste academische conferenties en uit de nieuwsberichten over universiteiten die worden leeggeplukt door bedrijven.

De beschikbare rekenkracht is de laatste tijd erg toegenomen, net als de beschikbare datasets om de AI te trainen, en de keus aan achterliggende modellen (CNN, RNN, LSTM, GAN, …). De grootste spelers op het veld bieden kant-en-klaar open-source AI-platformen aan (Tensorflow, Caffe, Theano, Keras, …). Onderzoekers maken hun code steeds vaker publiek beschikbaar, voorzien van een uitgebreidere readme (o.a. Jupyter Notebooks is populair). Zo kunnen ze reproduceerbaarheid claimen – en dat je zo gemakkelijker geciteerd wordt is handig meegenomen. Wie wat vertrouwd is met de terminologie en de onderliggende technologieën, kan vrij snel zelf experimentjes beginnen uitvoeren.

De resultaten zijn de laatste tijd dan ook significant. Zelfrijdend vervoer, geautomatiseerde diagnoses of medische hulp, real-time vertaling, zijn toepassingen die 20 jaar geleden vooral tot het domein van Star Trek hoorden maar vandaag al zeer dicht bij uitrol in het dagelijkse leven staan.

Hoewel de term AI een grootse claim tot ‘intelligentie’ insinueert, en media of goeroes allerhande de superlatieven niet schuwen: in essentie is artificiële intelligentie nog steeds gewoon een geavanceerde vorm van toegepaste statistiek. “Lies, damned lies and statistics” indachtig, kan je daar dus creatief mee omspringen – en inderdaad blijken veel AI’s verbazend gemakkelijk voor de gek te houden.

Een AI-systeem wordt meestal opgezet voor een duidelijk afgebakende usecase: classificatie (bvb beeld-analyse), suggesties geven (bvb bij online winkelen), gegevens genereren die voldoen aan bepaalde eigenschappen, … Een AI wordt daarvoor getraind op een bepaalde dataset. Iedere beslissing die een getrainde AI daarop neemt is in essentie een “beredeneerde gok”. Die gebeurt op basis van de tot dan geziene data: van enige domeinkennis of begrip van de ruimere omgeving is geen sprake, als die er niet eerst expliciet in werd gestoken.

Ook hier geldt ‘garbage in, garbage out’. De manier waarop een AI getraind is of blijft trainen, is erg bepalend voor de toekomstige output. In deze blogpost bekijken we (niet exhaustief) enkele belangrijke aandachtspunten.

Onvolledige / vooringenomen trainingsdata

Onvolledige of onevenwichtige trainingsdata zorgt onder andere voor ‘false negatives’: de AI kan iets niet herkennen dat hij wel had moeten herkennen. In de praktijk, als een AI een klasse aan objecten moet herkennen, wordt die idealiter getraind op een verzameling voorbeelden die deze klasse volledig en gelijkmatig dekt. Vaak is het aantal variabelen achter de schermen zo onoverzichtelijk groot (‘curse of dimensionality‘), dat het zo goed als onmogelijk is om een dataset van voldoende omvang te verzamelen. Data verzamelen en verwerken is ook erg tijdrovend dus duur, en tenzij je hoort tot de grote spelers die kunnen crowdsourcen op ongeziene schaal (al wordt dat ook best actief gecontroleerd), is op een bepaald moment het geld op.

Dat gebeurt niet altijd op een goed moment. Spraakmakende missers op dat vlak gebeurden dan ook al enkele keren bij gezichtsherkenning. De bias die op deze manier in een systeem ingebouwd kan raken, kan bovendien verstrekkende gevolgen hebben.

Als men er zich niet van bewust is, kan de bias in een dataset lang verborgen blijven. Pas na een jaar of twaalf, toen iemand de moeite nam om eens naar de volledige dataset te luisteren, werd ontdekt dat een belangrijke dataset voor detectie van muziekgenres wel erg veel overhelde naar bepaalde artiesten en verschillende duplicaten bevatte. Plots bleek het grootste deel van de systemen die gedurende die 12 jaar gebouwd waren op/met deze dataset, op erg los zand te staan.

“Always look at your data” blijft daarom een belangrijke leidraad. Het gevaar schuilt erin dat dat steeds minder haalbaar dreigt te worden in de context van het ‘big data’ gebeuren.

Confounding factoren

Wanneer we een classifier trainen, zoekt de AI naar eigenschappen op basis waarvan het onderscheid tussen de verschillende klassen met de grootste zekerheid gemaakt kan worden. Dat kunnen vrij abstracte gegevens zijn die niet noodzakelijk betekenisvol verband houden met die klassen, maar toevallig wel correleren met de beschikbare voorbeelden in de training set. We zijn ons niet altijd bewust van deze ‘confounding factoren’. Als de AI dan een ongerelateerd object krijgt voorgeschoteld en die correlerende eigenschap toch opmerkt, wordt die tot een verkeerde klasse gerekend en krijgen we een ‘false positive’.

Terug naar ons audio-voorbeeld: het blijkt vrij gemakkelijk om een systeem te bouwen dat klassieke muziek kan onderscheiden van andere genres. De accuraatheid gaat vlot voorbij 95%! Totdat men gaat kijken wat de beslissende factor is geworden: dan wordt bvb enkel berekend hoe luid het gemiddeld volume is – en klassiek wordt nu eenmaal zachter opgenomen. Resultaat: het lijkt alsof goed onderscheid wordt gemaakt tussen klassiek en pop, maar in de praktijk wordt enkel naar het volume gekeken en is er geen enkele kennis verworven over de eigenlijke inhoud van de muziek.

Minder onschuldig is een vrij recente misser in medische beeldvorming, waar een dataset van rontgenfoto’s van longen beschikbaar is, die o.a. kan gebruikt worden voor ontwikkeling van diagnostische hulpsoftware. Deze dataset bleek na onderzoek (ook hier: pas nadat iemand de moeite nam eens naar de duizenden afbeeldingen te kijken) deels verkeerd geannoteerd te zijn, en deels te bestaan uit foto’s van patiënten in behandeling – en zo dreigden bepaalde ziektebeelden niet herkend te worden als de behandelingsapparatuur niet op de foto te zien was.

Er blijken dus onverwacht grote semantische kloven te kunnen zijn tussen de formele interne representaties in AI-systemen en de algemenere, vagere concepten die wij als mensen hanteren en zouden willen aanleren aan deze systemen. Bij veel ingewikkelde vormen van AI, zoals deep learning, blijft het vaak een open vraagstuk wat deze systemen nu eigenlijk leren of berekenen. Omdat we ook steeds vaker kritische beslissingen in handen laten van AI-systemen, is er daarom een beweging rond ‘explainable AI‘ op gang gekomen.

Adversarial Examples

Een sterk groeiende tak in de onderzoekswereld rond AI maakt er haast een sport van om te proberen getrainde AI systemen voor de gek te houden. De mogelijkheid daartoe zorgt immers voor problemen bij o.a. biometrische beveiliging. Het blijkt dat de transformatie benodigd om een AI-systeem uit zijn lood te slaan soms minimaal is: 1 pixel wijzigen kan genoeg zijn. Zo kan een zelf-rijdende auto plots moeite hebben met het herkennen van verkeersborden waar stickers op plakken.

Hier is het probleem dat de resultaten van de training niet veralgemeend kunnen worden naar toekomstige onbekende data, zonder enkele vrij zware aannames: dat het systeem statisch is in de tijd, dat alle mogelijke input volledig gedekt wordt door de trainingsset, dat er geen confounding factoren meespelen,… Er schijnt nog geen pasklaar antwoord te zijn: zodra een adversarial example in de trainingset wordt opgenomen, duikt elders wel een andere manier op om de nieuwe AI toch nog voor de gek te houden.

In combinatie met een vorm van reinforcement learning, kunnen we trachten deze adversarial examples te genereren – wat aanleiding geeft tot Generative Adversarial Networks (GAN). Die zijn moeilijk stabiel te krijgen, maar als dat lukt, kunnen ze met succes worden gebruikt om realistisch lijkende gegevens (foto, video, …) te genereren. Ook met andere generatieve AI-modellen kan al erg realistische data gegenereerd worden (van spraak tot webdesign).

Dit is goed nieuws voor wie in een creatieve industrie werkt, maar voor wie inzit met de beveiliging van AI-systemen een groot probleem. Die laatsten blijken immers plots nogal fragiel te kunnen zijn buiten hun trainingsomgeving. Zo wordt ook robuustheid ongetwijfeld een belangrijk aandachtspunt in de komende jaren.

De wetten van de Onwaarschijnlijkheid

Lieven Desmet — Tue, 03 May 2016 14:42:26 +0000

In vele toepassingen van data science is men op zoek naar “onverwachte patronen”, die kunnen wijzen op één of ander fenomeen. Om dit op een oordeelkundige manier te interpreteren kan men zich best beroepen op formele statistische methoden, zo deze van toepassing zijn. Gezond verstand (hopelijk) en intuïtie (onvermijdelijk) spelen ook vaak een belangrijke rol in de manier waarop wij conclusies trekken uit data. Toch kan deze intuïtie ons al eens op een verkeerd been zetten. In deze blog bekijken we een aantal fenomenen die intuïtief als zeer onwaarschijnlijk overkomen terwijl ze eigenlijk toch frequent voorkomen en worden logische verklaringen gegeven waarom dit zo is. Laten we beginnen met een kleine anecdote …

Gelukkige verjaardag !

Enkele jaren geleden, op de dag van mijn verjaardag, trof ik aan de deur van mijn bureau een ballon en snoepgoed aan. We deelden dat bureau toen met vier en er lagen eigenlijk twee sets ballonnen en snoep. Omdat ik echter grote twijfels had of ik zelf wel op de verjaardagskalender stond en bovendien de verjaardagen van mijn nieuwe collega’s niet kende leek een klein onderzoek aangewezen. Dit bracht aan het licht dat 3 van de 4 bureaugenoten op dezelfde dag verjaren.

Hoe zeldzaam is dát ?

Wel, een kleine berekening levert dat de kans dat dit zich voordoet ongeveer 1 op 20000 bedraagt. Inderdaad niet heel waarschijnlijk, maar dan ook weer niet zó onwaarschijnlijk dat het verantwoord zou zijn er een enorme inzet op te vergokken. Dit voorbeeld is een meer ingewikkelde versie van de verjaardagenparadox waar de paradox zich voordoet omdat we de neiging hebben te vergeten dat het samenvallen van verjaardagen waarschijnlijker wordt door het feit dat dit zich niet noodzakelijk op een vaste kalenderdag moet voordoen maar dat er eigenlijk 365 (of zo) dagen zijn waarop dit kan gebeuren.

Het Onwaarschijnlijkheidsbeginsel als raamwerk

David Hand, op wiens werk deze blog in grote mate gebaseerd is bedacht een raamwerk, gebaseerd op 5 grote principes die toelaten onwaarschijnlijke fenomenen te verklaren op een informele maar toch systematische manier. Deze principes zijn geïllustreerd en toegelicht in een prachtig boek en een aantal lezingen die de emeritus Professor gaf, onder meer ter gelegenheid van de 180ste verjaardag van de eerbiedwaardige Royal Society of Statistics. Ik verwijs graag naar de inhoud van deze documenten maar probeer tegelijk de link te leggen met een aantal nieuwe voorbeelden.

De Onvermijdelijkheidswet

Dit principe zegt dat met zekerheid minstens één van alle mogelijke uitkomsten van een toevalsexperiment zich zal voordoen.

Zo bijvoorbeeld zal de waarde van het Google aandeel aan het einde van volgende beursdag gestegen zijn of niet gestegen zijn ten opzichte van het huidig niveau. Eén van beide scenarios moet zich voordoen.

Dit simpel principe kan aanleiding geven tot fascinerende constructies. Zo bijvoorbeeld kan een zelfverklaarde beursgoeroe aan een groep van 64 beleggers vertellen dat hij een stijging verwacht en aan een andere groep van 64 dat hij geen stijging verwacht. Eén van beide uitkomsten zal zich voordoen en dit betekent dat hij zeker een groep van 64 personen blij zal maken. Als hij deze werkwijze blijft herhalen, in nog 6 opeenvolgende stappen, zal hij voor één belegger op 7 opeenvolgende keren perfect de beweging van de beurs voorspeld hebben…. en grof geld kunnen vragen voor verder beleggersadvies aan deze persoon.

Een andere spectaculaire toepassing van het principe is het idee dat je met zekerheid de hoofdprijs van een loterij kan winnen mits je alle biljetten verwerft (indien de trekking gebaseerd is op het geheel van de verkochte biljetten). Dit idee klinkt gekker dan het is en is zelfs al een paar keer in de praktijk gebracht door verenigingen die geld ophaalden van investeerders om op grote schaal biljetten te verwerven, zie bijvoorbeeld het verhaal van de Virginia State Lottery jackpot in 1992. Uiteraard is een dergelijke onderneming vaak een logistieke krachttoer en niet zonder risico.

De Wet van de werkelijk grote aantallen en het Tweeling drama

Indien een experiment vaak genoeg herhaald wordt kan men verwachten dat een onwaarschijnlijke uitkomst zich toch zal voordoen, ook al is de kans op succes in één experiment nog zo klein.

De kans dat je in een reeks van 10 worpen met een eerlijke dobbelsteen systematisch een “3” bekomt is kleiner dan 1 in 10 miljoen, maar als het aantal worpen onbeperkt is en je dus lang genoeg wacht zal het fenomeen van 10 of meer opeenvolgende “3”-en zich zeker voordoen. Zo bijvoorbeeld volstonden 7617266 worpen in een simulatie experiment met de computer (dus zonder risico op fysieke letsels).

Ook is de kans dat je morgen zelf getuige zal zijn van een auto ongeval gelukkig bijzonder klein, maar is de kans dat iemand die je kent dit overkomt al groter, en als je kijkt naar een langere periode, bijvoorbeeld het hele volgende jaar, nog véél groter.

David Hand illustreert het principe aan de hand van the Twin tragedy (zie figuur).

De Wet van Selectie

Deze is in zekere zin verwant met de vorige maar dan vanuit een ander standpunt. Ná de feiten heeft de mens de neiging te focussen op een beperkt aantal toevalligheden terwijl het grote geheel verwaarloosd wordt. Concreet betekent dit dat men een aantal overeenkomsten selecteert en niet stil staat bij het quasi oneindige universum van eigenschappen die niet overeenkomen. Hand illustreert dit met de overeenkomsten tussen twee voormalige presidenten van de Verenigde Staten: Abraham Lincoln en John F. Kennedy.

Beide werden vermoord. op een vrijdag. Telkens door een nekschot, van in de rug, én in het bijzijn van hun echtgenote. Lincoln in Ford’s Theatre en Kennedy in een wagen van het gelijknamige merk. Beiden hadden tijdens hun presidentschap een zoon verloren. Lincoln had een persoonlijke secretaris die John heette en Kennedy had er één die Lincoln heette. Er liggen 100 jaar tussen het aanvangsjaar van hun respectievelijke ambten, beiden hadden ze een opvolger genaamd Johnson en deze hadden ook 100 jaar verschil tussen hun geboortejaar en hadden beiden 4 kinderen.

En zo kunnen we doorgaan met het opsporen van gelijkenissen terwijl we met een wijde boog om de verschillen lopen zo bijvoorbeeld is JFK geboren in Massachussets en Lincoln in Kentucky.

De wet van de Hefboom

Zegt dat kleine wijzigingen de waarschijnlijkheid zó kunnen opdrijven dat onwaarschijnlijke gebeurtenissen redelijkerwijze kunnen verwacht worden.

Zo is de kans dat je door de bliksem getroffen wordt praktisch nul als je bij onweer kan schuilen in een modern gebouw met de gebruikelijke beveiligingen,
maar loop je een veel groter risico als je bewust op zoek gaat naar het open veld of schuilt onder een boom

Zo’n 10 jaar geleden waren sommige analysten er vrij gerust in dat extreme financiële verliezen, zoals diegene die eind 2008 een aantal grote banken hebben doen omvallen, zich slechts zeer uitzonderlijk zouden voordoen. Zó uitzonderlijk, dat ze in de praktijk uitgesloten zijn. Men sprak van een six-sigma event, omdat de verschuiving correspondeert met maar liefst 6 standaardafwijkingen onder een normale verdeling, wat zich minder vaak dan 1 in 100 miljoen keer voordoet (grofweg één keer om de 300000 jaar). De keuze van een normaal model voor een financieel proces was allicht ingegeven door het feit dat dit nu eenmaal een bekende verdeling is die vaak optreedt in natuurlijke processen, maar deze is natuurlijk niet noodzakelijk geldig in de econometrie. Het aanvaarden van meer realistische verdelingen, die erg lijken op de normale, maar de extreme gebeurtenissen beter modelleren heeft als gevolg dat de kans op zo’n “six-sigma-event” plots veel groter wordt.

De wet van Bijna Hetzelfde

Hoeveel mensen hebben een nacht doorgebracht in hetzelfde hotel als Elvis Presley (maar niet op hetzelfde moment) ? Dit principe is eigenlijk ook verbonden met reeds gegeven voorbeelden, waar we hebben opgemerkt dat we de neiging hebben de overeenkomsten te selecteren en in de verf te zetten en die aspecten te verwaarlozen die verschillend zijn (maar die wel maken dat er enorm veel manieren zijn om een buitengewone gebeurtenis te creëren).

Tot besluit

Waarschijnlijk komen spontaan nog voorbeelden bij u op. Het is een leuke oefening om te toetsen of hier één of meerdere van bovengenoemde wetten aan het werk is.

Uitdagingen voor Analytics: Causaliteit en co.

Lieven Desmet — Tue, 09 Feb 2016 10:02:05 +0000

Aanleiding van deze blog is een mail die ik ontving betreffende de moeilijkheid in analytics om causaliteit, en niet louter correlatie, tussen twee fenomenen vast te stellen.

De suggestie dat dit met klassieke statistiek ook niet zou kunnen, en er dus eigenlijk geen probleem is, is betwistbaar. Wél staat vast dat causaliteit vaak een moeilijke kwestie is. Waar gaat het precies over?

Correlatie en causaliteit

Een positieve correlatie tussen twee grootheden (variabelen) X en Y betekent dat wanneer de ene grote (resp. kleine) waarden aanneemt, de andere de neiging heeft dat ook te doen. Een negatieve correlatie betekent dat wanneer de ene grote (resp. kleine) waarden aanneemt, de andere de neiging heeft het tegengestelde te doen.

In onderstaande figuur werden data gesimuleerd volgens een tweedimensionele normale verdeling met een correlatiecoëfficiënt van 0.9 (links) en -0.3 (rechts). Algemeen kan men zeggen dat hoe sterker de correlatie is, hoe duidelijker de bovengenoemde relatie en hoe meer informatie je hebt over de grootte van de ene variabele als je de andere variabele kent.

(.pdf generated with R-software)

Causaliteit (oorzakelijkheid) is een sterker begrip, dat weergeeft dat een fenomeen X de oorzaak is van een fenomeen Y. Bijgevolg zal het zich voordoen van fenomeen X het zich voordoen van fenomeen Y beïnvloeden en aldus kan men verwachten dat er een correlatie optreedt tussen X en Y. Causaliteit is sterker omdat je aangeeft dat er een soort van mechanisme is en bovendien heb je daar niet de symmetrie tussen X en Y die je bij een correlatie wél hebt. De gevolgen zijn ook veel zwaarder. Zo men bijvoorbeeld besluit dat de incidentie van longkanker het gevolg is van roken dringen maatregelen zich op om de volksgezondheid te vrijwaren. Vaak is een causaliteitsbesluit echter controversieel en moeilijk te bewijzen.

De bloemetjes en de bijtjes

(public domain picture at www.lifeofpix.com)

Een eenvoudig en ludiek voorbeeld gaat over volgende twee fenomenen:

X: het aantal ooievaarsnesten in een dorp;

Y: het aantal nieuwgeboren baby’s in dat dorp.

In dorpen in de Elzas is begin de 20^ste eeuw een correlatie vastgesteld tussen beide fenomenen, wat zou kunnen doen geloven dat de ooievaars effectief tussenkomen in het afleveren van de baby’s. De statisticus George Udny Yule gebruikt dit voorbeeld om aan te tonen dat de correlatie die gezien wordt tussen X en Y geen bewijs is van causaliteit. Uiteraard kennen we de echte causaliteitsverklaring achter de variabele Y, maar het is zeker interessant om even stil te staan bij de vraag waarom deze correlatie bestaat.

Namelijk, er is sprake van een tussenliggende variabele, zeg,

Z: de grootte van het dorp,

die beide X en Y positief beïnvloedt. Inderdaad, een groter dorp biedt meer schoorstenen en torens en heeft tegelijk uiteraard ook een grotere bevolking en dus een groter absoluut geboortecijfer.

Yule gebruikt dit voorbeeld om de lezer uit te leggen wat een confounder is: een externe variabele die met beide variabelen in kwestie gecorreleerd is. Het is geen toeval dat dit voorbeeld opduikt in een boek over statistiek, vanuit de toepassingen waarrond de statistiek zich heeft ontwikkeld is er altijd aandacht geweest voor het causaliteitsvraagstuk, ook al is dit soms erg moeilijk.

Een medicijn gebaseerd op correlatie of causaliteit ?

In het medisch onderzoek bijvoorbeeld staat de causaliteitsvraag vaak centraal. Immers, vooraleer men besluit een nieuw geneesmiddel als veilig en werkzaam te beschouwen voert men studies om zo goed mogelijk zicht te krijgen op de biologische en biochemische werking van een nieuwe molecule, en om er zich van te verzekeren dat de gunstige werking toe te schrijven is aan de therapie en niet aan andere factoren zoals verschillen tussen patiënten (geslacht, leeftijd, genetisch profiel etc). Eén van de mogelijkheden om confounders uit te schakelen is het opzetten van een experiment dat er rekening mee houdt, bijvoorbeeld door het selecteren van homogene groepen van proefpersonen.

Als de gezondheid op het spel staat zijn weinig mensen bereid roekeloze risico’s te nemen, en voor de grote farmaconcerns is de geschiktheid van een nieuw medicijn niet zo maar een vraag maar eerder een million (of billion) dollar question.

Correlaties in analytics

In wezen lijkt het doel van analytics en statistiek volledig hetzelfde, namelijk informatie halen en conclusies trekken uit gegevens. Gebruikers van beide methoden hebben overigens ook gemeen dat men vaak (te) hoge verwachtingen heeft over wat men redelijkerwijze uit de gegeven data kan besluiten. Toch is de werkwijze radicaal anders. Waar men in de statistiek gericht en gepland te werk gaat (of hoort dat te doen), probeert men in analytics vooral kracht te halen uit het combineren van grote hoeveelheden data en het doorrekenen van grote aantallen algoritmes. Waar bij statistische studies de methodologie centraal staat, lijkt het bij analytics vooral over het snelle resultaat te gaan, zonder veel oog voor methodologische problemen en valkuilen, zoals bijvoorbeeld data-quality problemen.

Het opgeven van het causaliteitsvraagstuk is dus in zekere zin inherent aan de manier van werken in analytics, en kan gezien worden als de prijs die betaald moet worden voor snelle en automatische resultaten.

Zin en onzin van correlaties

Websites met bloemlezingen van bedenkelijke, grappige of bizarre correlaties, vaak tussen tijdreeksen, zijn een groot succes op internet. Dit betekent niet dat correlaties per definitie zinloos zijn. Het hangt alleen af van de beoogde toepassing en vakgebied. Zo bijvoorbeeld zal het een marketeer worst wezen waarom precies doelgroep X interesse heeft in product Y. Het feit dat het zo is en dat hij of zij dit als eerste ontdekt werd kan al ruim voldoende zijn om de verkoopscijfers op te krikken.

Als het misgaat

Is uiteindelijk natuurlijk de gebruiker verantwoordelijk. De analytics tool, ook al wordt die voorgesteld als een soort elektronische Einstein, is niets meer dan een machine en het is de gebruiker die beslist welke gevolgen te geven aan één of andere uitkomst. Misschien is dat het openen van een extra verkooppunt om de doelgroep X te bedienen, maar misschien is dat de beslissing om één en ander verder te onderzoeken, op basis van een meer beproefde methodologie indien grote risico’s niet uit te sluiten zijn.

Tot besluit: analytics en statistiek

Als besluit moet zeker opgemerkt worden dat statistiek als vakgebied zich dank zij de computer heel snel heeft kunnen ontwikkelen. Vele statistische procedures steunen immers op rekenintensieve (iteratieve) algoritmen die met de hand praktisch onuitvoerbaar zouden zijn, om nog maar te zwijgen over de faciliteiten die de computer biedt om data te beheren. Evenzeer lijkt op te gaan dat de analytics approach kan vooruitgaan door de overwegingen van statistiek mee te nemen. De prijs die betaald moet worden is mogelijk een langere doorlooptijd en het opgeven van een volledig automatische verwerking maar voor sommige toepassingen is dat ongetwijfeld een goede, zelfs noodzakelijke, investering.

Comment mentir avec un graphique

Vandy Berten — Wed, 15 Jul 2015 07:36:19 +0000

Lorsqu’il s’agit de communiquer des chiffres, qu’ils soient financiers, électoraux, démographiques, sportifs, scientifiques ou bien d’autres choses encore, tout le monde s’accordera pour dire qu’il n’y a rien de mieux qu’un graphique. Il est aujourd’hui difficile de trouver un journal qui ne contienne pas au moins une infographie ou un rapport d’activité quelconque qui ne soit pas truffé d’histogrammes et autres graphiques en “tarte” (pie chart en anglais). Et bien que la plupart des graphiques choisis soient particulièrement élémentaires – on trouve rarement autre chose qu’un graphique en ligne, un histogramme ou un graphique en tarte -, ils sont souvent mal utilisés. On voit souvent un graphique en ligne là où on aurait du voir un histogramme, certes, mais ça n’est pas le sujet de cet article. Très souvent, la réalité est tronquée, par malhonnêteté ou par ignorance, induisant une perception exagérée de ce que l’auteur veut mettre en avant. Voici quelques exemples glanés au fil de nos recherches, illustrant comment l’on essaye chaque jour de nous tromper.

Lie factor

De façon à pouvoir mesurer de façon formelle à quel point un graphique est une distorsion de la réalité (ou en tout cas des valeurs numériques que le graphique tente d’illustrer), Edward Tufte, auteur majeur dans le domaine de la visualisation de l’information (“The Visual Display of Quantative Information“), a défini le concept de “lie factor” (que l’on pourrait traduire par facteur de mensonge) de la façon suivante :

$$\text{lie factor} = \frac{\text{taille de l’effet dans le graphique}}{\text{taille de l’effet dans les donnees}}$$

où

$$\text{taille de l’effet} = \frac{| \text{seconde valeur} – \text{premiere valeur}|}{\text{premiere valeur}}$$

Un “lie factor” de 1 indique donc qu’il n’y a pas de distorsion. Tufte estime que ce facteur doit rester entre 0.95 et 1.05 pour assurer l’intégrité de la visualisation.¹

Par exemple, supposons que l’on veut indiquer dans un diagramme en bâtons (bar chart) qu’un produit A a été deux fois plus vendu qu’un produit B, il faut que la barre représentant A soit deux fois plus longue que celle représentant B. Cela peut paraître naturel… nous verrons dans les exemples qui suivent que c’est loin d’être toujours le cas !

Tronquer l’axe des ordonnées

Un des exemples de distorsion les plus fréquents est l’utilisation de diagramme en bâtons (bar chart) ou en ligne (line chart), représentant en ordonnée des quantités, et démarrant l’axe à une autre valeur que zéro.
Prenons par exemple l’illustration ci-contre, issue d’une infographie de la SNCB, parue dans le journal Métro du mercredi 10 juin 2015. On y montre la baisse du nombre de dépassements de signaux entre 2010 et 2014. Ils sont passés de 110 à 64, soit une baisse de 41.8 % ((110-64)/110). Par contre, visuellement, grâce au/à cause du fait que l’axe vertical démarre à 40 et non en zéro, la baisse est de 70 (110-40) à 24, soit 65.7 %. Notre cerveau enregistre une baisse drastique de quasiment un facteur 3. On a donc un lie factor de 65.7/41.8, soit 1.54. L’effet visuel est dès lors 54% plus important que les données à représenter ². Une version “corrigée” du graphique vous est présentée ci-contre. La diminution semble nettement moins impressionnante !

En cliquant sur l’illustration ci-dessus, vous apercevrez dans la même infographie trois diagrammes utilisant le même stratagème pour vanter la société, dont un avec un lie factor de 20.6 !

L’exemple suivant a été emprunté au parti socialiste français. Il met en avant une épouvantable évolution de la dette lorsque la droite s’est trouvée au pouvoir entre 2002 et 2009. Première chose intéressante à constater : alors qu’en général on représente la base d’un diagramme en bâtons en bas, les “communicants” du PS ont choisi ici de l’inverser. On observe donc une “montée” (quelque chose d’intuitivement positif) pour la gauche, et une “baisse” pour la droite (intuitivement négative).

Mais ce qui est plus important est de remarquer que l’axe vertical débute à 50 %. Alors que visuellement la dette semble avoir enregistré une progression de 317% entre la fin de la dernière valeur associée à la gauche et la dernière de la droite, elle n’a en fait crû que de +/- 57 % à 75 %, soit une progression de 33.9% (18% = 33.9% de 57%), et donc un lie factor de 317/33.9 = 9.3. On a donc une progression visuelle plus de neuf fois plus importante que la réalité ! Ce facteur serait plus bas si l’on considérait plutôt les valeurs moyennes de partie gauche et droite (au lieu, comme nous l’avons fait, du minimum pour l’un et du maximum pour l’autre), mais il en restera largement supérieur à 1.

Notons que cette règle, unanimement reconnue par la communauté scientifique s’intéressant à la visualisation de l’information et voulant que l’axe vertical d’un graphique doit toujours commencer à zéro, s’applique uniquement pour des valeurs pour lesquelles le zéro à une valeur intrinsèque, et signifie l’absence de quantité. Ce sont des valeurs pour lesquelles dire “deux fois plus grand” a un sens : 10 €, c’est bien deux fois plus que 5 €, 50 articles (identiques), c’est bien la moitié de 100 articles. Par ailleurs, cela ne dépend pas des unités utilisées : deux fois plus cher, c’est la même chose en euros ou en dollars, deux fois plus long, ça ne change rien que l’on s’exprime en mètres ou en pieds.

Il n’en ira pas de même lorsque la mesure que l’on considère a un zéro tout à fait arbitraire, comme ça l’est pour la température ou l’heure. On ne peut pas dire que quand il fait 20 °C, c’est deux fois plus chaud que 10 °C, ni que 10 heures du matin, c’est deux fois plus tard que 5 heures (on parle ici bien d’heure, et pas de durée). Minuit, ou 0 °C, ça n’est en rien l’absence d’heure ou de température ; ces valeurs sont choisies de façon conventionnelle. Minuit à Bruxelles ne correspond pas à minuit à New-York et 0 °C n’est pas la même température que 0 °F ou 0 °K. Étant donné qu’un graphique représentant une température au cours du temps ne représentera jamais un ratio ou une variation relative (qui ne serait par ailleurs pas la même si l’on s’exprimait en degrés Centigrades ou Fahrenheit) mais bien une variation absolue, l’origine de l’axe n’a pas d’importance. On évitera alors l’utilisation de diagrammes en bâtons (mettant en avant des longueurs) pour préférer une graphique en ligne (mettant en avant des positions).

Confondre surface et taille

Visuellement parlant, notre cerveau considère qu’un cercle (ou tout autre forme) est deux fois plus grand qu’un autre si sa surface est deux fois supérieure (et non son diamètre). Or on voit souvent des infographies dans lesquelles les diamètres sont proportionnels aux valeurs à représenter. Ce qui implique une relation quadratique entre ce que l’on voit et ce que l’on devrait voir : un ratio de 3 impliquera une surface 9 fois plus importante. Par ailleurs, il a été montré que le cerveau humain (entre autre par Jacques Bertin, dans son ouvrage “Sémiologie Graphique“, ou par Stanley Smith Stevens, dans sa “Psychophysical Power Law“) distingue moins précisément une différence entre deux surfaces qu’entre deux longueurs.

Lorsque l’on mélange ces deux sources de confusions, on arrive à une infographie telle que celle présentée dans le “Sunday Star Times” du 12 février 2012 (reprise sur www.statschart.org.nz). Outre le fait qu’il existe des façons plus adaptées de représenter l’évolution de deux mesures dans le temps, on voit par exemple que le petit cercle orange de 2009 (14 %) a une surface 5.5 plus petite que le cercle dans lequel il est inscrit (33 %), soit une augmentation de surface de 450%, pour représenter en réalité une augmentation de 135% (14% -> 33%). Cela nous donne donc un lie factor de 3.32. Étant la relation quadratique entre diamètre et surface d’un cercle, le lie factor sera en fait différent pour chacun des graphiques (et d’autant plus important que le ratio dans les données est important). Le fait qu’un cercle soit placé devant l’autre est également trompeur : dans le premier item de la seconde infographie, la partie rouge est à peine visible, alors qu’elle représente une quantité supérieure à la partie bleue.

Jouer avec les perspectives

Un outil comme Excel vous permet – pour ne pas dire vous y incite – de rajouter des effets de perspective à vos graphiques. Si le résultat peut être visuellement élégant, il sera bon de s’en servir avec parcimonie, car il est particulièrement trompeur. Prenons l’exemple d’un graphique en tarte : non seulement les segments qui apparaîtront du côté du lecteur seront augmentés d’une “tranche” que n’auront pas les segments opposés, mais par ailleurs la perspective diminuera la surface les segments les plus éloignés. Dans l’exemple ci-contre, on peut voir Steve Jobs, en pleine “Keynote”, présentant la répartition du marché des principaux vendeurs de smartphones. Apple (19.5 %), en vert, occupe une surface à l’écran 1.8 fois supérieure à celle occupée par le segment “Autres” (21.2 %), en violet ! On a donc, pour la comparaison entre ces deux éléments, un lie factor proche de 10 ! Pour mieux visualiser la “tromperie”, voici ci-contre une version du graphique dans lequel on superpose le segment violet des 21.2 % à celui, vert, des 19.5 %. En théorie, le vert devrait donc avoir complètement disparu. Jugez-en par vous-même…

Ignorer les conventions

Les graphiques standards se basent en général sur certaines conventions tacites, en principe naturelles. Par exemple, la somme des segments d’un graphique en tarte doit atteindre 100 %. Ce n’est pas exactement ce qu’a choisi de faire la chaîne américaine Fox pour diffuser ce graphique au moment des présidentielles américaines de 2012. Outre le fait que, dû à l’effet de perspective détaillé ci-dessus, le segment de Romney (60 %) est largement plus grand que celui de Palin (70 %), engendrant un lie factor de 3.7, la somme des segments monte à 193 % ! Il est probable qu’en l’occurrence, les sondés pouvaient donner deux choix, mais il faut reconnaître que ce graphique peut laisser perplexe !

Utiliser des valeurs cumulatives

Une excellente façon de masquer une baisse des ventes ou des revenus est d’utiliser des valeurs cumulatives. Elles ont l’avantage d’être, par définition, toujours croissantes. C’est par exemple ce qu’a choisi de faire Tim Cook lors de la Keynote de présentation de l’iPhone 5S. Il est en effet difficile de voir si, par exemple, la pente (c’est-à-dire le nombre d’unités vendues par quadrimestre) est plus forte début 2011 ou fin 2013 avec le graphique présenté ci-contre (sans compter sur le fait qu’on semble avoir “oublié” de préciser l’échelle de l’axe vertical). Sur la seconde image, David Yanofsky a réintroduit dans le graphique les données non cumulées. Et là, surprise : alors que le graphique de Tim Cook suggère une augmentation explosive et continue, on s’aperçoit que les résultats ont plutôt tendance à se tasser.

Tromper les intuitions

Lorsque l’on voit un diagramme, on pense en général intuitivement qu’il représente une quantité (en fonction du temps, d’une catégorie…). Mais il peut aussi représenter une variation. C’est cette source de confusion qui a été utilisée par l’équipe d’Obama lors de sa seconde campagne en 2010, où on représente les “job loss” sous Bush (en rouge) puis sous Obama (en bleu). On a donc affaire à un problème exactement inverse à celui présenté juste ci-dessus.

On peut d’abord remarquer trois stratagèmes simples utilisés dans ce graphique pour accentuer le point de vue de l’auteur. Le premier a déjà été présenté avec l’exemple du parti socialiste français ci-dessus, et consiste à “retourner” le diagramme en bâton. On a donc quelque chose en décroissance sous l’administration Bush, qui accentue l’aspect dramatique, et en croissance sous celle d’Obama, pour accentuer le sentiment de progrès et de rétablissement. Par ailleurs, on voit un bleu clair, lumineux, pour la partie d’Obama et un rouge foncé, sombre pour celle de Bush. Ce n’est certainement pas innocent. Enfin, la légende indique le graphique va de 2007 à 2010. Si l’on ne fait pas attention aux mois, on pourrait penser que le graphique couvre 3, voire 4 ans, et qu’il s’agit donc d’une progression durable. Or le graphique concerne essentiellement 2008 et 2009 (décembre 2007-janvier 2010), soit à peine plus de deux ans.

Si l’on regarde ce graphique, qui concerne l’emploi aux États-Unis, on a l’impression d’une situation qui s’est terriblement détériorée durant le mandat de Bush, et qu’Obama est parvenu à rétablir. Or le graphique ne représente pas le nombre de sans-emplois, mais bien le nombre de pertes d’emploi par semestre, soit la variation du nombre de sans-emplois. En regardant donc le graphique de plus près, on voit donc que le nombre de sans-emplois augmente moins vite, certes, mais ne diminue pas ou peu. Ce qui est en soi déjà un résultat important, mais qui est largement accentué avec ce graphique.

Le graphique ci-contre, généré par Soquel by de Creek, montre cette fois-ci le nombre total de sans-emplois (c’est-à-dire avec les valeurs cumulées). Il est nettement moins vendeur auprès des électeurs …

Mais encore…

Il existe de nombreuses autres façons de tromper le lecteur. Voici quelques exemples :

Ignorer l’inflation quand on compare des budgets sur longues périodes. Comparer le budget Défense de Kennedy et d’Obama n’a par exemple pas de sens si l’on ne tient pas compte de la différence de la valeur du dollar entre les deux époques.
Présenter des histogrammes dont les “bases” ne sont pas homogènes. Si l’on présente le total des ventes de chaque année mais que la dernière année représentée est toujours en cours, il faut ajuster les données pour ne pas donner l’impression d’une brusque baisse.
Pour réaliser un effet de perspective, ne pas aligner la base des barres d’un histogramme, rendant très difficile la comparaison (exemple).
Utiliser une échelle logarithmique lorsque ça ne se justifie pas, pour réduire visuellement l’écart entre deux valeurs.

Avoir ces quelques éléments en tête pourra être très utile, à la fois comme “consommateur”, pour éviter d’être leurré par une visualisation un peu trop vendeuse, mais également comme “producteur”, de façon à réaliser des graphiques les plus intègres possibles.

De très nombreuses illustrations de visualisations trompeuses ou mal conçues sont données sur le site wtfviz.net. Le manque de bon sens de certains est parfois surprenant…

Notes

Notons que la définition de Tufte peut prêter à confusion et est parfois contestée. En effet, lorsque l’on compare deux valeurs, on peut choisir arbitrairement quelle est la première et quelle est la seconde. Le choix impactera potentiellement fortement le calcul.
Par ailleurs, si une augmentation de 10 % dans les données est traduite par une diminution visuelle de 5%, cela engendrera le même lie factor que si elle est traduite par une augmentation de 5%, étant donné l’utilisation de la valeur absolue.
Certains préféreront une autre définition dans laquelle l’effet est calculé en effectuant le ratio entre les deux valeurs (première valeur/seconde valeur). Le choix des valeurs n’aura alors plus d’impact sur le lie factor, le choix étant bien entendu le même pour les données et pour le graphique.
Si on avait, comme précisé dans la note ci-dessus, inversé les première et seconde valeurs, on aurait eu un effet dans le graphique de 191.7 % ((70-24)/24), pour un effet dans les données de 71.9%, soit un lie factor de 2.66

Le titre de cet article est librement inspiré de nombreuses publications reprenant un nom très proche : How to lie with maps (Mark Monmonier, 1991), How to lie with statistics (Darrel Huff, 1954), How to lie with charts (Gerald Everett Jones, 2006)…

(bijna) 40 jaar R – Hype of succes verhaal ?

Lieven Desmet — Wed, 22 Apr 2015 09:00:38 +0000

In IT kringen is de programmeertaal C en zijn varianten al jaren een begrip. Wat weinig mensen weten is dat in de jaren 70 in hetzelfde Bell labs een andere programmeertaal het levenslicht zag. Deze taal was niet bedoeld als all-purpose programmeertaal maar eerder als interactieve toolkit voor statistische data-analyse, met nadrukkelijke aandacht voor grafische visualisatie naast een groot aantal specifiek ontworpen en gedocumenteerde functies voor statistische verwerking. In hoofdzaak ontwikkeld door John Chambers en S gedoopt kan deze taal gezien worden als een voorloper van R. Om precies te zijn, Chambers situeert de eerste gesprekken over S in mei 1976, zodat we nog ruim een jaar de tijd hebben voor de voorbereiding van 40 jaar R.

New S en S PLUS

De huidige versie van R is in grote lijnen gebaseerd op een gewijzigde versie van S die eind de jaren tachtig ingevoerd is. Belangrijke keuzes waren het gebruik van C in de plaats van FORTRAN als onderliggende taal, een consistent gebruik van functies en een meer uitgebreid object-georiënteerd model.

Begin de jaren 90 wordt S-PLUS gecommercialiseerd als statistische data analyse tool. Versies voor de belangrijke platformen worden ontwikkeld en de statistische toolkit werd sterk uitgebreid, in lijn met ontwikkelingen in het domein. De strategische keuze om een gratis studentenversie te lanceren (2002) zal zeker bijdragen tot de bekendheid van het systeem onder statistici.

En daar is R …

In 1993 komt een nieuwe groep rond John Chambers (Ross Ihaka en R Gentleman) met een open source versie van de new S programmeertaal. Verschillen tussen deze implementatie en de S-PLUS implementatie zijn beperkt zodat gebruikers van de ene gemakkelijk met de andere van start kunnen. Qua filosofie is er echter een wereld van verschil omdat R een GNU project is. Dit betekent dat de code open source is en dus vrij beschikbaar voor gebruikers om ze uit te breiden en te verbeteren. Bovendien zijn er geen beperkingen om R te verdelen onder het grote publiek. Deze filosofie is heel erg aangeslagen in de academische wereld waar het gebruikelijk is dat nieuwe ontwikkelingen gedeeld en gepubliceerd worden. Heel veel packages zijn het resultaat van wetenschappelijk onderzoek waar naast het publiceren van de theoretische resultaten nu ook de methoden meer en meer gepubliceerd worden als bijproduct. Men kan terecht spreken van een community, waar een deel van de gebruikers actief betrokken zijn bij het verder ontwikkelen en documenteren van het project. Tegelijk worden bijeenkomsten georganiseerd voor gebruikers, en zijn er ontzettend veel initiatieven om het gebruik van R te verbeteren via mailing lijsten en cursussen, zoals bijvoorbeeld Quick-R en het recente belgische initiatief Datacamp.

Hoewel het ontwikkelen van R packages zich vooral afspeelt in linux omgevingen en met C code zijn er versies voor alle operating systemen en in het bijzonder voor windows. In combinatie met R zijn er bovendien een aantal grafische omgevingen voor handen die gebruikersvriendelijker zijn dan de standaard console, zoals bijvoorbeeld de veel gebruikte RStudio die beschikbaar is in gratis standalone en server versies maar ook in betalende professionele versies met support. OpenAnalytics is een belgisch bedrijf dat onder meer een freeware server platform aanbiedt (Architect) en systemen die toelaten R verwerking te integreren in de business of labo-workflow (R service bus).

Van het labo naar het bedrijf

Ondertussen hebben meerdere generaties enthousiaste studenten hun weg gevonden naar bedrijven en instellingen. Zo is R beetje bij beetje geïntroduceerd in verschillende sectoren, waarvan de biomedische en financiële vooralsnog het meest prominent zijn.

Het feit dat R in een handomdraai gedownload en geïnstalleerd kan worden laat toe dat R gemakkelijk kan ingezet worden. Hoewel de focus van R nog altijd interactieve data-analyse is, worden de grafische mogelijkheden van R ook erg geapprecieerd. Door de ontwikkelingen in een aantal wetenschappelijke disciplines zoals de bio-informatica worden steeds zwaardere eisen gesteld aan de verwerkingscapaciteiten van het R systeem. R volgt dus de ontwikkelingen qua high performance computing op de voet, en heeft ondertussen ook alle functionaliteiten die nodig zijn voor data management.

Dit alles maakt R natuurlijk ook bijzonder interessant voor big data analytics.

Of toch een beetje gehyped ?

Voor vele R gebruikers van het eerste uur is het feit dat R gehyped zou zijn een nogal vreemd idee. Immers, zij gebruiken en ontwikkelen als specialisten een tool die precies gericht is op de problemen waar zij mee bezig zijn. De hype ontstaat dus als het grote publiek, dat niet noodzakelijk ervaring heeft met data-analyse, voorgespiegeld wordt dat met deze nieuwe tool een hele resem aan complexe problemen kunnen opgelost worden, zonder dat je daarvoor specialist hoeft te zijn.

Het feit dat nu meer gebruikersvriendelijke visuele omgevingen beschikbaar zijn verhult enigszins dat werken in R traditioneel neerkomt op code schrijven. Het feit dat een functie of voorbeeldscript bestaat voor wat je wil doen betekent nog niet dat je deze meteen op je data aan de praat krijgt. Uiteraard is documentatie beschikbaar maar deze kan al eens cryptisch zijn en is niet geschreven voor een groot publiek. Bovendien lijkt het moeilijk de gebruiker volledig af te schermen van technische aspecten van de installatie en object-georiënteerde modellen … en zit er vaak nog een grote performantie winst in het programmeren van C subroutines voor bepaalde intensieve deeltaken.

De steile leercurve kan natuurlijk altijd verzacht worden door het gebruik van visuele omgevingen (zo bijvoorbeeld RStudio’s Shiny voor het ontwikkelen van web applicaties) en het voorzien van de nodige omkadering voor support en coaching. De eindgebruiker zal dan ongetwijfeld ervaren dat investeren in R snel vruchten afwerpt (en hierbij wordt al eens vergeten dat het vertrouwd raken met software zoals Excel ook veel tijd gekost heeft).

Besluit

Op zijn bijna 40^ste is R springlevend en heeft het zeker zijn plaats verdiend naast de grote commerciële oplossingen voor statistiek en analytics. Men kan terecht spreken van een lingua franca programmeertaal voor data-analyse en statistical learning. Door het open source karakter zijn er geen beperkingen op de verspreiding van R maar de inzetbaarheid van R voor het grote publiek hangt af van het soort gebruik. De kracht van R en het voordeel van de packages zit vooral in het gevorderd gebruik maar mits de nodige coaching en omkadering kunnen minder gevorderde eindgebruikers ook met R aan de slag. In dat geval moeten bedrijven en instellingen rekening houden met kosten voor training en kunnen beschikken over specialisten die het systeem kunnen opzetten en onderhouden. In 2006 vermeldde John Chambers nog de integratie van R in andere systemen als één van de grote uitdagingen voor de toekomst. Ondertussen zien we R meer en meer opduiken als component in de geïntegreerde systemen voor analytics die vendors aanbieden.