anonymization – Smals Research

E-discovery to the rescue

Joachim Ganseman — Wed, 16 Oct 2019 12:45:46 +0000

E-discovery is een algemene term voor technieken en software waarmee men informatie wil ontdekken in grote hoeveelheden heterogene documenten. “Document” mag daarbij breed geïnterpreteerd worden als eender welk bestand met machineleesbare informatie (e-mails, spreadsheets, presentaties, foto’s, …). Wat e-discovery onderscheidt van gewone data exploratie is dat men niet zozeer tracht een globaal overzicht te krijgen van de gegevens, maar vooral een specifieke vraag wil beantwoorden. Typische contexten waarin e-discovery wordt toegepast zijn gerechtelijke onderzoeken, onderzoeksjournalistiek, audits, of aanvragen in het kader van wetten op openbaarheid van bestuur.

Neem fraudebestrijding: op een reeks in beslag genomen harde schijven moeten bewijzen gevonden worden van, bijvoorbeeld, fraude met onkostennota’s. De inspecteur van dienst wordt geconfronteerd met veel te veel bestanden of emails om allemaal manueel te gaan uitpluizen, en onkosten kunnen gaan over vanalles en nog wat. Om geen bergen irrelevante info te moeten doorploegen zal men bijvoorbeeld eerst alle documenten willen groeperen waarin het woord “kost” of “rekening” in eender welke woordsamenstelling voorkomt. In een ander geval kan het dan weer nuttig zijn om alle emailconversaties tussen betrokken personen over een bepaald thema te kunnen afsplitsen van de rest. Nog een andere: alle documenten selecteren met het woord “factuur” in eender welke taal.

Segmentatie van datasets op basis van entiteiten herkend in de documentinhoud – visualisatie uit het e-discovery platform ZyLAB

In de juridische sector kan e-discovery worden ingezet om grote hoeveelheden jurisprudentie te doorzoeken naar eerdere zaken of naar wetgeving gerelateerd aan wat voorligt, om zo sneller een overzicht te krijgen van precedenten en/of mogelijke argumenten.

In Nederland krijgt de overheid jaarlijks zo’n 1400 verzoeken tot openbaarmaking van documenten vanwege journalisten, actiecomités of burgers. Dat vereist telkens dat bij vele verschillende instanties mogelijk duizenden documenten moeten worden opgevraagd, gebundeld, en actief geanonimiseerd voor publicatie (nodig om de privacy van betrokken personen te beschermen, en zo GDPR-compliant te zijn). In België is het “wobben” vooralsnog niet zo populair [1, 2, 3, 4, 5]. Vast staat wel dat de administratie die geconfronteerd wordt met de verplichting een groot intern dossier te publiceren, handenvol werk te wachten staat.

Documenten correct anonymiseren is een tijdrovend karwei zonder automatisering.

Dat soort grootschalige vragen beantwoord je niet in 1 keer. Veelal bekom je het resultaat pas na een iteratief proces van selecties en verfijningen. Gegeven de heterogeniteit en variabiliteit in de data, is het een kunst om zo snel mogelijk alle relevante documenten te groeperen, zonder enerzijds teveel irrelevante documenten te behouden of anderzijds relevante documenten over het hoofd te zien (dat selectieproces heet culling in het jargon). Om dat te faciliteren kunnen goede e-discovery tools ook machine learning inzetten, die de gebruiker toelaat classifiers te trainen die, naarmate er meer documenten zijn behandeld, steeds accurater zelf relevante documenten zullen kunnen identificeren, en/of daarin kunnen markeren wat eventueel nagekeken of geredigeerd moet worden voor publicatie. Het globale proces kan worden samengevat in het e-discovery reference model (EDRM):

In een typisch e-discovery proces worden gegevens uit verschillende bronnen eerst verzameld in een soort “data lake”. Daarna wordt een breed spectrum van tools voor analyse op deze gegevens losgelaten die zoveel mogelijk nuttige metadata uit de gegevens extraheert en opslaat. Een geavanceerde zoekinterface laat toe om het geheel verder te organiseren en in de diepte, desgewenst “fuzzy“, te doorzoeken. Vaak zijn er mogelijkheden om zelf concepten te definiëren die men belangrijk vindt en wil markeren – via systemen gaande van eenvoudige reguliere expressies, over allerlei vormen van named entity recognition, tot methodes van machine learning om moeilijker te vatten gecontextualiseerde informatie te kunnen capteren.

In de voorvermelde usecases wil men veelal binnen de inhoud van de documenten op zoek naar informatie waarvan men bovendien niet exact weet hoe die erin tot uiting komt. E-discovery tools trachten daarom vaak een vorm van “semantic search” aan te bieden en steunen daarvoor op allerlei technogieën die verder gaan dan enkel een full-tekst indexering van de gegevens: topic detection, clustering, classificatie, natural language processing, near-duplicate detection, zelfs sentiment analysis, kunnen allemaal nuttige indicatoren leveren die het zoekproces verrijken. Tot slot zal een goed e-discovery platform het verschil maken met een gewone zoekopdracht op een database door het faciliteren van het iteratieve karakter van het zoekproces (extraheer – review – analyseer – extraheer – …), aangevuld met batch editing en processing functionaliteit (denk aan het anonymiseren van vele documenten tegelijk).

Zo wordt de fase van data verzamelen, organiseren, schoonmaken en prepareren, die anders al snel 80% van een data-analyseproject uitmaakt, gestroomlijnd. De gebruikers van e-discovery tools zijn typisch geen IT-ers maar juristen, inspecteurs of journalisten. Een associatie zoals ACEDS verenigt gebruikers van e-discovery tools en organiseert opleidingen, certifiëringen of evenementen waarop best practices worden gedeeld. Dat is niet overbodig: je haalt pas echt rendement uit zulke gespecialiseerde tools eens je er de nodige ervaring mee hebt opgebouwd, en als je ze optimaal kan inbedden in de andere processen binnen je organisatie.

Enkele van de grote aanbieders van e-discovery platformen op de markt zijn RelativityOne, OpenText EnCase, nuix, IBM, AccessData, LogikCull, nextpoint, ZyLAB. Sommige van deze spelers richten zich specifiek tot juridische wereld of het overheidswezen. Open source tools voor bovenvermelde usecases beperken zich op het moment van schrijven vooral tot de domeinen van cybersecurity en low-level computer forensics (bvb. Sleuthkit). Voor algemene e-discovery is FreeEed zo goed als het enige bestaande open source project.

Screenshot van de open-source FreeEed e-discovery software met weergave van entity recognition.

Alles samengevat zijn gespecialiseerde e-discovery tools met name interessant wanneer je te maken krijgt met onoverzichtelijk grote datasets in een waaier aan documentformaten, waarin je gericht naar iets bepaalds op zoek bent, maar je hebt geen documentatie van de dataset of je kan niet rekenen op hulp van de eigenaar ervan – dus je zou niet weten waar te beginnen. Binnen de overheid kan dit vooral voor inspecteurs en auditeurs een hulp zijn, al kan vrijwel iedere overheidsdienst wel eens met een WOB-verzoek geconfronteerd worden waarvoor de archieven opengebroken moeten worden…

______________________

Dit is een ingezonden bijdrage van Joachim Ganseman, IT consultant bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Wat als we medische parameters zouden kunnen delen?

Renzo Lylon — Tue, 06 Mar 2018 07:30:15 +0000

In actiepunt 19 “Mobile Health” van het plan eGezondheid wordt ook gesproken over het van op afstand verzamelen van medische parameters. Diverse oplossingen kunnen hiervoor momenteel gebruikt worden. Deze oplossingen zijn vaak totaaloplossingen: de leverancier levert het registratietoestel, het platform om gegevens te bewaren en de software om de gegevens te visualiseren en te analyseren.

Totaaloplossingen hebben als voordeel dat men onmiddellijk beschikt over een werkend systeem dat alle nodige componenten bevat. In proefprojecten en in een eerste fase zijn totaaloplossingen dus zeker een goede benadering om snel resultaten te kunnen boeken.

Hoe meer van dergelijke totaaloplossingen er naast elkaar gebruikt beginnen te worden hoe meer de problemen van deze systemen echter naar boven zullen beginnen komen. De problemen die kenmerkend zijn voor totaaloplossingen zijn onder meer:

Als de patiënt een tweede opinie wil dan kan de tweede arts de parameterwaarden niet analyseren indien hij niet hetzelfde systeem gebruikt.
Een gelijkaardig probleem doet zich voor indien een patiënt van arts wenst te veranderen. Indien deze een ander systeem gebruikt, dan moet de patiënt leren werken met een nieuw toestel. Dit is niet voor alle patiënten evident.
Omgekeerd kan een arts ook niet gemakkelijk beslissen om een andere analysesoftware te gebruiken. Andere softwareleveranciers zullen vaak geen toegang hebben tot het gesloten systeem, waardoor de arts nagenoeg verplicht is om dezelfde software te blijven gebruiken. Volledig veranderen van systeem is bij een gesloten omgeving niet evident omdat alle patiënten van de arts dan ook een ander registratietoestel dienen te gebruiken.
Als de systemen worden aangeboden door een ziekenhuis dan zal de huisarts van de patiënt niet altijd een licentie hebben van de gebruikte analysesoftware. Het is voor een huisarts ondoenbaar om over verschillende softwarelicenties te beschikken.

Zoals eerder gezegd zijn in proefprojecten of in een eerste fase totaaloplossingen de snelste manier om resultaten te kunnen behalen. Voordat er echter een wildgroei ontstaat van oplossingen die naast elkaar gebruikt worden zou het misschien goed zijn om na te gaan of er geen oplossing gevonden kan worden voor bovenstaande problemen. In deze blogpost wordt een aanzet gegeven van een mogelijke oplossingspiste.

Oplossingsvoorstel

Ideaal gezien zou dus zowel de patiënt als de arts / ziekenhuis de vrijheid moeten hebben om zelf te bepalen welke registratietoestellen of software zij respectievelijk gebruiken. Een volledige loskoppeling tussen de systemen die instaan voor de registratie van de gegevens en de software die instaat voor de verdere verwerking zou tegemoetkomen aan een groot deel van de eerder opgelijste problemen.

Een volledige ontkoppeling is echter maar mogelijk wanneer een onafhankelijke partij instaat voor een centraal beheer van de medische parameters. Over wie de onafhankelijke partij zou moeten zijn die verantwoordelijk zou worden voor het registratieplatform wordt in deze blogpost geen uitspraak gedaan. Diverse pistes zijn hiervoor mogelijk.

Het centrale register houdt de waarde van de gemeten parameters bij en stelt deze ter beschikking van de hiertoe gemachtigde gebruikers. De onderstaande afbeelding stelt deze manier van werken schematisch voor.

Het grote voordeel van een volledige loskoppeling is dat er een gelijk speelveld wordt gecreëerd voor alle partners. Spelers kunnen zich specialiseren in een unieke functie zonder dat ze ook moeten voorzien in de andere componenten van een gesloten systeem. Verder in deze blogpost wordt er dieper ingegaan op het feit dat de creatie van een gelijk speelveld kansen kan bieden aan nieuwe innovatieve spelers.

Patiënt

De patiënt zou over de vrijheid moeten beschikken om zelf te bepalen welk toestel hij wenst te gebruiken. Deze vrijheid is natuurlijk enigszins beperkt omdat het toestel in staat moet zijn om met het platform dat de medische parameters beheert te communiceren. Het lijkt aangewezen om deze communicatie zoveel mogelijk te baseren op internationale standaarden. De Continua standaard van de Personal Connected Health Alliance (http://www.pchalliance.org/) is bijvoorbeeld een internationale standaard voor medische registratietoestellen. Deze standaard beschrijft onder meer de interface tussen de meettoestellen en de gateway die instaat voor het verzenden van de waardes naar een centraal platform. De website van de organisatie die verantwoordelijk is voor deze standaard bevat een lijst met alle registratietoestellen die momenteel al voldoen aan hun standaard.

Arts

Indien een arts niet langer gebruik moet maken van specifieke software dan kan de functionaliteit om de parameterwaarden te visualiseren en analyseren ingebouwd worden in de eigen EMD software. Dit zou als voordeel hebben dat de parameterwaarden gekoppeld kunnen worden aan de al beschikbare informatie over de patiënt. Door deze koppeling zou dus een vollediger beeld ontstaan van de patiënt binnen de eigen EMD-software.

Anonimisatie van parameterwaarden

Medische parameters zijn gevoelige informatie en moeten dus maximaal beschermd worden. Anderzijds kan het onder voorwaarden beschikbaar stellen van deze parameters aan derden het ontstaan van een volledig nieuwe dienstverlening tot gevolg hebben. Het lijkt daarom aangewezen om de parameters in een afzonderlijke omgeving op te slaan met een eigen technische identificatiesleutel. De relatie met de burger zou dan bijgehouden kunnen worden in bijvoorbeeld een van de bestaande kluizen (Vitalink, RSW of BGN). De zorgverstrekker die toegang heeft tot de informatie in een van de kluizen beschikt over alle identificatiesleutels om de parameters van een specifiek persoon op te halen. Enkel wie toegang heeft tot het parameterplatform krijgt geanonimiseerde gegevens te zien.

Ontstaan van nieuwe innovatieve dienstverlening

Zoals in voorgaande paragraaf aangegeven kan overwogen worden om de geanonimiseerde parameterwaarden ter beschikking te stellen voor verdere verwerking. Deze gegevens kunnen aanleiding geven tot het ontstaan van een nieuwe dienstverlening. Organisaties kunnen bijvoorbeeld de gegevens gebruiken om continu de ingegeven waarden te bewaken. Geavanceerde data analyse technieken of AI detectiemechanismes kunnen ontwikkeld en toegepast worden op de gegevens uit het parameterplatform om eventuele problemen te signaleren. Deze start ups kunnen hun business model bouwen op een toegang tot deze gegevens en hierrond een dienstenaanbod creëren. Het eenvoudig toegankelijk maken van deze gegevens verlaagt de drempel om een nieuwe dienstverlening op te starten. De initiële opstartkosten worden sterk verlaagd indien er geen end-to-end oplossing gerealiseerd moet worden.

Anderzijds kunnen nieuwe spelers ook nieuwe registratietoestellen of apps ontwikkelen en deze aansluiten op het registratieplatform. De enige voorwaarde hierbij is dat deze voldoen aan de gebruikte standaarden. Om deze spelers toe te laten hun toestellen internationaal te vermarkten is het terug belangrijk dat de door het parameterplatform gebruikte standaarden internationale standaarden zijn.

Algemene opmerking over deze blogpost: deze post ging voornamelijk uit van de arts als verwerker van de gezondheidszorgparameters. Evengoed zou een gelijkaardig verhaal geschreven kunnen worden voor de andere gezondheidszorgverstrekkers.

Daarnaast spreekt het voor zich dat bovenstaande enkel mogelijk is indien een oplossing wordt gevonden voor de diverse problemen die er nu zijn bij de invoering van telecare oplossingen (terugbetalingsmodel, juridische aansprakelijkheid,… ) en dat er bij de uitwerking van een oplossing rekening moet gehouden worden met de GDPR regelgeving.

______________________

Dit is een ingezonden bijdrage van Renzo Lylon, business consultant bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Big data & krakend ijs onder anonimisatie

Kristof Verslype — Tue, 12 May 2015 05:30:52 +0000

Inleiding

Elk bedrijf bezit wel persoonsgegevens. Denken we maar aan winkels, banken en transportbedrijven. Deze gegevens kunnen interessant zijn voor andere doeleinden dan waarvoor ze initieel verzameld werden. Dit kan binnen het eigen bedrijf zijn, maar gegevens kunnen ook voor externen (bedrijven, onderzoeksinstellingen) waarde hebben.

Helaas/gelukkig kunnen deze gegevens omwille van de privacywet niet zomaar voor andere doeleinden gebruikt of aan anderen gegeven worden. Er is immers het finaliteitsbeginsel in de wetgeving dat stelt dat persoonsgegevens slechts voor vooraf bepaalde, duidelijk omschreven gerechtvaardigde doeleinden verwerkt mogen worden.

Onderzoekers ontwikkelden daarom data anonimisatie, waarbij getracht wordt om persoonsgegevens om te zetten naar niet-persoonsgegevens. Of anders gezegd worden de gegevens getransformeerd zodat met een minimum aan informatieverlies de gegevens niet meer gelinkt kunnen worden aan een individu. De privacy van het data subject komt zo niet meer in het gedrang en de privacywet is niet meer van toepassing.

In dit artikel bespreken we een recente polemiek over de effectiviteit van anonimisatie in de hedendaagse context, waarbij er meer dan ooit gegevens over personen – al dan niet publiekelijk – beschikbaar zijn en waarbij big data analyse aan belang wint.

Eerst leggen we een aantal basisconcepten van anonimisatie uit om vervolgens op de polemiek in te gaan.

Anonimisatie

De meest essentiële stap bij anonimisatie is het verwijderen van (de facto) identifiers. Voorbeelden zijn rijksregisternummers, telefoonnummers en persoonsnamen. Dit alleen is helaas niet genoeg.

Er zijn namelijk combinaties van attributen die in de praktijk vaak slechts op één persoon van toepassing zijn. Dit zijn de quasi-identifiers. Een typisch voorbeeld is de combinatie geboortedatum, geslacht en postcode. Het verwijderen van deze data resulteert uiteraard in een groot verlies aan potentieel nuttige informatie. In plaats daarvan kan de data wel veralgemeend worden, wat de hoeveelheid verloren data tracht te minimaliseren. Een geboortedatum kan bijvoorbeeld vervangen worden door een leeftijdscategorie en een postcode door een regio.

Een tweede aanpak is het toevoegen van ruis. Bij numerieke attribuutwaardes kan een willekeurig getal toegevoegd worden uit een statistische verdeling (vb. normaalverdeling) met een bepaalde variantie en een gemiddelde van 0. Bij de geboortedatum van persoon A kunnen bijvoorbeeld 42 dagen opgeteld worden, terwijl voor persoon B er 23 dagen afgetrokken worden.

Ten derde kan data geaggregeerd of samengevoegd worden. Zo kunnen meerdere data subjecten (personen) gegroepeerd worden en wordt enkel informatie prijsgeven over de groep en nooit over de individuen die ertoe behoren. We kunnen individuen groeperen op regio, leeftijd, loonschaal, … Dit resulteert uiteraard in meer informatieverlies.

Er zijn meer geavanceerde anonimisatietechnieken zoals k-anonymity en l-diversity, waarbij de records in de geanonimiseerde dataset steeds aan minstens k records in de originele dataset gelinkt kunnen worden – op één vrij attribuut na. Deze technieken zijn echter minder geschikt in de context van big data, aangezien één vrij attribuut gewoon te beperkend is.

Dankzij anonimisatie is de privacy van het data subject beter beschermd en is er toch nog ruimte om de geanonimiseerde data nuttig te exploiteren. Het laat dus toe om een evenwicht te vinden tussen de bescherming van de privacy enerzijds en de praktische bruikbaarheid van de data anderzijds. Tot zover dus de theorie…

Anonimisatie werkt niet altijd

De praktijk is – zoals steeds – iets complexer. Er zijn een aantal beruchte gevallen waarbij anonimisatie gefaald heeft, waaronder die van AOL en Netflix.

In 2006 publiceerde AOL 20 miljoen geanonimiseerde zoekopdrachten van 650 000 personen verzameld over een periode van 3 maand. De New York Times achterhaalde echter de identiteit van meerdere gebruikers, wat leidde tot het ontslag van de CTO en een 57e plaats in CNNs 101 Dumbest Moments in Business.

In 2007 publiceerde Netflix geanonimiseerde filmratings van 500.000 gebruikers. Onderzoekers toonden aan dat identificatie van gebruikers vrij eenvoudig is door de geanonimiseerde dataset te combineren met publieke IMDB data.

Dit leidde tot een polemiek tussen voor- en tegenstanders. In de twee volgende secties bekijken we de twee kampen.

“Anonimisatie werkt niet”

Een eerste referentiewerk van critici is Broken Promises of Privacy: Responding to the surprising failure of anonymisation dat reeds in 2009 door Paul Ohms gepubliceerd werd. Daarin stelt hij dat de aanname van robuuste anonimisatie niet fundamenteel incorrect is, maar wel zeer gebrekkig (“deeply flawed”). Bij anonimisatie worden (vaak impliciet) aannames gedaan betreffende de externe informatie waarover de aanvaller beschikt. Ohms stelt echter dat we noch het type noch de hoeveelheid externe informatie waarover de aanvaller beschikt kunnen voorspellen. Ook stelt hij dat persoonlijke informatie een steeds groeiende categorie is. Vijftien jaar geleden beschouwde bijvoorbeeld niemand filmbeoordelingen en zoekquery’s als persoonlijke informatie. Ten slotte stelt hij dat hoe meer data je aan elkaar kan linken, hoe makkelijker het wordt nieuwe data daaraan te linken. Dit noemt hij het accretion problem.

In mei 2014 publiceerde het Amerikaanse President’s Council of Advisors on Science and Technology (PCAST), dat de president adviseert, het rapport Big Data and Privacy: A Technological Perspective. Daarin wordt gesteld dat anonimisatie weliswaar in het verleden zijn nut heeft gehad, maar dat het toekomstig potentieel beperkt is. Er zijn immers meer en meer data beschikbaar, alsook betere algoritmes die helpen bij het deanonimiseren van data.

In de populaire pers lezen we geregeld – vaak dramatische – titels zoals Anonimiteit bij big data-analyse een illusie (DataNews 02/02/15) en ook Big Data goeroes zoals Mayer-Schonberger en Cukier geloven niet in anonimisatie in de context van big data. In hun bestseller Big Data: A Revolution That Will Transform How We Live, Work and Think (2013) stellen ze dat deze technologie weliswaar werkt voor kleine datasets, maar niet in de context van big data. Daarbij verwijzen ze naar de Netflix en AOL cases.

“Anonimisatie werkt wel”

Toch lijken er nog voorstanders van anonimisatie in een hedendaagse context. De grootste pleitbezorgster is Ann Cavoukian, tot oktober 2014 de privacycommissaris in Canada en grondlegster van het privacy by design principe. In juni 2014 publiceerde ze het rapport Big Data and Innovation, Setting the Record Straight: De-identification Does Work, waarin ze stelt dat er een neiging is bij commentatoren om de bevindingen te overdrijven, dat er meer en meer literatuur verschijnt die de accuraatheid van gepubliceerde deanonimisatieaanvallen in vraag stelt en dat organisaties een risico-inschatting moeten doen op basis van de huidige best practices voordat ze geanonimiseerde data prijsgeven.

Ook bij de Britse overheden leeft diezelfde overtuiging, meer bepaald bij de ICO, de Information Commissioners Office, wat het regulerend orgaan is voor alles wat te maken heeft met bescherming van gegevens. In juli 2014 publiceerde het ICO het rapport Big data and data protection. Daarin stelt het dat big data geen spel is dat met andere regels gespeeld wordt en dat geanonimiseerde data geen persoonlijke data meer is. Er is weliswaar nog steeds een risico, maar organisaties moeten zich focussen op het verminderen van de risico’s zodat de kans op deanonimisatie uiterst gering geworden is en ver in de toekomst ligt.

Ten slotte doen artikels zoals Google loopt deur plat bij Witte Huis (De Morgen, 26/03/15) vragen rijzen over de onafhankelijkheid en objectiviteit van organen zoals het eerder vermelde PCAST. Bovendien is één van de leden van PCAST Eric Schmidt, de CEO van Google, een bedrijf met nogal wat invloed dat niet onmiddellijk de reputatie heeft de grootste pleitbezorger van privacy te zijn.

Beperkingen van Anonimisatie

Wie heeft gelijk? Is anonimisatie vandaag nog zinvol in een context waarbij er steeds meer gegevens verzameld worden, er meer en meer gegevens publiek zijn en waarbij big data analyse op een groeiende belangstelling kan rekenen?

Volgens ons zijn de beperkingen van anonimisatie zo sterk dat we het in het algemeen afraden om geanonimiseerde data te publiceren. Bovendien zijn bepaalde types persoonsgegevens gewoon niet te anonimiseren zonder de data quasi waardeloos te maken. Hieronder bespreken we de door ons geobserveerde tekortkomingen.

Publicatie geanonimiseerde data = Glad ijs

De graad van anonimisatie kan wiskundig aangetoond worden. Dit steunt echter op de veronderstelling dat de aanvaller geen toegang heeft tot externe informatie. Dit is uiteraard onrealistisch in de hedendaagse context. En zonder deze veronderstelling verdwijnt elke wiskundige onderbouwing. Of anders gesteld: we kunnen eigenlijk geen gefundeerd vertrouwen hebben in anonimisatie.

Ook bij traditionele IT-systemen is een dergelijk vertrouwen er niet steeds. Onder meer software bugs en gebrekkige configuraties zijn nooit helemaal uit te sluiten. Maar een IT-systeem is enkel kwetsbaar in de periode vanaf het ontdekken van de kwetsbaarheid tot het moment dat het gepatcht wordt. Enkel gedurende een beperkte periode was er dus een reële dreiging dat een aanvaller van de kwetsbaarheid misbruik zou maken.

Met prijsgegeven geanonimiseerde data ligt dit anders. Na het ontdekken van een nieuwe deanonimisatietechniek is er geen enkele weg terug voor de reeds prijsgegeven geanonimiseerde data. En mettertijd zullen er steeds meer manieren gevonden worden om te deanonimiseren, aangezien de algoritmes steeds beter worden en gezien er steeds meer data beschikbaar is (publiek of privaat).

Cavoukian suggereerde in haar rapport dat er steeds een risicoinschatting moet gebeuren op basis van de best practices om het risco op deanonimisatie verwaarloosbaar klein te houden. Dit klinkt logisch maar toch is er ook hier een probleem. De best practices worden namelijk aangepast telkens wanneer er een succesvolle deanonimisatieaanval geweest is en lopen dus achter op de realiteit. Bovendien is het onmogelijk in te schatten welke algoritmes en data de aanvaller in de toekomst ter beschikking zal hebben. Maar ondertussen is onze data natuurlijk wel al prijsgegeven. Hoogstens geeft een risicoinschatting ons dus de illusie van zekerheid.

Onanonimiseerbare data

Een tweede beperking situeert zich ter hoogte van de hoogdimensionale data. In tegenstelling tot ééndimensionale data zoals salaris, geboortedatum en lengte zijn hoogdimensionale data enkel uit te drukken met een groot – vaak stijgend – aantal getallen. Een typisch voorbeeld is location tracking; het bijhouden van de locatie van individuen op verschillende tijdstippen. Elke meting bestaat uit twee dimensies (tijd + locatie) en bij één meting per uur – wat zeer conservatief is – zitten we al aan 48 dimensies per dag.

Onderzoekers van het MIT (Cambridge) publiceerden in maart 2013 een paper Unique in the Crowd: The privacy bounds of human mobility. Daarin stelden ze op basis van real-life data dat het aankoopgedrag van individuen erg uniek is. Vier tijd-locatie koppels leverden in 95% van de gevallen al een uniek patroon op. Bovendien heeft het vervagen van zowel tijd als locatie maar een beperkte impact op de uniekheid van de data, terwijl het anderzijds wel een veel grotere impact heeft op de bruikbaarheid.

Hoogdimensionale data zien we steeds meer. Enkele voorbeelden zijn…

Location tracking werd reeds vermeld. Indien elke twee uur locatie en tijd geregistreerd worden, resulteert dit in 720 dimensies per maand.
Aankoopgedrag in uw supermarkt. Indien u vier keer per maand een twintigtal producten koopt, resulteert dit in 160 dimensies per maand.
In sociale netwerken is elke connectie/vriendschap één dimensie. Een gemiddelde van 100 connections/vrienden resulteert dus in 100 dimensies. Hierbij houden we nog geen rekening met de historiek (wanneer werden welke connecties gecreëerd of vernietigd).
Reviews. De gemiddelde Netflix gebruiker in de eerder vermelde gepubliceerde dataset had 213 reviews op zijn palmares, wat resulteert in 426 dimensies (tijd+rating)
Genetische data heeft een dimensionaliteit van ongeveer 1 000 000.

Nu kan natuurlijk geargumenteerd worden dat uniek en identificeerbaar twee verschillende concepten zijn en dat het ene niet hoeft te resulteren in het andere. Toch is dit een gevaarlijke aanname, gezien het met slechts een beperkte hoeveelheid externe informatie mogelijk is om geanonimiseerde hoogdimensionale data te identificeren. De onderzoekers aan MIT kwamen tot de vaststelling dat 4 tijd-locatie koppels in 95% van de gevallen daartoe volstaan. We kunnen deze informatie vinden via onder meer geo-tagged tweets, geo-tagged foto’s, Facebook posts, rekeningen en check-ins op Foursquare. In het rapport van Cavoukian lezen we slechts één paragraaf over hoogdimensionale data. Daarin stelt ze:

“In the case of high-dimensional data, additional arrangements may need to be pursued, such as making the data available to researchers only under tightly restricted legal agreements.”

Maar hoogdimensionale data zijn vandaag meer en meer de norm en niet langer de uitzondering als we spreken over big data. De stelling van Cavoukian dat data anonimisatie wel degelijk werkt in de context van big data moeten we dus op zijn minst sterk relativeren.

Conclusie

Eigenlijk is anonimisatie dus geen geschikte term gezien we niet zeker kunnen zijn dat het niet opnieuw aan een individu gelinkt kan worden. We gebruiken daarom liever de term deïdentificatie, al dekt ook deze term niet helemaal de lading.

Betekent dit nu dat deïdentificatie/anonimisatie waardeloos is in de context van big data? Wij denken dat het onmogelijk de initiële verwachtingen kan inlossen, maar dat het weliswaar wel nog een rol te spelen heeft als element in het bredere big data verhaal. Wat die rol kan zijn maakt deel uit van de lopende studie “Privacy Aspecten van Big Data” door Smals Onderzoek. Eén van de volgende artikels op deze site zal hier dieper op ingaan. Stay tuned!