Big data & krakend ijs onder anonimisatie

Inleiding

Elk bedrijf bezit wel persoonsgegevens. Denken we maar aan winkels, banken en transportbedrijven. Deze gegevens kunnen interessant zijn voor andere doeleinden dan waarvoor ze initieel verzameld werden. Dit kan binnen het eigen bedrijf zijn, maar gegevens kunnen ook voor externen (bedrijven, onderzoeksinstellingen) waarde hebben.

Helaas/gelukkig kunnen deze gegevens omwille van de privacywet niet zomaar voor andere doeleinden gebruikt of aan anderen gegeven worden. Er is immers het finaliteitsbeginsel in de wetgeving dat stelt dat persoonsgegevens slechts voor vooraf bepaalde, duidelijk omschreven gerechtvaardigde doeleinden verwerkt mogen worden.

Onderzoekers ontwikkelden daarom data anonimisatie, waarbij getracht wordt om persoonsgegevens om te zetten naar niet-persoonsgegevens. Of anders gezegd worden de gegevens getransformeerd zodat met een minimum aan informatieverlies de gegevens niet meer gelinkt kunnen worden aan een individu. De privacy van het data subject komt zo niet meer in het gedrang en de privacywet is niet meer van toepassing.

In dit artikel bespreken we een recente polemiek over de effectiviteit van anonimisatie in de hedendaagse context, waarbij er meer dan ooit gegevens over personen – al dan niet publiekelijk – beschikbaar zijn en waarbij big data analyse aan belang wint.

Eerst leggen we een aantal basisconcepten van anonimisatie uit om vervolgens op de polemiek in te gaan.

Anonimisatie

De meest essentiële stap bij anonimisatie is het verwijderen van (de facto) identifiers. Voorbeelden zijn rijksregisternummers, telefoonnummers en persoonsnamen. Dit alleen is helaas niet genoeg.

Er zijn namelijk combinaties van attributen die in de praktijk vaak slechts op één persoon van toepassing zijn. Dit zijn de quasi-identifiers. Een typisch voorbeeld is de combinatie geboortedatum, geslacht en postcode. Het verwijderen van deze data resulteert uiteraard in een groot verlies aan potentieel nuttige informatie. In plaats daarvan kan de data wel veralgemeend worden, wat de hoeveelheid verloren data tracht te minimaliseren. Een geboortedatum kan bijvoorbeeld vervangen worden door een leeftijdscategorie en een postcode door een regio.

Een tweede aanpak is het toevoegen van ruis. Bij numerieke attribuutwaardes kan een willekeurig getal toegevoegd worden uit een statistische verdeling (vb. normaalverdeling) met een bepaalde variantie en een gemiddelde van 0. Bij de geboortedatum van persoon A kunnen bijvoorbeeld 42 dagen opgeteld worden, terwijl voor persoon B er 23 dagen afgetrokken worden.

Ten derde kan data geaggregeerd of samengevoegd worden. Zo kunnen meerdere data subjecten (personen) gegroepeerd worden en wordt enkel informatie prijsgeven over de groep en nooit over de individuen die ertoe behoren. We kunnen individuen groeperen op regio, leeftijd, loonschaal, … Dit resulteert uiteraard in meer informatieverlies.

Er zijn meer geavanceerde anonimisatietechnieken zoals k-anonymity en l-diversity, waarbij de records in de geanonimiseerde dataset steeds aan minstens k records in de originele dataset gelinkt kunnen worden – op één vrij attribuut na. Deze technieken zijn echter minder geschikt in de context van big data, aangezien één vrij attribuut gewoon te beperkend is.

Dankzij anonimisatie is de privacy van het data subject beter beschermd en is er toch nog ruimte om de geanonimiseerde data nuttig te exploiteren. Het laat dus toe om een evenwicht te vinden tussen de bescherming van de privacy enerzijds en de praktische bruikbaarheid van de data anderzijds. Tot zover dus de theorie…

Anonimisatie werkt niet altijd

De praktijk is – zoals steeds – iets complexer. Er zijn een aantal beruchte gevallen waarbij anonimisatie gefaald heeft, waaronder die van AOL en Netflix.

In 2006 publiceerde AOL 20 miljoen geanonimiseerde zoekopdrachten van 650 000 personen verzameld over een periode van 3 maand. De New York Times achterhaalde echter de identiteit van meerdere gebruikers, wat leidde tot het ontslag van de CTO en een 57e plaats in CNNs 101 Dumbest Moments in Business.

In 2007 publiceerde Netflix geanonimiseerde filmratings van 500.000 gebruikers. Onderzoekers toonden aan dat identificatie van gebruikers vrij eenvoudig is door de geanonimiseerde dataset te combineren met publieke IMDB data.

Dit leidde tot een polemiek tussen voor- en tegenstanders. In de twee volgende secties bekijken we de twee kampen.

“Anonimisatie werkt niet”

Een eerste referentiewerk van critici is Broken Promises of Privacy: Responding to the surprising failure of anonymisation dat reeds in 2009 door Paul Ohms gepubliceerd werd. Daarin stelt hij dat de aanname van robuuste anonimisatie niet fundamenteel incorrect is, maar wel zeer gebrekkig (“deeply flawed”). Bij anonimisatie worden (vaak impliciet) aannames gedaan betreffende de externe informatie waarover de aanvaller beschikt. Ohms stelt echter dat we noch het type noch de hoeveelheid externe informatie waarover de aanvaller beschikt kunnen voorspellen. Ook stelt hij dat persoonlijke informatie een steeds groeiende categorie is. Vijftien jaar geleden beschouwde bijvoorbeeld niemand filmbeoordelingen en zoekquery’s als persoonlijke informatie. Ten slotte stelt hij dat hoe meer data je aan elkaar kan linken, hoe makkelijker het wordt nieuwe data daaraan te linken. Dit noemt hij het accretion problem.

In mei 2014 publiceerde het Amerikaanse President’s Council of Advisors on Science and Technology (PCAST), dat de president adviseert, het rapport Big Data and Privacy: A Technological Perspective. Daarin wordt gesteld dat anonimisatie weliswaar in het verleden zijn nut heeft gehad, maar dat het toekomstig potentieel beperkt is. Er zijn immers meer en meer data beschikbaar, alsook betere algoritmes die helpen bij het deanonimiseren van data.

In de populaire pers lezen we geregeld – vaak dramatische – titels zoals Anonimiteit bij big data-analyse een illusie (DataNews 02/02/15) en ook Big Data goeroes zoals Mayer-Schonberger en Cukier geloven niet in anonimisatie in de context van big data. In hun bestseller Big Data: A Revolution That Will Transform How We Live, Work and Think (2013) stellen ze dat deze technologie weliswaar werkt voor kleine datasets, maar niet in de context van big data. Daarbij verwijzen ze naar de Netflix en AOL cases.

“Anonimisatie werkt wel”

Toch lijken er nog voorstanders van anonimisatie in een hedendaagse context. De grootste pleitbezorgster is Ann Cavoukian, tot oktober 2014 de privacycommissaris in Canada en grondlegster van het privacy by design principe. In juni 2014 publiceerde ze het rapport Big Data and Innovation, Setting the Record Straight: De-identification Does Work, waarin ze stelt dat er een neiging is bij commentatoren om de bevindingen te overdrijven, dat er meer en meer literatuur verschijnt die de accuraatheid van gepubliceerde deanonimisatieaanvallen in vraag stelt en dat organisaties een risico-inschatting moeten doen op basis van de huidige best practices voordat ze geanonimiseerde data prijsgeven.

Ook bij de Britse overheden leeft diezelfde overtuiging, meer bepaald bij de ICO, de Information Commissioners Office, wat het regulerend orgaan is voor alles wat te maken heeft met bescherming van gegevens. In juli 2014 publiceerde het ICO het rapport Big data and data protection. Daarin stelt het dat big data geen spel is dat met andere regels gespeeld wordt en dat geanonimiseerde data geen persoonlijke data meer is. Er is weliswaar nog steeds een risico, maar organisaties moeten zich focussen op het verminderen van de risico’s zodat de kans op deanonimisatie uiterst gering geworden is en ver in de toekomst ligt.

Ten slotte doen artikels zoals Google loopt deur plat bij Witte Huis (De Morgen, 26/03/15) vragen rijzen over de onafhankelijkheid en objectiviteit van organen zoals het eerder vermelde PCAST. Bovendien is één van de leden van PCAST Eric Schmidt, de CEO van Google, een bedrijf met nogal wat invloed dat niet onmiddellijk de reputatie heeft de grootste pleitbezorger van privacy te zijn.

Beperkingen van Anonimisatie

Wie heeft gelijk? Is anonimisatie vandaag nog zinvol in een context waarbij er steeds meer gegevens verzameld worden, er meer en meer gegevens publiek zijn en waarbij big data analyse op een groeiende belangstelling kan rekenen?

Volgens ons zijn de beperkingen van anonimisatie zo sterk dat we het in het algemeen afraden om geanonimiseerde data te publiceren. Bovendien zijn bepaalde types persoonsgegevens gewoon niet te anonimiseren zonder de data quasi waardeloos te maken. Hieronder bespreken we de door ons geobserveerde tekortkomingen.

Publicatie geanonimiseerde data = Glad ijs

De graad van anonimisatie kan wiskundig aangetoond worden. Dit steunt echter op de veronderstelling dat de aanvaller geen toegang heeft tot externe informatie. Dit is uiteraard onrealistisch in de hedendaagse context. En zonder deze veronderstelling verdwijnt elke wiskundige onderbouwing. Of anders gesteld: we kunnen eigenlijk geen gefundeerd vertrouwen hebben in anonimisatie.

Ook bij traditionele IT-systemen is een dergelijk vertrouwen er niet steeds. Onder meer software bugs en gebrekkige configuraties zijn nooit helemaal uit te sluiten. Maar een IT-systeem is enkel kwetsbaar in de periode vanaf het ontdekken van de kwetsbaarheid tot het moment dat het gepatcht wordt. Enkel gedurende een beperkte periode was er dus een reële dreiging dat een aanvaller van de kwetsbaarheid misbruik zou maken.

Met prijsgegeven geanonimiseerde data ligt dit anders. Na het ontdekken van een nieuwe deanonimisatietechniek is er geen enkele weg terug voor de reeds prijsgegeven geanonimiseerde data. En mettertijd zullen er steeds meer manieren gevonden worden om te deanonimiseren, aangezien de algoritmes steeds beter worden en gezien er steeds meer data beschikbaar is (publiek of privaat).

Cavoukian suggereerde in haar rapport dat er steeds een risicoinschatting moet gebeuren op basis van de best practices om het risco op deanonimisatie verwaarloosbaar klein te houden. Dit klinkt logisch maar toch is er ook hier een probleem. De best practices worden namelijk aangepast telkens wanneer er een succesvolle deanonimisatieaanval geweest is en lopen dus achter op de realiteit. Bovendien is het onmogelijk in te schatten welke algoritmes en data de aanvaller in de toekomst ter beschikking zal hebben. Maar ondertussen is onze data natuurlijk wel al prijsgegeven. Hoogstens geeft een risicoinschatting ons dus de illusie van zekerheid.

Onanonimiseerbare data

Een tweede beperking situeert zich ter hoogte van de hoogdimensionale data. In tegenstelling tot ééndimensionale data zoals salaris, geboortedatum en lengte zijn hoogdimensionale data enkel uit te drukken met een groot – vaak stijgend – aantal getallen. Een typisch voorbeeld is location tracking; het bijhouden van de locatie van individuen op verschillende tijdstippen. Elke meting bestaat uit twee dimensies (tijd + locatie) en bij één meting per uur – wat zeer conservatief is – zitten we al aan 48 dimensies per dag.

Onderzoekers van het MIT (Cambridge) publiceerden in maart 2013 een paper Unique in the Crowd: The privacy bounds of human mobility. Daarin stelden ze op basis van real-life data dat het aankoopgedrag van individuen erg uniek is. Vier tijd-locatie koppels leverden in 95% van de gevallen al een uniek patroon op. Bovendien heeft het vervagen van zowel tijd als locatie maar een beperkte impact op de uniekheid van de data, terwijl het anderzijds wel een veel grotere impact heeft op de bruikbaarheid.

Hoogdimensionale data zien we steeds meer. Enkele voorbeelden zijn…

  • Location tracking werd reeds vermeld. Indien elke twee uur locatie en tijd geregistreerd worden, resulteert dit in 720 dimensies per maand.
  • Aankoopgedrag in uw supermarkt. Indien u vier keer per maand een twintigtal producten koopt, resulteert dit in 160 dimensies per maand.
  • In sociale netwerken is elke connectie/vriendschap één dimensie. Een gemiddelde van 100 connections/vrienden resulteert dus in 100 dimensies. Hierbij houden we nog geen rekening met de historiek (wanneer werden welke connecties gecreëerd of vernietigd).
  • Reviews. De gemiddelde Netflix gebruiker in de eerder vermelde gepubliceerde dataset had 213 reviews op zijn palmares, wat resulteert in 426 dimensies (tijd+rating)
  • Genetische data heeft een dimensionaliteit van ongeveer 1 000 000.

Nu kan natuurlijk geargumenteerd worden dat uniek en identificeerbaar twee verschillende concepten zijn en dat het ene niet hoeft te resulteren in het andere. Toch is dit een gevaarlijke aanname, gezien het met slechts een beperkte hoeveelheid externe informatie mogelijk is om geanonimiseerde hoogdimensionale data te identificeren. De onderzoekers aan MIT kwamen tot de vaststelling dat 4 tijd-locatie koppels in 95% van de gevallen daartoe volstaan. We kunnen deze informatie vinden via onder meer geo-tagged tweets, geo-tagged foto’s, Facebook posts, rekeningen en check-ins op Foursquare. In het rapport van Cavoukian lezen we slechts één paragraaf over hoogdimensionale data. Daarin stelt ze:

“In the case of high-dimensional data, additional arrangements may need to be pursued, such as making the data available to researchers only under tightly restricted legal agreements.”

Maar hoogdimensionale data zijn vandaag meer en meer de norm en niet langer de uitzondering als we spreken over big data. De stelling van Cavoukian dat data anonimisatie wel degelijk werkt in de context van big data moeten we dus op zijn minst sterk relativeren.

Conclusie

Eigenlijk is anonimisatie dus geen geschikte term gezien we niet zeker kunnen zijn dat het niet opnieuw aan een individu gelinkt kan worden. We gebruiken daarom liever de term deïdentificatie, al dekt ook deze term niet helemaal de lading.

Betekent dit nu dat deïdentificatie/anonimisatie waardeloos is in de context van big data? Wij denken dat het onmogelijk de initiële verwachtingen kan inlossen, maar dat het weliswaar wel nog een rol te spelen heeft als element in het bredere big data verhaal. Wat die rol kan zijn maakt deel uit van de lopende studie “Privacy Aspecten van Big Data” door Smals Onderzoek. Eén van de volgende artikels op deze site zal hier dieper op ingaan. Stay tuned!

This entry was posted in Big Data and tagged , by Kristof Verslype. Bookmark the permalink.
avatar

About Kristof Verslype

Kristof behaalde begin 2011 een doctoraat in de ingenieurswetenschappen aan de KU Leuven. Hij onderzocht hoe privacy m.b.v. cryptografie verbeterd kon worden. Na een klein jaar als postdoctoraal onderzoeker werd hij eind 2011 onderzoeker bij Smals. Zijn huidige domeinen zijn distributed trust, privacy & analytics, blockchain & smart contracts en toegepaste cryptografie. Hij wordt regelmatig gevraagd als spreker. Meer info op www.cryptov.net

3 thoughts on “Big data & krakend ijs onder anonimisatie

  1. Pingback: Geavanceerd Event Driven Engineering | Smals Research

  2. Beste Philippe,

    Het gebeurt inderdaad zoals je beschrijft. Ik heb geen weet van fundamenteel andere methodes. Dit wordt door de onderzoekers van MIT een correlation attack genoemd. We kunnen een aantal zaken over een individu te weten komen die we ook in de geanonimiseerde dataset terugvinden. In de tekst schrijf ik vb. over location tracking: “We kunnen deze informatie vinden via onder meer geo-tagged tweets, geo-tagged foto’s, Facebook posts, rekeningen en check-ins op Foursquare.” Hoe meer dergelijke gegevens je hebt, hoe zekerder je bent over de link tussen de geanonimiseerde data en een individu.

    Zo is het mogelijk dat die data na een correlation attack nog maar slechts aan drie personen (A, B en C) gelinkt kan worden (waarschijnlijkheid van 33,33% elk). Hoewel we de data strikt genomen nog niet gedeanonimiseerd hebben, kan dit toch al schade berokkenen aan één of meer betrokkenen.

    Je kan bijkomend gebruik maken van gekende statistische data: in onze geanonimiseerde data is er sprake van een loon lager dan X €/maand en gezien 80% van de inwoners in de wijk van persoon A een lager inkomen hebben (tegenover 40% en 25% voor de individuen B en C), kennen we aan A aan hogere waarschijnlijkheid toe (en een lagere aan B en C).

    Vriendelijke Groeten,

    Kristof Verslype

  3. Welke soorten aanvallen zijn er zo al mogelijk (high-level gezien)?

    Ik kan me enkel het volgende scenario bedenken: we hebben een set gegevens X1 -> Xn. Een aantal subsets van die gegevens zijn voldoende om in de meeste gevallen een uniek patroon op te leveren. Stel dat bijvoorbeeld de subset X1 -> Xk een uniek patroon oplevert en dat een aanvaller genoeg externe informatie heeft om X1 -> Xk aan een persoon te linken. In dat geval kunnen de gegevens Xk+1 -> Xn dan ook met die persoon in verband gebracht worden.

    Zijn er nog andere mogelijkheden om data te deanonimiseren?

Leave a Reply

Your email address will not be published.