<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>gdpr &#8211; Smals Research</title>
	<atom:link href="https://www.smalsresearch.be/tag/gdpr/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.smalsresearch.be</link>
	<description></description>
	<lastBuildDate>Thu, 09 Apr 2026 12:20:06 +0000</lastBuildDate>
	<language>en-GB</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://www.smalsresearch.be/wp-content/uploads/2026/01/cropped-cropped-Smals_Research-32x32.png</url>
	<title>gdpr &#8211; Smals Research</title>
	<link>https://www.smalsresearch.be</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Advanced De-identification &#038; Linkage of Personal Data originating from Multiple Sources for Secondary Use</title>
		<link>https://www.smalsresearch.be/advanced-de-identification-linkage-of-personal-data-originating-from-multiple-sources-for-secondary-use/</link>
		
		<dc:creator><![CDATA[Kristof Verslype]]></dc:creator>
		<pubDate>Wed, 02 Apr 2025 08:20:50 +0000</pubDate>
				<category><![CDATA[Presentations]]></category>
		<category><![CDATA[cryptography]]></category>
		<category><![CDATA[EHDS]]></category>
		<category><![CDATA[gdpr]]></category>
		<category><![CDATA[health]]></category>
		<category><![CDATA[Privacy]]></category>
		<guid isPermaLink="false">https://www.smalsresearch.be/advanced-de-identification-linkage-of-personal-data-originating-from-multiple-sources-for-secondary-use/</guid>

					<description><![CDATA[This presentation discusses two concepts developed by Smals Research to de-identify and link personal data originating from multiple sources, in order to make them available for secondary use such as for scientific research. Presentation]]></description>
										<content:encoded><![CDATA[<p>This presentation discusses two concepts developed by Smals Research to de-identify and link personal data originating from multiple sources, in order to make them available for secondary use such as for scientific research.</p>







                <h1 class="wp-block-heading">Presentation</h1>
            
            


            <div data-wp-interactive="core/file" class="wp-block-file">
                <object data-wp-bind--hidden="!state.hasPdfPreview" hidden class="wp-block-file__embed" data="https://www.smalsresearch.be/wp-content/uploads/2025/04/20250401_HDA_pseudojoin_final.pdf" type="application/pdf" style="width:100%;height:600px" aria-label="Embed of 20250401_HDA_pseudojoin_final."></object>
                <a id="wp-block-file--media-7edd7c48-5cbd-4197-95d2-7a77bcdf2975" href="https://www.smalsresearch.be/wp-content/uploads/2025/04/20250401_HDA_pseudojoin_final.pdf">20250401_HDA_pseudojoin_final</a><a href="https://www.smalsresearch.be/wp-content/uploads/2025/04/20250401_HDA_pseudojoin_final.pdf" class="wp-block-file__button wp-element-button" download aria-describedby="wp-block-file--media-7edd7c48-5cbd-4197-95d2-7a77bcdf2975">Download</a>
                </div>
            ]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>PII Filtering &#8211; par ******* habitant *****</title>
		<link>https://www.smalsresearch.be/pii-filtering-fr/</link>
		
		<dc:creator><![CDATA[Joachim Ganseman]]></dc:creator>
		<pubDate>Thu, 31 Oct 2024 16:24:12 +0000</pubDate>
				<category><![CDATA[[FR]]]></category>
		<category><![CDATA[Blog post]]></category>
		<category><![CDATA[Artificial intelligence]]></category>
		<category><![CDATA[audit]]></category>
		<category><![CDATA[chatbot]]></category>
		<category><![CDATA[cloud computing]]></category>
		<category><![CDATA[gdpr]]></category>
		<category><![CDATA[Privacy]]></category>
		<category><![CDATA[Security]]></category>
		<guid isPermaLink="false">/?p=21300</guid>

					<description><![CDATA[Comment protéger les données personnelles communiquées sans méfiance avec des agents conversationnels ? Le filtrage automatique peut partiellement aider, mais il ne s'agit pas d'une solution miracle.]]></description>
										<content:encoded><![CDATA[
<p><em>Dit artikel is ook beschikbaar <a href="/pii-filtering/" data-type="post" data-id="21217">in het Nederlands</a>.</em></p>



<p>Avec la popularité des applications d&#8217;IA dotées d&#8217;une interface conversationnelle, un &#8220;vieux casse-tête&#8221; refait surface : comment protéger les données personnelles communiquées, souvent sans méfiance, à un système automatisé de conversation ? Par extension, cette question se pose pour toute application où des données personnelles doivent être partagées avec des tiers. Les dépendances externes d&#8217;une application peuvent toutefois constituer un enchevêtrement complexe. Il n&#8217;est pas non plus toujours possible (ou économiquement viable) d&#8217;éviter les grands acteurs d&#8217;infrastructures informatiques d&#8217;IA &#8211; du moins pas si vous souhaitez rester à jour avec les dernières capacités de manière rentable.</p>



<p>Une solution possible est connue sous le nom de <em>PII Filtering</em>. En l&#8217;occurrence, PII est l&#8217;acronyme anglais de <em>Personal(ly) Identifiable/Identifying Information</em>, c&#8217;est-à-dire les informations par lesquelles une personne peut être identifiée. L&#8217;idée est assez simple&nbsp;: un filtre supplémentaire est placé devant l&#8217;application, qui élimine les informations à caractère personnel des données d&#8217;entrée, avant que celles-ci ne soient transmises à l&#8217;application. Si cela fonctionne bien, alors ce que l&#8217;application fait de ces données en coulisses n&#8217;a pas d&#8217;importance.</p>



<h2 class="wp-block-heading">PII vs. Personal Data</h2>



<p>Avant toute chose, il est crucial de comprendre que les PII ne peuvent être assimilées à des &#8220;Personal Data&#8221; telles que définies par le RGPD et d&#8217;autres législations européennes. Les PII sont un concept ancré dans le droit états-unien. Elles font généralement référence à un ensemble fini d&#8217;informations d&#8217;identification qui peuvent être utilisées dans le but de distinguer ou de confirmer l&#8217;identité d&#8217;un individu, comme les numéros de registre national, les adresses et les numéros de téléphone. Aux États-Unis, les réglementations sont souvent prescriptives à cet égard&nbsp;: par exemple, <a href="https://fr.wikipedia.org/wiki/Health_Insurance_Portability_and_Accountability_Act">HIPAA</a> (réglementation sur la protection des données relatives à la santé) comprend <a href="https://www.luc.edu/its/aboutus/itspoliciesguidelines/hipaainformation/the18hipaaidentifiers/">une liste de 18 identifiants</a> définis comme PII. Cela présente le grand avantage d&#8217;être relativement facile à implémenter : une fois que la liste est entièrement cochée, il n&#8217;y a plus guère de débat juridique possible.</p>



<p>En revanche, la <a href="https://eur-lex.europa.eu/eli/reg/2016/679/oj">RGPD</a> européenne adopte une approche de principe : elle définit un concept plus large de <a href="https://gdpr-info.eu/art-4-gdpr/"><em>Personal Data</em></a> (données à caractère personnel). Ce concept englobe &#8220;toute information se rapportant à une personne physique identifiée ou identifiable&#8221;. Cela signifie que même des informations en apparence anodines, comme la couleur &#8220;rouge&#8221;, peuvent être considérées comme des données à caractère personnel si elles se rapportent, par exemple, à la couleur préférée d&#8217;une personne. Cette définition des données à caractère personnel dépendante du contexte rend toutefois pratiquement impossible le développement de détecteurs ou de filtres génériques et polyvalents pour ces données. Ce qui est considéré comme des données personnelles ou non doit être évalué au cas par cas. Les développeurs sont donc confrontés à une personnalisation plus importante qu&#8217;ils ne le souhaiteraient, mais les juristes, les DPO et les <a href="https://www.autoriteprotectiondonnees.be/">autorités de protection des données</a> ont également fort à faire avec de telles évaluations dans chaque pays de l&#8217;UE.</p>



<p>Ainsi, les solutions de filtrage des PII considérées comme conformes aux États-Unis risquent toujours de ne l&#8217;être que partiellement dans l&#8217;Union européenne. Étant donné que le terme <em>PII</em> semble s&#8217;être imposé sur le marché mondial, nous ferons dans le présent article uniquement référence aux PII. Gardez toujours à l&#8217;esprit que le <em>Personal Data</em> doit être le point de départ dans le contexte de l&#8217;UE.</p>



<h2 class="wp-block-heading"><strong>Détection et filtrage des PII</strong></h2>



<p>Afin de filtrer des informations textuelles, nous utilisons généralement des modèles techniques de <a href="https://fr.wikipedia.org/wiki/Reconnaissance_de_formes">reconnaissance de formes</a> et de <a href="https://fr.wikipedia.org/wiki/Traitement_automatique_des_langues">traitement automatique des langues (Natural Language Processing ou NLP)</a>. Ces modèles analysent les données non structurées, à la recherche de formes telles que des formats d&#8217;adresses e-mail ou des chaînes numériques similaires à un registre national ou encore à des numéros de téléphone, afin de les modifier ou de les anonymiser par la suite. En outre, des <a href="https://fr.wikipedia.org/wiki/Expression_r%C3%A9guli%C3%A8re">formes d&#8217;expression régulières (regex)</a> personnalisées sont souvent ajoutées afin de reconnaître les formes d&#8217;informations sensibles spécifiques à l&#8217;application en question.</p>



<figure class="wp-block-image aligncenter size-full"><a href="/wp-content/uploads/2024/10/image.png"><img fetchpriority="high" decoding="async" width="523" height="217" src="/wp-content/uploads/2024/10/image.png" alt="Een voorbeeld van PII Filtering met NER in het Nederlands. Bron: pii-filter library (c) &quot;HabaneroCake&quot;, MIT license" class="wp-image-21255" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/image.png 523w, https://www.smalsresearch.be/wp-content/uploads/2024/10/image-300x124.png 300w" sizes="(max-width: 523px) 100vw, 523px" /></a><figcaption class="wp-element-caption">Filtrage PII basé sur NER en néerlandais. Source: <a href="https://github.com/HabaneroCake/pii-filter/">pii-filter library</a> (c) &#8220;HabaneroCake&#8221;, MIT license</figcaption></figure>



<p>Un filtrage efficace des PII repose en grande partie sur la <a href="https://fr.wikipedia.org/wiki/Reconnaissance_d%27entit%C3%A9s_nomm%C3%A9es">reconnaissance d&#8217;entités nommées (Named Entity Recognition ou NER)</a>, une méthode NLP qui identifie les entités telles que les noms, les dates et les lieux dans un texte. Nous avons déjà publié des articles plus détaillés à ce sujet &#8211; voir les articles sur <a href="/facetten-van-natural-language-processing-deel-2/">NLP</a> et <a href="/named-entity-recognition-une-application-du-nlp-utile/">NER</a>.  L&#8217;essor de l&#8217;IA générative n&#8217;a pas encore changé grand-chose à la conception des techniques de NER. Aujourd&#8217;hui encore, de nombreux outils de filtrage de PII utilisent des outils NLP sous-jacents bien développés tels que <a href="https://www.nltk.org/">NLTK</a>, <a href="https://spacy.io/">SpaCy</a> ou <a href="https://flairnlp.github.io/">Flair</a>.</p>



<p>Toutefois, les PII peuvent également apparaître dans des images&nbsp;: scans de documents, photos de visages ou de plaques d&#8217;immatriculation, &#8230; Le filtrage de ces images nécessite une approche plus sophistiquée, car les données sensibles peuvent apparaître sous diverses formes, de notes écrites à la main à des reflets sur des photos. La <a href="https://fr.wikipedia.org/wiki/Reconnaissance_optique_de_caract%C3%A8res">reconnaissance optique de caractères (Optical Character Recognition ou OCR)</a> permet d&#8217;extraire le texte des images et de le convertir dans un format qui peut être analysé de la même manière que des données textuelles. Une fois le texte extrait, il est soumis au même processus de filtrage des PII à l&#8217;aide de techniques NLP. Des algorithmes de <a href="https://fr.wikipedia.org/wiki/D%C3%A9tection_d%27objet">reconnaissance d&#8217;objets</a> sont utilisés pour reconnaître les éléments visuels sensibles (tels que des visages ou des documents personnels) contenus dans l&#8217;image elle-même.</p>



<p>Une fois identifiées, vous devez décider de ce qu&#8217;il convient de faire avec les PII détectées. Les options possibles sont les suivantes&nbsp;:</p>



<ul class="wp-block-list">
<li>Remplacement/substitution par une autre valeur. Celle-ci peut éventuellement être créée à l&#8217;aide d&#8217;un <a href="https://faker.readthedocs.io/en/master/">outil de génération de données synthétiques</a>, de sorte que l&#8217;original est remplacé par une alternative d&#8217;apparence réaliste.</li>



<li>Masquage / obfuscation : remplacement par un caractère ou une barre. Cela peut être partiel, afin de ne pas perdre des informations plus générales utiles : par exemple, nous pouvons toujours voir que +32********* est un numéro de téléphone belge.</li>



<li>Suppression</li>



<li><a href="https://fr.wikipedia.org/wiki/Fonction_de_hachage_cryptographique">Hashage</a> (mieux encore avec <a href="https://fr.wikipedia.org/wiki/Salage_(cryptographie)">salage</a> en prévention des attaques par force brute)</li>



<li>Chiffrement, éventuellement <a href="https://en.wikipedia.org/wiki/Format-preserving_encryption">préservant le format des données</a></li>



<li>&#8230;</li>
</ul>



<figure class="wp-block-gallery has-nested-images columns-default is-cropped wp-block-gallery-1 is-layout-flex wp-block-gallery-is-layout-flex">
<figure class="wp-block-image size-large"><a href="/wp-content/uploads/2024/10/2024-10-28_21h50_28.png"><img decoding="async" width="1024" height="536" data-id="21266" src="/wp-content/uploads/2024/10/2024-10-28_21h50_28-1024x536.png" alt="" class="wp-image-21266" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28-1024x536.png 1024w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28-300x157.png 300w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28-768x402.png 768w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28.png 1052w" sizes="(max-width: 1024px) 100vw, 1024px" /></a></figure>



<figure class="wp-block-image size-large"><a href="/wp-content/uploads/2024/10/2024-10-28_21h51_34.png"><img decoding="async" width="722" height="410" data-id="21264" src="/wp-content/uploads/2024/10/2024-10-28_21h51_34.png" alt="" class="wp-image-21264" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h51_34.png 722w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h51_34-300x170.png 300w" sizes="(max-width: 722px) 100vw, 722px" /></a></figure>



<figure class="wp-block-image size-large"><a href="/wp-content/uploads/2024/10/2024-10-28_21h52_02.png"><img loading="lazy" decoding="async" width="736" height="374" data-id="21265" src="/wp-content/uploads/2024/10/2024-10-28_21h52_02.png" alt="" class="wp-image-21265" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h52_02.png 736w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h52_02-300x152.png 300w" sizes="auto, (max-width: 736px) 100vw, 736px" /></a></figure>
<figcaption class="blocks-gallery-caption wp-element-caption">Texte en néerlandais (à gauche) anonymisé par masquage (au centre) ou par substitution (à droite) à l&#8217;aide de <a href="https://language-tools.ec.europa.eu/NLPServices/NLP">l&#8217;outil UE NLP Service</a>. Notons que le texte anonymisé contient toujours des éléments de carrière uniques à partir desquels il est possible de déduire l&#8217;identité cachée. Texte source : <a href="https://pers.kortrijk.be/228363-kortrijk-rouwt-om-overlijden-martine-tanghe">Ville de Courtrai, communiqué de presse 23/07/2023</a></figcaption></figure>



<p>D&#8217;autres fonctions sont possibles pour les images, notamment&nbsp;:</p>



<ul class="wp-block-list">
<li>Flouter (blurring) ou d&#8217;autres filtres. Il convient de noter ici que certains filtres sont <a href="https://github.com/Y-Vladimir/SmartDeblur?tab=readme-ov-file">réversibles</a>.</li>



<li>Couvrir ou écraser, par exemple avec un rectangle noir.</li>



<li>&#8230;</li>
</ul>



<p>Le remplacement par une valeur alternative du même type peut toutefois créer des effets étranges, parce que l&#8217;entité n&#8217;est pas toujours estimée correctement ou parce que trop peu ou pas de contexte peut être pris en compte. Certains outils peuvent ainsi ne pas tenir compte du genre si un nom aléatoire doit être choisi pour remplacer un nom réel, alors qu&#8217;il peut être nécessaire de rester cohérent sur le plan grammatical ou sur celui du contenu. Il arrive également que des noms de lieux comme Saint-Nicolas soient anonymisés en Saint-Kevin, par exemple, parce que Nicolas est considéré comme un prénom. Les modèles de langage utilisés pour la NER ne sont donc certainement pas sans faille.</p>



<p>En théorie, il devrait être possible d&#8217;obtenir de meilleurs résultats en activant des LLM modernes comme le GPT-4 avec des requêtes construites de manière intelligente. Des mesures dans ce sens verront probablement le jour sous peu, mais aujourd&#8217;hui, les besoins en puissance de calcul, la consommation d&#8217;énergie et le coût sont encore trop élevés, et le temps de réponse trop lent, pour que l&#8217;on puisse également faire évoluer cette méthode.</p>



<figure class="wp-block-gallery has-nested-images columns-default is-cropped wp-block-gallery-2 is-layout-flex wp-block-gallery-is-layout-flex">
<figure class="wp-block-image size-large"><a href="/wp-content/uploads/2024/10/2024-10-28_21h50_28.png"><img decoding="async" width="1024" height="536" data-id="21266" src="/wp-content/uploads/2024/10/2024-10-28_21h50_28-1024x536.png" alt="" class="wp-image-21266" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28-1024x536.png 1024w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28-300x157.png 300w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28-768x402.png 768w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28.png 1052w" sizes="(max-width: 1024px) 100vw, 1024px" /></a></figure>



<figure class="wp-block-image size-large"><a href="/wp-content/uploads/2024/10/2024-10-28_22h24_02.png"><img loading="lazy" decoding="async" width="793" height="364" data-id="21271" src="/wp-content/uploads/2024/10/2024-10-28_22h24_02.png" alt="" class="wp-image-21271" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_22h24_02.png 793w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_22h24_02-300x138.png 300w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_22h24_02-768x353.png 768w" sizes="auto, (max-width: 793px) 100vw, 793px" /></a></figure>
<figcaption class="blocks-gallery-caption wp-element-caption">Le même texte en néerlandais (à gauche) anonymisé par ChatGPT 4o (à droite). La requête demandait de &#8220;remplacer toutes les PII et les données personnelles, y compris les professions, les employeurs, les villes, les dates et les âges&#8221;. Notez que le texte résultant a également été réécrit. Pour y remédier, il faudrait développer et affiner la requête.</figcaption></figure>



<h2 class="wp-block-heading">Outils courants</h2>



<p>Les personnes qui recherchent des systèmes de filtrage de PII à grande échelle, et qui souhaitent pouvoir analyser des bases de données, des réseaux ou des systèmes de fichiers entiers, se retrouvent avec des outils du domaine de <a href="https://en.wikipedia.org/wiki/Data_loss_prevention_software"><em>Data Loss Prevention</em></a>. Ceux-ci devraient empêcher les PII de quitter l&#8217;entreprise sans les autorisations nécessaires. Vous trouverez une vue d&#8217;ensemble du marché en consultant <a href="https://www.gartner.com/reviews/market/data-loss-prevention">Gartner</a>. Les géants de l&#8217;internet proposent également des solutions à cette fin, telles que <a href="https://aws.amazon.com/fr/macie/">Amazon Macie</a>, <a href="https://cloud.google.com/security/products/sensitive-data-protection">Google SDP</a>, ou <a href="https://www.ibm.com/guardium">IBM Guardium</a>. Les techniques utilisées dans ces outils sont quelque peu liées à celles utilisées dans les enquêtes judiciaires &#8211; ce que l&#8217;on appelle l&#8217;eDiscovery, que nous avons <a href="/e-discovery/">déjà évoquée</a>.</p>



<p>Les créateurs d&#8217;applications sont plus susceptibles d&#8217;être intéressés par des outils sous forme de bibliothèques, de SDK ou d&#8217;API. Les projets intéressants sont les suivants&nbsp;:</p>



<ul class="wp-block-list">
<li>Pour le texte&nbsp;:
<ul class="wp-block-list">
<li><a href="https://microsoft.github.io/presidio/">Microsoft Presidio</a> (<a href="https://huggingface.co/spaces/presidio/presidio_demo">démo</a>) (également disponible sous la forme de <a href="https://microsoft.github.io/presidio/samples/docker/">Docker containers</a>), ou le service <a href="https://learn.microsoft.com/en-us/azure/ai-services/language-service/personally-identifiable-information/quickstart?tabs=windows&amp;pivots=rest-api">PII detection</a> sur Azure</li>



<li><a href="https://docs.aws.amazon.com/comprehend/latest/dg/what-is.html">Amazon Comprehend</a> (<a href="https://ai-service-demos.go-aws.com/comprehend">démo</a>)</li>



<li>Les <a href="https://language-tools.ec.europa.eu/NLPServices">EU Language Services pour NLP</a> (login requis)&nbsp;: pour l&#8217;anonymisation des documents dans les langues de l&#8217;UE, basé sur le <a href="https://gitlab.com/MAPA-EU-Project/mapa_project">projet MAPA-EU</a>, qui peut également être utilisé via Docker Compose.</li>



<li><a href="https://github.com/tokern/piicatcher">PIICatcher</a> (pour les bases de données et les systèmes de fichiers)</li>
</ul>
</li>



<li>Pour les images&nbsp;:
<ul class="wp-block-list">
<li><a href="https://google.github.io/magritte/">Google Magritte</a>&nbsp;(pour les visages)</li>



<li><a href="https://github.com/facebookresearch/EgoBlur">Meta Research EgoBlur</a>&nbsp;(Pour les visages et les plaques d&#8217;immatriculation)</li>



<li><a href="https://github.com/redhuntlabs/Octopii">OctoPII</a> (Uniquement la détection, pas la modification. Pour les documents et les systèmes de fichiers, avec <a href="https://github.com/tesseract-ocr/tesseract">Tesseract</a> pour OCR engine)</li>
</ul>
</li>
</ul>



<figure class="wp-block-image aligncenter size-large"><a href="/wp-content/uploads/2024/10/2024-10-28_21h36_03.png"><img loading="lazy" decoding="async" width="1024" height="401" src="/wp-content/uploads/2024/10/2024-10-28_21h36_03-1024x401.png" alt="Gezichts-anonymisering met Meta EgoBlur. " class="wp-image-21260" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h36_03-1024x401.png 1024w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h36_03-300x117.png 300w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h36_03-768x300.png 768w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h36_03.png 1268w" sizes="auto, (max-width: 1024px) 100vw, 1024px" /></a><figcaption class="wp-element-caption">Anonymisation faciale avec Meta EgoBlur. Source&nbsp;: Nikhil Raina et.al.,&nbsp;<a href="https://arxiv.org/abs/2308.13093">“EgoBlur: Responsible Innovation in Aria”</a>, avec des illustrations du&nbsp;<a href="https://ai.meta.com/datasets/casual-conversations-v2-dataset/">CCV2 dataset</a> public.</figcaption></figure>



<p>De nouvelles recherches sont également en cours dans les universités. Par exemple, <a href="https://github.com/EdyVision/pii-codex">PII-Codex</a> est le résultat d&#8217;un <a href="https://joss.theoj.org/papers/10.21105/joss.05402">projet universitaire</a> qui présente une caractéristique intéressante : il utilise Presidio ou Comprehend, mais ajoute également son propre score de risque, qui devrait être en mesure d&#8217;indiquer dans quelle mesure la non modification des PII reconnues pourrait poser un risque (pour la protection de la vie privée). En outre, la plupart des outils permettent d&#8217;utiliser <a href="https://microsoft.github.io/presidio/analyzer/customizing_nlp_models/">vos propres modèles ou ceux des autres</a>. Vous pouvez éventuellement les <a href="https://huggingface.co/docs/transformers/training">peaufiner</a> vous-même pour la détection personnalisée d&#8217;entités, si vous disposez des données d&#8217;entraînement nécessaires à cet effet.</p>



<p>Si nous nous appuyons sur la NER ou la reconnaissance d&#8217;images pour la détection des PII, il est certain que certaines PII ne seront pas détectées et qu&#8217;à l&#8217;inverse, des éléments non PII pourraient également être classés à tort comme des PII. En effet, aucune de ces technologies ne garantit une précision de 100 %. Le taux de réussite variera également en fonction de la langue et du type d&#8217;entité que l&#8217;on tente de détecter. Il n&#8217;est jamais possible de garantir complètement le remplacement ou la suppression de chaque entité dans un document. Il est donc préférable de vérifier le résultat dans les cas où cela s&#8217;avère crucial.</p>



<h2 class="wp-block-heading">Conclusion</h2>



<p>Les solutions de filtrage de PII peuvent certainement contribuer à la protection de données à caractère personnel dans un contexte européen. Les techniques sont simples à comprendre et faciles à mettre en œuvre. Cependant, il n&#8217;y a jamais de garantie de détection totalement précise de toutes les données à caractère personnel et, dans la plupart des cas, leur utilisation devra donc faire partie d&#8217;un éventail plus large de mesures visant à promouvoir la conformité avec la RGPD et d&#8217;autres législations.</p>



<p>La technologie sous-jacente est &#8220;classique&#8221;, en ce sens que la NER et la reconnaissance d&#8217;images existent depuis longtemps et sont désormais bien développées. Aujourd&#8217;hui, elles bénéficient de l&#8217;attention portée à l&#8217;intelligence artificielle, et <a href="https://paperswithcode.com/task/named-entity-recognition-ner">toutes sortes d&#8217;étalons</a> leur permettent de rester à la pointe du progrès. Dans la pratique, nous constatons que le texte anonymisé qui en résulte peut parfois sembler un peu aliénant, car certains problèmes tout aussi classiques auxquels la NER est généralement confrontée ne sont pas encore totalement écartés.</p>



<p>______________________</p>



<p><em><em><em>Cette contribution a été soumise par Joachim Ganseman, consultant IT chez Smals Research. Elle a été rédigée en son nom propre et ne prend pas position au nom de Smals.</em></em></em></p>


]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>PII Filtering &#8211; door ******* uit *****</title>
		<link>https://www.smalsresearch.be/pii-filtering/</link>
					<comments>https://www.smalsresearch.be/pii-filtering/#comments</comments>
		
		<dc:creator><![CDATA[Joachim Ganseman]]></dc:creator>
		<pubDate>Mon, 28 Oct 2024 15:37:54 +0000</pubDate>
				<category><![CDATA[[NL]]]></category>
		<category><![CDATA[Blog post]]></category>
		<category><![CDATA[Artificial intelligence]]></category>
		<category><![CDATA[audit]]></category>
		<category><![CDATA[chatbot]]></category>
		<category><![CDATA[cloud computing]]></category>
		<category><![CDATA[gdpr]]></category>
		<category><![CDATA[Privacy]]></category>
		<category><![CDATA[Security]]></category>
		<guid isPermaLink="false">/?p=21217</guid>

					<description><![CDATA[Hoe beschermen we persoonsgegevens die nietsvermoedend via chat worden meegedeeld? PII filtering kan gedeeltelijk helpen, maar is geen mirakeloplossing.]]></description>
										<content:encoded><![CDATA[
<p><em>Cet article est aussi disponible <a href="/pii-filtering-fr">en français</a>.</em></p>



<p>De populariteit van AI-toepassingen met chat-interface, doet een &#8220;oud zeer&#8221; opnieuw bovendrijven: hoe beschermen we persoonsgegevens die, vaak nietsvermoedend, via chat worden meegedeeld aan een geautomatiseerd systeem? Bij uitbreiding stelt zich deze vraag voor elke toepassing waar persoonsgebonden gegevens gedeeld moeten worden met derde partijen. De externe afhankelijkheden van een toepassing kunnen echter een ingewikkeld kluwen zijn. Het is ook niet altijd mogelijk (of economisch haalbaar) om de grote spelers op het vlak van cloud- en AI-diensten te ontwijken &#8211; toch niet als je mee wil zijn met de nieuwste mogelijkheden op een kostenefficiënte manier.</p>



<p>Een mogelijke oplossing staat bekend als <em>PII Filtering</em>. PII is daarbij het Engels acroniem voor <em>Personal(ly) Identifiable/Identifying Information</em>, i.e. de informatie waarmee iemand geïdentificeerd kan worden. Het idee is eenvoudig genoeg: we plaatsen een extra filter voor de applicatie, die de persoonlijke gegevens uit de input filtert, voordat die input aan de applicatie wordt doorgegeven. Als dat goed lukt, dan maakt het in principe niet meer uit wat de applicatie achter de schermen met die gegevens doet.</p>



<h2 class="wp-block-heading">PII vs. Personal Data</h2>



<p>Het is allereerst cruciaal om te begrijpen dat &#8220;PII&#8221; niet gelijkgesteld kan worden aan &#8220;Personal Data&#8221; zoals de GDPR en andere Europese wetgeving die definieert. PII is een concept dat geworteld is in Amerikaanse wetgeving. Het doelt meestal op een eindige set identificatiegegevens die kunnen worden gebruikt om de identiteit van een individu te onderscheiden of te achterhalen, zoals rijksregisternummers, adressen en telefoonnummers. Amerikaanse regelgeving is op dat vlak vaak prescriptief van aard: zo bevat de <a href="https://en.wikipedia.org/wiki/Health_Insurance_Portability_and_Accountability_Act">HIPAA</a> (privacywetgeving m.b.t. gezondheidsgegevens) een <a href="https://www.luc.edu/its/aboutus/itspoliciesguidelines/hipaainformation/the18hipaaidentifiers/">lijst met 18 identifiers</a> die als PII worden gedefinieerd. Dat heeft als groot voordeel dat het relatief gemakkelijk te implementeren is: wanneer het lijstje helemaal afgevinkt kan worden, is er ook juridisch weinig discussie meer.</p>



<p>Daarentegen hanteert de Europese <a href="https://eur-lex.europa.eu/eli/reg/2016/679/oj">GDPR (AVG)</a> een principiële benadering: ze definieert een breder concept van <a href="https://gdpr-info.eu/art-4-gdpr/">Personal Data</a> (persoonsgegevens). Dat omvat &#8220;alle informatie met betrekking tot een geïdentificeerde of identificeerbare natuurlijke persoon&#8221;. Dit betekent dat zelfs schijnbaar onschuldige informatie, zoals de kleur &#8220;rood&#8221;, beschouwd kan worden als persoonsgegeven, als deze bijvoorbeeld betrekking heeft tot iemands lievelingskleur. Deze contextafhankelijke definitie van persoonsgegevens, maakt het echter ook nagenoeg onmogelijk om generieke, algemeen inzetbare detectoren of filters ervoor te ontwikkelen. Wat beschouwd wordt als persoonsgegeven of niet, moet geval per geval beoordeeld worden. Niet alleen ontwikkelaars worden daardoor geconfronteerd met meer maatwerk dan hen lief is, ook juristen, DPO&#8217;s en <a href="https://www.gegevensbeschermingsautoriteit.be/">Gegevensbeschermingsautoriteiten</a> hebben met zulke beoordelingen in elk EU-land de handen vol.</p>



<p>Oplossingen voor PII-filtering die voldoen voor gebruik in de VS, lopen dus altijd een risico om in de EU slechts gedeeltelijk tegemoet te komen aan de vereisten. Omdat de term <em>PII </em>echter algemeen ingang gevonden lijkt te hebben in de globale markt, spreken we verder in dit artikel enkel nog over PII. Houd wel permanent in het achterhoofd dat <em>Personal Data</em> altijd het uitgangspunt moet zijn in EU-context.</p>



<h2 class="wp-block-heading">PII Detectie en Filtering</h2>



<p>Om tekstuele input te filteren gebruiken we doorgaans <a href="https://en.wikipedia.org/wiki/Pattern_recognition">patroonherkenningstechnieken</a> en <a href="https://en.wikipedia.org/wiki/Natural_language_processing">Natural Language Processing (NLP)</a>-modellen. Deze modellen scannen ongestructureerde gegevens, op zoek naar patronen zoals e-mailformaten of numerieke reeksen die lijken op rijksregister- of telefoonnummers, om deze nadien te kunnen redigeren of anonimiseren. Daarnaast worden aangepaste <a href="https://en.wikipedia.org/wiki/Regular_expression">regex-patronen</a> vaak toegevoegd om vormen van gevoelige informatie te herkennen die specifiek zijn voor de betrokken toepassing.</p>



<figure class="wp-block-image aligncenter size-full"><a href="/wp-content/uploads/2024/10/image.png"><img loading="lazy" decoding="async" width="523" height="217" src="/wp-content/uploads/2024/10/image.png" alt="Een voorbeeld van PII Filtering met NER in het Nederlands. Bron: pii-filter library (c) &quot;HabaneroCake&quot;, MIT license" class="wp-image-21255" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/image.png 523w, https://www.smalsresearch.be/wp-content/uploads/2024/10/image-300x124.png 300w" sizes="auto, (max-width: 523px) 100vw, 523px" /></a><figcaption class="wp-element-caption">PII Filtering op basis van NER in het Nederlands. Bron: <a href="https://github.com/HabaneroCake/pii-filter/">pii-filter library</a> (c) &#8220;HabaneroCake&#8221;, MIT license</figcaption></figure>



<p>Effectieve PII-filtering steunt sterk op <a href="https://en.wikipedia.org/wiki/Named-entity_recognition">Named Entity Recognition (NER)</a>, een NLP-methode die entiteiten zoals namen, data en locaties in een tekst identificeert. We publiceerden daar eerder al over in meer detail &#8211; zie deze artikels over <a href="/facetten-van-natural-language-processing-deel-2/">NLP</a> en <a href="https://itdaily.be/blogs/software/named-entity-recognition-een-praktische-toepassing-van-natural-language-processing/">NER</a>. De opkomst van generatieve AI heeft aan de opzet van NER-technieken nog niet veel veranderd. Ook vandaag gebruiken veel PII filtering tools achterliggend goed ontwikkelde NLP-toolkits zoals <a href="https://www.nltk.org/">NLTK</a>, <a href="https://spacy.io/">SpaCy</a> of <a href="https://flairnlp.github.io/">Flair</a>.</p>



<p>PII kan echter ook in afbeeldingen opduiken: scans van documenten, foto&#8217;s van gezichten of nummerplaten, &#8230; Om dat weg te filteren is een geavanceerdere aanpak vereist, omdat de gevoelige gegevens kunnen verschijnen in uiteenlopende vormen, van handgeschreven notities tot reflecties in foto&#8217;s. <a href="https://en.wikipedia.org/wiki/Optical_character_recognition">Optical Character Recognition (OCR)</a> wordt gebruikt om tekst uit afbeeldingen te extraheren en deze om te zetten in een formaat dat op dezelfde manier kan worden geanalyseerd als tekstuele gegevens. Zodra de tekst is geëxtraheerd, ondergaat deze hetzelfde PII-filterproces met behulp van NLP-technieken. In gevallen waarin de afbeelding zelf gevoelige visuele elementen bevat (zoals gezichten of persoonlijke documenten), worden algoritmen voor <a href="https://en.wikipedia.org/wiki/Object_detection">beeldherkenning</a> gebruikt om dergelijke inhoud te herkennen.</p>



<p>Eenmaal geïdentificeerd, moet je besluiten wat er dient te gebeuren met de gedetecteerde PII. Opties kunnen zijn:</p>



<ul class="wp-block-list">
<li>Vervanging / substitutie door een andere waarde. Deze kan eventueel aangemaakt worden met een <a href="https://faker.readthedocs.io/en/master/">synthetic data tool</a>, zodat het origineel vervangen wordt door een realistisch ogend alternatief.</li>



<li>Masking / obfuscation: vervang door een karakter of balkje. Dit kan eventueel gedeeltelijk, om nuttige algemenere info niet te verliezen: zo zien we nog dat +32********* een Belgisch telefoonnummer is.</li>



<li>Verwijdering</li>



<li><a href="https://en.wikipedia.org/wiki/Cryptographic_hash_function">Hashing</a> (best met <a href="https://en.wikipedia.org/wiki/Salt_(cryptography)">salt</a> ter preventie van brute-force attacks)</li>



<li>Encryptie, eventueel <a href="https://en.wikipedia.org/wiki/Format-preserving_encryption">formaat-behoudend</a></li>



<li>&#8230;</li>
</ul>



<figure class="wp-block-gallery has-nested-images columns-default is-cropped wp-block-gallery-3 is-layout-flex wp-block-gallery-is-layout-flex">
<figure class="wp-block-image size-large"><a href="/wp-content/uploads/2024/10/2024-10-28_21h50_28.png"><img loading="lazy" decoding="async" width="1024" height="536" data-id="21266" src="/wp-content/uploads/2024/10/2024-10-28_21h50_28-1024x536.png" alt="" class="wp-image-21266" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28-1024x536.png 1024w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28-300x157.png 300w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28-768x402.png 768w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28.png 1052w" sizes="auto, (max-width: 1024px) 100vw, 1024px" /></a></figure>



<figure class="wp-block-image size-large"><a href="/wp-content/uploads/2024/10/2024-10-28_21h51_34.png"><img loading="lazy" decoding="async" width="722" height="410" data-id="21264" src="/wp-content/uploads/2024/10/2024-10-28_21h51_34.png" alt="" class="wp-image-21264" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h51_34.png 722w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h51_34-300x170.png 300w" sizes="auto, (max-width: 722px) 100vw, 722px" /></a></figure>



<figure class="wp-block-image size-large"><a href="/wp-content/uploads/2024/10/2024-10-28_21h52_02.png"><img loading="lazy" decoding="async" width="736" height="374" data-id="21265" src="/wp-content/uploads/2024/10/2024-10-28_21h52_02.png" alt="" class="wp-image-21265" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h52_02.png 736w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h52_02-300x152.png 300w" sizes="auto, (max-width: 736px) 100vw, 736px" /></a></figure>
<figcaption class="blocks-gallery-caption wp-element-caption">Nederlandstalige tekst (links) geanonymiseerd door maskeren (midden) of substitutie (rechts) met behulp van de <a href="https://language-tools.ec.europa.eu/NLPServices/NLP">EU NLP Service</a>. Merk op dat de geanonymiseerde tekst nog steeds unieke carrière-elementen vermeldt waaruit men de verborgen identiteit kan afleiden. Bron tekst: <a href="https://pers.kortrijk.be/228363-kortrijk-rouwt-om-overlijden-martine-tanghe">Stad Kortrijk, persbericht 23/07/2023</a> </figcaption></figure>



<p>Voor afbeeldingen zijn andere functies mogelijk, waaronder:</p>



<ul class="wp-block-list">
<li>Vervagen (blurring) of andere filters. Hierbij moet men er wel op letten dat sommige filters <a href="https://github.com/Y-Vladimir/SmartDeblur?tab=readme-ov-file">omkeerbaar</a> zijn.</li>



<li>Bedekken of overschrijven, bijvoorbeeld met een zwarte rechthoek.</li>



<li>&#8230;</li>
</ul>



<p>De vervanging door een alternatieve waarde van dezelfde soort kan echter soms ook voor vreemde effecten zorgen, omdat de entiteit niet altijd correct wordt ingeschat of omdat er te weinig of geen rekening gehouden kan worden met de context. Zo kan het zijn dat sommige tools geen acht slaan op het geslacht als een willekeurige naam moet worden gekozen om een echte naam te vervangen, terwijl dat wel nodig kan zijn om grammaticaal of inhoudelijk consistent te blijven. We zien soms ook plaatsnamen zoals Sint-Niklaas geanonymiseerd worden als pakweg Sint-Kevin, omdat Niklaas als naam werd aanzien. De taalmodellen gebruikt voor NER zijn dus zeker niet feilloos.</p>



<p>Het zou in theorie mogelijk moeten zijn om betere resultaten te halen door recente LLMs zoals GPT-4 in te schakelen met slim geconstrueerde prompts. Waarschijnlijk zullen er binnenkort wel stappen in die richting worden gezet, maar vandaag zijn de rekenkrachtvereisten, energieconsumptie en kostprijs daarvan nog te hoog, en de responstijd te traag, om dat ook schaalbaar te maken.</p>



<figure class="wp-block-gallery has-nested-images columns-default is-cropped wp-block-gallery-4 is-layout-flex wp-block-gallery-is-layout-flex">
<figure class="wp-block-image size-large"><a href="/wp-content/uploads/2024/10/2024-10-28_21h50_28.png"><img loading="lazy" decoding="async" width="1024" height="536" data-id="21266" src="/wp-content/uploads/2024/10/2024-10-28_21h50_28-1024x536.png" alt="" class="wp-image-21266" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28-1024x536.png 1024w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28-300x157.png 300w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28-768x402.png 768w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h50_28.png 1052w" sizes="auto, (max-width: 1024px) 100vw, 1024px" /></a></figure>



<figure class="wp-block-image size-large"><a href="/wp-content/uploads/2024/10/2024-10-28_22h24_02.png"><img loading="lazy" decoding="async" width="793" height="364" data-id="21271" src="/wp-content/uploads/2024/10/2024-10-28_22h24_02.png" alt="" class="wp-image-21271" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_22h24_02.png 793w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_22h24_02-300x138.png 300w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_22h24_02-768x353.png 768w" sizes="auto, (max-width: 793px) 100vw, 793px" /></a></figure>
<figcaption class="blocks-gallery-caption wp-element-caption">Dezelfde Nederlandstalige tekst (links) geanonymiseerd door ChatGPT 4o (rechts). In de prompt werd gevraagd &#8220;vervang alle PII en persoonsgegevens, ook de beroepen, werkgevers, steden, datums en leeftijden.&#8221; Merk op dat de resulterende tekst ook herschreven werd. Om dat tegen te gaan zou verdere uitbreiding en verfijning van de prompt nodig zijn.</figcaption></figure>



<h2 class="wp-block-heading">Tools of the trade</h2>



<p>Wie op zoek gaat naar grootschalige PII Filtering systemen, en volledige databases, netwerken of filesystems wil kunnen scannen, komt terecht bij <a href="https://en.wikipedia.org/wiki/Data_loss_prevention_software">Data Loss Prevention</a> tools. Deze moeten verhinderen dat PII het bedrijf verlaat zonder de nodige toelatingen. Voor een marktoverzicht verwijzen we naar <a href="https://www.gartner.com/reviews/market/data-loss-prevention">Gartner</a>. Ook de internetgiganten bieden daarvoor oplossingen aan, zoals <a href="https://aws.amazon.com/macie/">Amazon Macie</a>, <a href="https://cloud.google.com/security/products/sensitive-data-protection">Google SDP</a>, of <a href="https://www.ibm.com/guardium">IBM Guardium</a>. De daarbij gebruikte technieken zijn enigszins verwant met diegene gebruikt bij forensisch onderzoek &#8211; de zogenaamde eDiscovery, waarover we ook al <a href="/e-discovery/">eerder schreven</a>.</p>



<p>Applicatiebouwers zijn waarschijnlijk eerder geïnteresseerd in tools in de vorm van bibliotheken, SDK&#8217;s of API&#8217;s. Interessante projecten zijn:</p>



<ul class="wp-block-list">
<li>Voor tekst:
<ul class="wp-block-list">
<li><a href="https://microsoft.github.io/presidio/">Microsoft Presidio</a> (<a href="https://huggingface.co/spaces/presidio/presidio_demo">demo</a>) (ook beschikbaar als <a href="https://microsoft.github.io/presidio/samples/docker/">Docker containers</a>), of de <a href="https://learn.microsoft.com/en-us/azure/ai-services/language-service/personally-identifiable-information/quickstart?tabs=windows&amp;pivots=rest-api">PII detection</a> dienst op Azure</li>



<li><a href="https://docs.aws.amazon.com/comprehend/latest/dg/what-is.html">Amazon Comprehend</a> (<a href="https://ai-service-demos.go-aws.com/comprehend">demo</a>)</li>



<li>De <a href="https://language-tools.ec.europa.eu/NLPServices">EU Language Services voor NLP</a> (inloggen vereist): voor anonymisering van documenten in EU-talen, gebaseerd op het <a href="https://gitlab.com/MAPA-EU-Project/mapa_project">MAPA-EU project</a> dat ook via Docker Compose gebruikt kan worden.</li>



<li><a href="https://github.com/tokern/piicatcher">PIICatcher</a> (voor databases en filesystems)</li>
</ul>
</li>



<li>Voor afbeeldingen:
<ul class="wp-block-list">
<li><a href="https://google.github.io/magritte/">Google Magritte</a> (voor gezichten)</li>



<li><a href="https://github.com/facebookresearch/EgoBlur">Meta Research EgoBlur</a> (voor gezichten en nummerplaten)</li>



<li><a href="https://github.com/redhuntlabs/Octopii">OctoPII</a> (enkel detectie en geen redactie. Voor documenten en filesystems, met <a href="https://github.com/tesseract-ocr/tesseract">Tesseract</a> als OCR engine)</li>
</ul>
</li>
</ul>



<figure class="wp-block-image aligncenter size-large"><a href="/wp-content/uploads/2024/10/2024-10-28_21h36_03.png"><img loading="lazy" decoding="async" width="1024" height="401" src="/wp-content/uploads/2024/10/2024-10-28_21h36_03-1024x401.png" alt="Gezichts-anonymisering met Meta EgoBlur. " class="wp-image-21260" srcset="https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h36_03-1024x401.png 1024w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h36_03-300x117.png 300w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h36_03-768x300.png 768w, https://www.smalsresearch.be/wp-content/uploads/2024/10/2024-10-28_21h36_03.png 1268w" sizes="auto, (max-width: 1024px) 100vw, 1024px" /></a><figcaption class="wp-element-caption">Gezichts-anonymisering met Meta EgoBlur. Bron: Nikhil Raina et.al., <a href="https://arxiv.org/abs/2308.13093">&#8220;EgoBlur: Responsible Innovation in Aria&#8221;</a>, met foto&#8217;s uit de publieke <a href="https://ai.meta.com/datasets/casual-conversations-v2-dataset/">CCV2 dataset</a>.</figcaption></figure>



<p>Ook in academia wordt er verder onderzoek gedaan. Zo is <a href="https://github.com/EdyVision/pii-codex">PII-Codex</a> het resultaat van een <a href="https://joss.theoj.org/papers/10.21105/joss.05402">universitair project</a>, met een interessante feature: achterliggend maakt het gebruik van Presidio of Comprehend, maar het voegt ook een eigen risico-score toe, die moet kunnen aangeven in welke mate het niet-redigeren van de herkende PII een (privacy-)risico zou kunnen inhouden. Daarnaast laten de meeste tools ook toe om <a href="https://microsoft.github.io/presidio/analyzer/customizing_nlp_models/">andere of eigen modellen</a> in te pluggen. Deze kan je eventueel zelf <a href="https://huggingface.co/docs/transformers/training">gefinetuned</a> hebben voor detectie van custom entiteiten, als je daarvoor de nodige trainingsdata hebt.</p>



<p>Als we vertrouwen op NER of beeldherkenning voor PII-detectie, dan kunnen we er zeker van zijn dat sommige PII niet gedetecteerd zal worden, en dat ook andersom niet-PII foutief als PII aangemerkt kan worden. Geen van deze technologieën garandeert immers 100% accuraatheid. Het succespercentage zal ook variëren afhankelijk van de taal en het entiteitstype dat men probeert te detecteren. Volledige vervanging of verwijdering van elke entiteit in een document kan nooit worden gegarandeerd. Daar waar dat cruciaal is, wordt het resultaat achteraf dus best nog gecontroleerd.</p>



<h2 class="wp-block-heading">Conclusie</h2>



<p>Oplossingen voor PII-filtering kunnen in Europese context zeker bijdragen aan de bescherming van persoonsgegevens. De techniek is eenvoudig te begrijpen en gemakkelijk inzetbaar. Er is echter nooit een garantie op volledige accurate detectie van alle persoonsgegevens, en dus zal hun gebruik in de meeste gevallen een onderdeel moeten zijn van een ruimere waaier aan maatregelen om <em>compliance </em>met GDPR en andere wetgeving te bevorderen.</p>



<p>De achterliggende technologie is &#8220;klassiek&#8221;, in de zin dat NER en beeldherkenning al lang bestaan en ondertussen goed ontwikkeld zijn. Vandaag profiteren ze mee van de aandacht voor artificiële intelligentie, en <a href="https://paperswithcode.com/task/named-entity-recognition-ner">allerlei benchmarks</a> laten toe om de state-of-the-art op te volgen. In de praktijk merken we wel dat de resulterende geanonymiseerde tekst soms wat bevreemdend kan overkomen, omdat enkele al even klassieke problemen waar NER typisch mee kampt, nog altijd niet helemaal van de baan zijn.</p>



<p>______________________</p>



<p><em>Dit is een ingezonden bijdrage van Joachim Ganseman, IT consultant bij Smals Research. &nbsp;Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.</em></p>


]]></content:encoded>
					
					<wfw:commentRss>https://www.smalsresearch.be/pii-filtering/feed/</wfw:commentRss>
			<slash:comments>1</slash:comments>
		
		
			</item>
		<item>
		<title>Protection des données par la pseudonymisation préservant la structure des numéros de registre national</title>
		<link>https://www.smalsresearch.be/protection-des-donnees-par-la-pseudonymisation-preservant-la-structure-des-numeros-de-registre-national/</link>
		
		<dc:creator><![CDATA[Kristof Verslype]]></dc:creator>
		<pubDate>Wed, 07 Jun 2023 11:50:56 +0000</pubDate>
				<category><![CDATA[[FR]]]></category>
		<category><![CDATA[Blog post]]></category>
		<category><![CDATA[cryptography]]></category>
		<category><![CDATA[gdpr]]></category>
		<category><![CDATA[pseudonymisation]]></category>
		<category><![CDATA[Security]]></category>
		<guid isPermaLink="false">/?p=18673</guid>

					<description><![CDATA[De plus en plus de données personnelles sensibles sont stockées sous forme numérique,tandis que les cyberattaques deviennent de plus en plus avancées. Aussi l'amélioration de la protection des données à caractère personnel fait-elle l'objet d'une attention de tous les instants.]]></description>
										<content:encoded><![CDATA[


<p><em><a href="/gegevensbescherming-m-b-v-structuurbehoudende-pseudonimisatie-van-rijksregisternummers/">Nederlandstalige versie</a></em></p>
<p>De plus en plus de données personnelles sensibles sont stockées sous forme numérique,<br />tandis que les cyberattaques deviennent de plus en plus avancées. Aussi l&#8217;amélioration de<br />la protection des données à caractère personnel fait-elle l&#8217;objet d&#8217;une attention de tous les<br />instants.</p>
<p>Une mesure complémentaire précieuse consiste à stocker les données à caractère<br />personnel non pas sous un numéro de registre national, mais sous un pseudonyme.<br />Pour les applications existantes qui ne procèdent pas encore de la sorte, dans les<br />environnements production comme dans les environnements de test et de développement,<br />il peut être utile, voire nécessaire, que ces pseudonymes aient la même structure que les<br />numéros de registre national. Ceci de manière à ce qu&#8217;ils puissent être traités par<br />l&#8217;application et la base de données existantes.</p>
<p>D&#8217;où la nécessité d&#8217;une technique permettant de convertir les numéros de registre national<br />en pseudonymes avec la même structure et vice versa. Si le chiffrement classique ne le<br />permet pas, il en va autrement avec la tokenisation des données (data tokenization en<br />anglais) ou le chiffrement préservant le format (format-preserving encryption en anglais).</p>
<p>La tokenisation des données dans sa forme la plus simple, implique de tenir un tableau<br />contenant des paires de la forme (numéro de registre national, pseudonyme), ce qui pose<br />des problèmes infrastructurels, notamment en matière de sauvegarde, de synchronisation<br />et de sécurisation du tableau.</p>
<p>Plutôt que de tenir un tableau sans cesse croissant, comportant potentiellement des<br />millions d&#8217;enregistrements, une solution plus simple et plus sûre consisterait en une clé<br />symétrique unique et immuable d&#8217;une longueur de 32 bytes (au maximum).<br />C&#8217;est exactement ce que fait le chiffrement préservant le format (FPE). Cette technique a<br />été présentée pour la première fois en 2001 et a été normalisée par le NIST. À la suite de la<br />découverte de faiblesses, les normes ont été révisées en 2019.</p>
<p><a href="/wp-content/uploads/2023/05/FPE_fig_01.png"><img loading="lazy" decoding="async" class="alignnone size-full wp-image-18538" src="/wp-content/uploads/2023/05/FPE_fig_01.png" alt="" width="975" height="300" srcset="https://www.smalsresearch.be/wp-content/uploads/2023/05/FPE_fig_01.png 975w, https://www.smalsresearch.be/wp-content/uploads/2023/05/FPE_fig_01-300x92.png 300w, https://www.smalsresearch.be/wp-content/uploads/2023/05/FPE_fig_01-768x236.png 768w" sizes="auto, (max-width: 975px) 100vw, 975px" /></a></p>
<p>Les normes FPE sont principalement axées sur le secteur financier où, par exemple, les<br />numéros de cartes de crédit sont remplacés par des pseudonymes ayant la même<br />structure. L&#8217;équipe Smals Research s&#8217;est demandé si cette technique pouvait également<br />être appliquée aux numéros de registre national. Cet article présente notre analyse et nos<br />expériences.</p>



<h1>Fonctionnement</h1>
<p>Par essence, le FPE consiste en une permutation, soit une réorganisation, comme l&#8217;illustre<br>la figure ci-dessous où les chiffres 1 à 5 sont réorganisés. La permutation est déterminée<br>par la clé FPE et le tweak. La clé est secrète, le tweak est un nombre à choisir librement<br>(byte array) qui peut être connu du public et qui simplifie la gestion des clés <a href="#_ftn1" name="_ftnref1">[1]</a>. Comment<br>convertir sur cette base les numéros de registre national en pseudonymes ayant la<br>structure d&#8217;un numéro de registre national&nbsp;?</p>
<p><a href="/wp-content/uploads/2023/05/FPE_fig_02.png"><img loading="lazy" decoding="async" class="size-full wp-image-18543 aligncenter" src="/wp-content/uploads/2023/05/FPE_fig_02.png" alt="" width="185" height="123"></a></p>
<p>La chaîne 83.06.21-123-62 revêt la structure d&#8217;un numéro de registre national, c&#8217;est-à-dire<br>qu&#8217;elle se présente sous la forme YY.MM.DD-III-CC, où YY.MM.DD représente la date de<br>naissance, III est un compteur de jours dans lequel est également encodé le sexe, et<br>CC est un chiffre de contrôle, calculé sur la base de tous les éléments précédents et du<br>siècle de naissance. Votre auteur n&#8217;est (hélas/heureusement) pas en mesure de vérifier si<br>le numéro 83.06.21-123-62 a réellement été attribué à un citoyen et sait donc uniquement<br>qu&#8217;il s&#8217;agit d&#8217;une chaîne revêtant la structure d&#8217;un numéro de registre national.</p>
<p>À partir d&#8217;une date de départ à choisir librement &#8211; par exemple 01/01/1911 &#8211; nous attribuons<br>à chaque chaîne correctement formée un index unique, qui commence par 0 et augmente ensuite, comme le montre la figure ci-dessous. Nous pouvons nous arrêter, par exemple,<br>au 31/12/2022. Dans ce cas, nous avons la certitude que les numéros<br>de registre national de toutes les personnes inscrites au <a href="https://www.ibz.rrn.fgov.be/fr/registre-national/">Registre National</a> qui étaient en vie<br>à la fin de l&#8217;année 2022 ont une conversion de et vers un nombre. En effet, personne dans<br>ce pays n&#8217;a plus de 112 ans.</p>
<p><a href="/wp-content/uploads/2023/05/FPE_fig_03.png"><img loading="lazy" decoding="async" class="size-full wp-image-18544 aligncenter" src="/wp-content/uploads/2023/05/FPE_fig_03.png" alt="" width="271" height="222"></a></p>
<p>La conversion d&#8217;un numéro de registre national en un pseudonyme préservant la structure<br>est illustrée dans la figure ci-dessous. Le numéro de registre national est d&#8217;abord converti<br>en un nombre, comme indiqué précédemment. Ce nombre est permuté (= chiffré) par FPE<br>en un autre nombre qui est ensuite reconverti en la chaîne préservant la structure<br>correspondante. Cette chaîne est le pseudonyme final.</p>
<p><a href="/wp-content/uploads/2023/05/FPE_fig_04.png"><img loading="lazy" decoding="async" class="size-full wp-image-18545 aligncenter" src="/wp-content/uploads/2023/05/FPE_fig_04.png" alt="" width="597" height="432" srcset="https://www.smalsresearch.be/wp-content/uploads/2023/05/FPE_fig_04.png 597w, https://www.smalsresearch.be/wp-content/uploads/2023/05/FPE_fig_04-300x217.png 300w" sizes="auto, (max-width: 597px) 100vw, 597px" /></a></p>
<p><a href="#_ftnref1" name="_ftn1">[1]</a> Avec une seule clé secrète et différents tweaks, nous avons donc différentes<br>permutations (chiffrements). Le tweak peut être considéré comme la partie non secrète de<br>la clé.</p>



<h1>Dans la pratique</h1>
<p>Pour utiliser le FPE afin de convertir des numéros de registre national en pseudonymes<br>préservant la structure, nous avons donc besoin à la fois d&#8217;un chiffrement FPE (et d&#8217;un<br>algorithme de déchiffrement) et d&#8217;une méthode de conversion.</p>
<p>Pour le chiffrement FPE, nous avons recouru à la bibliothèque cryptographique bien<br>connue <a href="https://bouncycastle.org/">BouncyCastle</a>, qui prend en charge les deux normes du NIST, FF1 et FF3-1.<br>En coulisses, le FPE utilise toujours un algorithme existant pour le chiffrement par blocs<br>symétriques. Le choix logique était donc AES. Par conséquent, les clés FPE sont<br>simplement des clés AES.</p>
<p>L&#8217;équipe Smals Research a elle-même réalisé la conversion en Java, en tenant compte de<br>toutes les complexités liées aux numéros de registre national (voir, par exemple les arrêtés<br>royaux du <a href="https://www.ejustice.just.fgov.be/cgi_loi/change_lg.pl?language=fr&amp;la=F&amp;cn=1984040333&amp;table_name=loi">3 avril 1984</a> et du <a href="https://etaamb.openjustice.be/fr/arrete-royal-du-25-novembre-1997_n1997000892">25 novembre 1997</a>). En cas d&#8217;intérêt concret, ce code de<br>recherche peut évoluer vers quelque chose qui soit utilisable en production.</p>
<p>Des contraintes cruciales doivent néanmoins être prises en compte lors du choix de la taille<br>du domaine. Le FPE a été présenté pour la première fois en 2001, dans un article intitulé <a href="https://eprint.iacr.org/2001/012.pdf"><em>Ciphers with arbitrary finite domains</em></a>. Comme l&#8217;indique le titre, la taille du domaine peut être choisie arbitrairement. C&#8217;est également ce que nous avons fait dans notre exemple précédent.</p>
<p>Toutefois, les normes du NIST s&#8217;en écartent et stipulent que la taille du domaine doit avoir<br>la forme <em>radix<sup>len</sup></em>, c&#8217;est-à-dire le nombre racine <em>radix</em> élevé à la puissance <em>len</em> où <em>radix</em> et <em>len</em><br>peuvent être choisis librement, tant que <em>radix</em> n&#8217;est pas supérieur à 2<sup>16</sup> = 65 536.<br>Cette approche fonctionne bien pour, par exemple, les numéros de cartes de crédit.<br>Ces numéros sont composés de 16 chiffres décimaux. Nous choisissons donc <em>radix</em> = 10 et<br><em>len</em> = 16. Ainsi, si nous suivons les normes du NIST &#8211; ce que je recommande vivement &#8211;<br>nous ne pouvons plus choisir la taille du domaine arbitrairement.</p>
<p>En outre, la taille minimale du domaine, qui était encore de 100 dans la <a href="https://csrc.nist.gov/news/2016/nist-released-special-publication-800-38g">publication</a> du NIST<br>de 2016, a été portée à 1 000 000, dans la révision de 2019 pour des raisons de sécurité.<br>Autrement dit, il est exigé que <em>radix<sup>len</sup></em> ≥ 1 000 000. Entre autres conséquences de cette<br>exigence, il n&#8217;est plus possible de conserver l&#8217;année de naissance dans le pseudonyme<br>d&#8217;un numéro de registre national. En effet, il n&#8217;y a que quelque 365 000 chaînes<br>correctement formées par an (365 ou 366 jours par an x 998 possibilités pour le compteur<br>de jours III).</p>
<p>Revenons à nos expériences. Comment déterminer le domaine (et donc sa taille)&nbsp;?<br>Dans notre exemple précédent, ce domaine était composé de toutes les chaînes dotées de<br>la structure d&#8217;un numéro de registre national pour les personnes nées entre 1911 et 2022,<br>soit plus de 40,8 millions de chaînes. Il s&#8217;agit bien évidemment d&#8217;utiliser le système pendant<br>plusieurs années, de sorte qu&#8217;il est logique que le domaine soit plus grand. En effet, de<br>nouveaux numéros de registre national sont émis en permanence, et il ne s&#8217;agit pas<br>d&#8217;oublier les anciens.</p>
<p>Pour nos tests, nous avons choisi le 1er janvier 1912 comme date de départ et<br>226 = 67 108 864 comme taille de notre domaine. Ensemble, la date de départ et la taille du<br>domaine déterminent également la date de fin, soit le 7 février 2096 dans notre cas.<br>Comme nous l&#8217;avons déjà mentionné, le FPE est une permutation sous-jacente sur<br>l&#8217;ensemble du domaine, de sorte que le pseudonyme d&#8217;une personne vivante peut être<br>converti en un pseudonyme préservant la structure avec une date de naissance située<br>plusieurs dizaines d&#8217;années dans le futur. Il se peut également que, dans dix ans, le<br>numéro de registre national d&#8217;une personne vivante à cette époque soit converti en un<br>pseudonyme avec une date de naissance qui est de toute façon trop éloignée dans le<br>temps pour être celle d&#8217;une personne vivante à ce moment-là.</p>
<p>En résumé, le FPE peut être utilisé pour convertir des numéros de registre national en<br>pseudonymes avec la même structure, mais toutes les informations contenues dans le<br>numéro de registre national seront perdues au cours du processus. Les contrôles de la date<br>de naissance et du sexe (contenu dans la 9e décimale) deviennent donc impossibles.<br>Ceci peut affecter certaines applications qui exécutent ces contrôles de toute façon.</p>
<p>Une mise en garde à cet égard s&#8217;impose toutefois. Nous ne devons pas considérer qu&#8217;un<br>numéro de registre national contient ces informations par définition. Il existe en effet des<br>exceptions, où la date de naissance exacte n&#8217;est pas contenue dans le numéro national<br>(voir les AR susmentionnés). La meilleure pratique consiste dès lors à utiliser le numéro de registre national comme identifiant uniquement et à demander au Registre national les<br>données à caractère personnel dont l&#8217;application a besoin. Dans un tel contexte, le FPE<br>pour les pseudonymes préservant la structure peut constituer une mesure de sécurité<br>précieuse.</p>



<h1>Membrane de confidentialité</h1>
<p>La membrane de confidentialité est un concept commun &#8211; il n&#8217;y a pas encore de code &#8211; du service Sécurité de l&#8217;information de Smals et de l&#8217;équipe Smals Research. L&#8217;idée est qu&#8217;un<br>environnement, par exemple une application en acceptation, est entouré d&#8217;une membrane<br>virtuelle, la membrane de confidentialité. Tous les numéros de registre national qui entrent<br>sont convertis en pseudonymes préservant la structure lorsqu&#8217;ils traversent la membrane de<br>confidentialité. Et tous les pseudonymes préservant la structure qui sortent sont reconvertis<br>en numéros de registre original lorsqu&#8217;ils traversent cette membrane. À l&#8217;intérieur de la<br>membrane, seul le pseudonyme est donc connu. Cette approche est transparente à la fois<br>pour la ou les applications qui se trouvent à l&#8217;intérieur de la membrane et pour les<br>applications/services avec lesquels s&#8217;effectue une communication.</p>
<p><a href="/wp-content/uploads/2023/06/privacymembrane_FR.png"><img loading="lazy" decoding="async" class="alignnone size-full wp-image-18676" src="/wp-content/uploads/2023/06/privacymembrane_FR.png" alt="" width="1952" height="914" srcset="https://www.smalsresearch.be/wp-content/uploads/2023/06/privacymembrane_FR.png 1952w, https://www.smalsresearch.be/wp-content/uploads/2023/06/privacymembrane_FR-300x140.png 300w, https://www.smalsresearch.be/wp-content/uploads/2023/06/privacymembrane_FR-768x360.png 768w, https://www.smalsresearch.be/wp-content/uploads/2023/06/privacymembrane_FR-1024x479.png 1024w, https://www.smalsresearch.be/wp-content/uploads/2023/06/privacymembrane_FR-1536x719.png 1536w" sizes="auto, (max-width: 1952px) 100vw, 1952px" /></a></p>
<p>La membrane de confidentialité pourrait en fait être un serveur proxy par lequel passe tout<br>le trafic entrant et sortant. Ce serveur proxy pourrait éventuellement être hébergé par un<br>tiers.</p>
<p>Contrairement aux autres techniques de pseudonymisation avancées conçues par l&#8217;équipe<br>Smals Research, ce tiers voit inévitablement à la fois le numéro de registre national et le<br>pseudonyme. Il est donc impossible de proposer un service de pseudonymisation aveugle<br>sur la base du FPE, de sorte qu&#8217;un degré de confiance supérieur s&#8217;impose à l&#8217;égard de ce<br>tiers.</p>



<h1>Conclusion</h1>
<p>Le FPE autorise une belle approche pour convertir les numéros de registre national en<br>pseudonymes avec la même structure. Cette approche peut améliorer la protection des<br>données à caractère personnel sans qu&#8217;il soit nécessaire d&#8217;adapter l&#8217;application ou la base<br>de données sous-jacente. En revanche, les informations contenues dans le numéro de<br>registre national &#8211; en particulier la date de naissance et le sexe biologique &#8211; seront perdues.<br>Cela ne devrait toutefois pas être problématique si les meilleures pratiques sont appliquées<br>et si les informations sont récupérées à partir de la source authentique, à savoir le Registre<br>national.</p>
<p>La même technique peut être appliquée à d&#8217;autres types d&#8217;identifiants numériques, tels que<br>les numéros BCE, les numéros de téléphone et les numéros de compte bancaire.<br>Aujourd&#8217;hui, dans son code de recherche, l&#8217;équipe Smals Research prend déjà en charge<br>les numéros BIS, i.e. des numéros d&#8217;identification uniques pour les personnes qui ne sont<br>pas inscrites au Registre national mais qui sont en relation avec les autorités belges, en<br>plus des numéros de registre national. Les numéros de registre national et les numéros BIS<br>constituent ensemble les numéros NISS, les numéros d&#8217;identification de la sécurité sociale.</p>
<p>L&#8217;introduction mentionne que le FPE est une mesure de protection complémentaire.<br>Lorsque, par exemple, dans un enregistrement de base de données, le numéro de registre<br>national est remplacé par un pseudonyme, mais que le nom et l&#8217;adresse restent en clair<br>dans la base de données, l&#8217;identification du citoyen reste assez triviale. Dès lors, soit des<br>mesures de protection complémentaires s&#8217;imposent, soit ces données à caractère<br>personnel ne sont plus stockées localement, mais sont systématiquement extraites de la<br>source authentique (en l&#8217;espèce le Registre national).</p>
<p>En décembre 2021, un sondage réalisé à la fin de mon <a href="/publications/document/?docid=249">webinaire</a> consacré aux<br>technologies d&#8217;amélioration de la vie privée posait la question suivante&nbsp;: quelles sont les<br>technologies d&#8217;amélioration de la vie privée qui, selon vous, ont le plus de potentiel et<br>méritent donc plus d&#8217;attention&nbsp;? Le vainqueur fut FPE (suivi d&#8217;Oblivious Join et de <a href="/?s=synthetic+data&amp;submit=Search">Synthetic</a><br><a href="/?s=synthetic+data&amp;submit=Search">data</a>). Ce résultat nous a amenés à accorder davantage d&#8217;attention à cette technologie.<br>Depuis, avec l&#8217;équipe Smals Research, nous avons réalisé les premières expériences<br>réussies avec le FPE.</p>
<p><strong>Si vous souhaitez appliquer le FPE, éventuellement sous la forme d&#8217;une membrane</strong><br><strong>de confidentialité, ou convertir des identifiants en pseudonymes, n&#8217;hésitez pas à</strong><br><strong>prendre contact avec nous.</strong></p>



<hr />
<p><em>Cette contribution a été soumise par Kristof Verslype, cryptographe chez Smals Research.</em><br /><em>Elle a été rédigée en son nom propre et ne prend pas position au nom de Smals.</em></p>
<p><em>Source featured image: <a href="https://pixabay.com/photos/woman-eyes-mask-carnival-venice-411494/">Pixabay</a></em></p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Gegevensbescherming m.b.v. structuurbehoudende pseudonimisatie van rijksregisternummers</title>
		<link>https://www.smalsresearch.be/gegevensbescherming-m-b-v-structuurbehoudende-pseudonimisatie-van-rijksregisternummers/</link>
		
		<dc:creator><![CDATA[Kristof Verslype]]></dc:creator>
		<pubDate>Tue, 16 May 2023 05:00:00 +0000</pubDate>
				<category><![CDATA[[NL]]]></category>
		<category><![CDATA[Blog post]]></category>
		<category><![CDATA[cryptography]]></category>
		<category><![CDATA[gdpr]]></category>
		<category><![CDATA[pseudonymisation]]></category>
		<category><![CDATA[Security]]></category>
		<guid isPermaLink="false">/?p=18537</guid>

					<description><![CDATA[Steeds meer gevoelige persoonsgegevens worden digitaal bewaard, terwijl cyberaanvallen steeds geavanceerder worden. Het verbeteren van de bescherming van persoonsgegevens geniet dan ook permanente aandacht.]]></description>
										<content:encoded><![CDATA[


<p><em><a href="/protection-des-donnees-par-la-pseudonymisation-preservant-la-structure-des-numeros-de-registre-national/">Version en français</a></em></p>
<p>Steeds meer gevoelige persoonsgegevens worden digitaal bewaard, terwijl cyberaanvallen steeds geavanceerder worden. Het verbeteren van de bescherming van persoonsgegevens geniet dan ook permanente aandacht.</p>
<p>Een waardevolle <em>aanvullende</em> maatregel is om persoonsgegevens niet onder een rijksregisternummer te bewaren, maar onder een pseudoniem. Voor bestaande toepassingen die dit nog niet doen, in productie alsook in test- en ontwikkelomgevingen, kan het nuttig en zelfs noodzakelijk zijn dat deze pseudoniemen dezelfde structuur hebben als rijksregisternummers. Dit is immers wat de bestaande toepassing en database verwachten en mee om kunnen.</p>
<p>Vandaar dus de nood aan een techniek die rijksregisternummers omzet in pseudoniemen met dezelfde structuur, en terug. Dit is onmogelijk met klassieke vercijfering, maar wordt wel mogelijk m.b.v. ofwel data tokenization, ofwel format-preserving encryption.&nbsp;</p>
<p>Bij <a href="/tokenization/"><em>data tokenization</em></a> wordt, in zijn meest eenvoudige vorm, een tabel bijgehouden met paren van de vorm <em>(rijksregisternummer, pseudoniem)</em>, wat met infrastructurele uitdagingen komt, onder meer op het vlak van backup, synchronisatie en het veilig bewaren van de tabel.&nbsp; &nbsp;&nbsp;</p>
<p>Het zou eenvoudiger en veiliger zijn indien we niet een steeds groeiende tabel, met potentieel miljoenen records moeten bijhouden, maar in de plaats daarvan gewoon één enkele, onveranderlijke symmetrische sleutel met een lengte van (maximaal) 32 bytes. Dit is exact wat <em>format-preserving encryptie (FPE)</em> doet. Deze techniek werd voor het eerst voorgesteld in 2001 en werd in 2016 <a href="https://www.nist.gov/news-events/news/2019/02/methods-format-preserving-encryption-nist-requests-public-comments-draft">gestandaardiseerd</a> door het NIST. Na het ontdekken van zwakheden werden in 2019 de standaarden weliswaar gereviseerd.</p>
<p><a href="/wp-content/uploads/2023/05/FPE_fig_01.png"><img loading="lazy" decoding="async" class="alignright size-full wp-image-18538" src="/wp-content/uploads/2023/05/FPE_fig_01.png" alt="" width="975" height="300" srcset="https://www.smalsresearch.be/wp-content/uploads/2023/05/FPE_fig_01.png 975w, https://www.smalsresearch.be/wp-content/uploads/2023/05/FPE_fig_01-300x92.png 300w, https://www.smalsresearch.be/wp-content/uploads/2023/05/FPE_fig_01-768x236.png 768w" sizes="auto, (max-width: 975px) 100vw, 975px" /></a></p>
<p>De FPE standaarden richten zich op de eerste plaats op de financiële sector, waarbij bijvoorbeeld kredietkaartnummers vervangen worden door pseudoniemen met dezelfde structuur. Bij Smals Research vroegen we ons af of deze techniek ook op rijksregisternummers kan toegepast worden. Dit artikel bespreekt onze analyse en ervaringen.</p>



<h1>Werking</h1>
<p>In essentie is FPE een permutatie, ofwel een herordening zoals geïllustreerd in onderstaande figuur waarbij de nummers 1 tot 5 herordend worden. De permutatie wordt bepaald door de FPE sleutel en de tweak. De sleutel is geheim, de tweak is een vrij te kiezen nummer (byte array) dat publiek gekend mag zijn en dat key management vereenvoudigd <a href="#_ftn1" name="_ftnref1">[1]</a>. Hoe kunnen we op basis hiervan rijksregisternummers omzetten in pseudoniemen met de structuur van een rijksregisternummer?</p>
<p><a href="/wp-content/uploads/2023/05/FPE_fig_02.png"><img loading="lazy" decoding="async" class="size-full wp-image-18543 aligncenter" src="/wp-content/uploads/2023/05/FPE_fig_02.png" alt="" width="185" height="123"></a></p>
<p>De string 83.06.21-123-62 heeft de structuur van een rijksregisternummer, dat wil zeggen dat het van de vorm YY.MM.DD-III-CC is, waarbij YY.MM.DD de geboortedag aanduidt, III een dagteller is waarin ook het geslacht geëncodeerd zit, en CC een controlegetal is, berekend op basis van zowel al het voorgaande als de geboorte-eeuw. Uw auteur beschikt (helaas/gelukkig) niet over de mogelijkheid om na te gaan of 83.06.21-123-62 effectief aan een burger toegekend is en weet dus enkel dat dit een string is met de correcte structuur van een rijksregisternummer.</p>
<p>Vertrekkende vanaf een vrij te kiezen startdatum – bijvoorbeeld 01/01/1911 &#8211; kennen we aan elke correct gevormde string een unieke index toe, startend bij 0 en oplopend, zoals aangegeven in onderstaande figuur. We kunnen ophouden bij, bijvoorbeeld, 31/12/2022. In dat geval zijn we zeker dat de rijksregisternummers van alle personen ingeschreven in het <a href="https://www.ibz.rrn.fgov.be/nl/rijksregister/">Rijksregister</a> die eind 2022 in leven waren een conversie van en naar een getal hebben. Niemand in dit land is immers ouder dan 112.</p>
<p><a href="/wp-content/uploads/2023/05/FPE_fig_03.png"><img loading="lazy" decoding="async" class="size-full wp-image-18544 aligncenter" src="/wp-content/uploads/2023/05/FPE_fig_03.png" alt="" width="271" height="222"></a></p>
<p>De omzetting van een rijksregisternummer naar een structuurbewarend pseudoniem wordt geïllustreerd in onderstaande figuur. Het rijksregisternummer wordt eerst geconverteerd naar een getal, zoals net aangegeven. Dat getal wordt door FPE gepermuteerd (=geëncrypteerd) naar een ander getal dat vervolgens terug geconverteerd wordt naar de bijhorende structuurbehoudende string. Deze string is het uiteindelijke pseudoniem.&nbsp;&nbsp;</p>
<p><a href="/wp-content/uploads/2023/05/FPE_fig_04.png"><img loading="lazy" decoding="async" class="size-full wp-image-18545 aligncenter" src="/wp-content/uploads/2023/05/FPE_fig_04.png" alt="" width="597" height="432" srcset="https://www.smalsresearch.be/wp-content/uploads/2023/05/FPE_fig_04.png 597w, https://www.smalsresearch.be/wp-content/uploads/2023/05/FPE_fig_04-300x217.png 300w" sizes="auto, (max-width: 597px) 100vw, 597px" /></a></p>
<p><a href="#_ftnref1" name="_ftn1">[1]</a> Met een enkele geheime sleutel en verschillende tweaks heb je dus verschillende permutaties (encrypties). De tweak kan gezien worden als het niet geheime deel van de sleutel.&nbsp;</p>



<h1>In de praktijk</h1>
<p>Om FPE te gebruiken voor het omzetten van rijksregisternummers naar structuurbehoudende pseudoniemen hebben we dus nood aan zowel een FPE cijfer (en decryptiealgoritme) als een conversiemethode.</p>
<p>Voor het FPE cijfer deden we beroep op de gekende crypto library <a href="https://bouncycastle.org/">BouncyCastle</a>, dat beide NIST standaarden, FF1 en FF3-1, ondersteunt. Onderliggend maakt FPE steeds gebruikt van een bestaand algoritme voor symmetrische blokvercijfering. De logische keuze was dan ook AES. Bijgevolg zijn FPE sleutels gewoon AES sleutels.&nbsp;</p>
<p>De conversie heeft Smals Research zelf in Java geïmplementeerd, waarbij alle&nbsp; complexiteiten rond rijksregisternummers mee in rekening genomen werden (zie bijvoorbeeld de koninklijke besluiten van <a href="https://www.ejustice.just.fgov.be/cgi_loi/change_lg.pl?language=nl&amp;la=N&amp;cn=1984040333&amp;table_name=wet">3 april 1984</a> en <a href="https://etaamb.openjustice.be/nl/koninklijk-besluit-van-25-november-1997_n1997000892">25 november 1997</a>). Bij concrete interesse kan deze research code evolueren richting iets dat ook in productie bruikbaar is.&nbsp; &nbsp;</p>
<p>Wel moet rekening gehouden worden met cruciale beperkingen bij het kiezen van de domeingrootte. FPE werd voor het eerst voorgesteld in 2001, in een artikel getiteld <a href="https://eprint.iacr.org/2001/012.pdf"><em>Ciphers with arbitrary finite domains</em></a>. Zoals de titel suggereert kon de domeingrootte willekeurig gekozen worden. Dit is ook wat we in ons voorgaande voorbeeld gedaan hebben.</p>
<p>De NIST standaarden wijken daar echter van af en stellen dat de domeingrootte de vorm <em>radix<sup>len</sup></em> moet hebben, dus het grondtal <em>radix</em> verhoffen tot de macht <em>len</em> waarbij <em>radix</em>&nbsp;en <em>len</em> vrij gekozen kunnen worden, zolang <em>radix</em> niet groter is dan 2<sup>16</sup> = 65 536. Deze benadering werkt goed voor bijvoorbeeld kredietkaartnummers. Dergelijke nummers bestaan uit 16 decimale cijfers. We kiezen dus <em>radix = 10</em> en <em>len = 16</em>. Als we de NIST standaarden volgen – wat ik ten zeerste aanbeveel –, kunnen we de domeingrootte dus niet langer willekeurig kiezen.</p>
<p>Bovendien werd de minimumdomeingrootte, die in de <a href="https://csrc.nist.gov/news/2016/nist-released-special-publication-800-38g">NIST publicatie van 2016</a> nog 100 bedroeg, in de <a href="https://csrc.nist.gov/publications/detail/sp/800-38g/rev-1/draft">revisie van 2019</a> uit veiligheidsoverwegingen opgetrokken naar 1 000 000. Anders gezegd is er de vereiste dat <em>radix<sup>len </sup></em>≥ 1 000 000. Een implicatie van dat laatste is dat het behoud van het geboortejaar in het pseudoniem van een rijksregisternummer niet langer een optie is. Per jaar zijn er immers slechts ongeveer 365 000 correct gevormde strings (365 of 366 dagen per jaar x 998 mogelijkheden voor de dagteller III).</p>
<p>Terug naar onze experimenten. Hoe bepalen we het domein (en dus de domeingrootte)? In ons eerdere voorbeeld bestond dit domein uit alle strings met de structuur van een rijksregisternummer voor personen geboren tussen 1911 en 2022, wat samen goed was voor ruim 40,8 miljoen strings. Het is uiteraard de bedoeling om het systeem ettelijke jaren te gebruiken. Daarom is het verstandig om het domein groter te nemen. Er worden immers steeds nieuwe rijksregisternummers uitgereikt, en de oude mogen we niet zomaar vergeten.</p>
<p>Voor onze testen kozen we als startdatum 1 januari 1912 en als grootte voor ons domein 2<sup>26</sup> = 67 108 864. De startdatum en domeingrootte bepalen samen ook de einddatum, wat in dit geval 7 februari 2096 is. Zoals eerder gezegd is FPE onderliggend een permutatie over het volledige domein, wat impliceert dat het pseudoniem van een levende persoon omgezet kan worden in een structuurbehoudend pseudoniem met een geboortedatum die decennia in de toekomst ligt. Het is eveneens mogelijk dat binnen 10 jaar een rijksregisternummer van een op dat moment levende persoon omgezet wordt naar een pseudoniem met een geboortedatum die sowieso te ver in het verleden ligt om van een dan nog levende persoon te zijn.</p>
<p>Samengevat kan FPE gebruikt worden om rijksregisternummers om te zetten in pseudoniemen met dezelfde structuur, maar gaat daarbij wel alle informatie verloren die in het rijksregisternummer vervat zit. Controles op geboortedatum en geslacht (wat vervat zit in de 9<sup>e</sup> decimaal) worden dus onmogelijk. Dit kan gevolgen hebben voor bepaalde toepassingen die dergelijke controles toch doen.</p>
<p>Hierbij dient wel een kanttekening gemaakt te worden. We mogen er niet van uitgaan dat een rijksregisternummer sowieso deze informatie bevat. Er zijn inderdaad uitzonderingen, waarbij de exacte geboortedatum niet in het rijksregisternummer vervat zit (zie daarvoor de eerder vermeldde KB’s). Het is dan ook sowieso een <em>best practice</em> om het rijksregisternummer enkel te gebruiken als identifier, en de persoonsgegevens die de toepassing nodig heeft aan het rijksregister op te vragen. In een dergelijke context kan FPE voor structuurbehoudende pseudoniemen een waardevolle beveiligingsmaatregel zijn.&nbsp;</p>



<h1>Privacy membraan</h1>
<p>Het privacy membraan is een gezamenlijk concept – er is nog geen code – van de dienst informatieveiligheid en de dienst onderzoek van Smals. Het idee is dat een omgeving, bijvoorbeeld een toepassing in acceptatie, omgeven wordt door een virtuele schil, het privacy membraan. Alle rijksregisternummers die het privacy membraan binnenkomen worden omgezet in een structuurbehoudend pseudoniem. Alle structuurbehoudende pseudoniemen die het membraan verlaten worden bij het passeren van het membraan opnieuw omgezet in het oorspronkelijke rijksregisternummer. Binnen het membraan is dus enkel het pseudoniem gekend. Een dergelijke aanpak is transparant voor zowel de toepassing(en) binnen het membraan, als de toepassingen/services waarmee gecommuniceerd wordt.</p>
<p><a href="/wp-content/uploads/2023/05/privacymembraan-1.png"><img loading="lazy" decoding="async" class="wp-image-18584 size-large aligncenter" src="/wp-content/uploads/2023/05/privacymembraan-1-1024x502.png" alt="" width="688" height="337" srcset="https://www.smalsresearch.be/wp-content/uploads/2023/05/privacymembraan-1-1024x502.png 1024w, https://www.smalsresearch.be/wp-content/uploads/2023/05/privacymembraan-1-300x147.png 300w, https://www.smalsresearch.be/wp-content/uploads/2023/05/privacymembraan-1-768x376.png 768w, https://www.smalsresearch.be/wp-content/uploads/2023/05/privacymembraan-1-1536x753.png 1536w, https://www.smalsresearch.be/wp-content/uploads/2023/05/privacymembraan-1.png 1643w" sizes="auto, (max-width: 688px) 100vw, 688px" /></a></p>
<p>Het privacy membraan zou in werkelijkheid een proxy server kunnen zijn waarlangs al het inkomend en uitgaand verkeer passeert. Die proxy server kan eventueel gehost worden door een derde partij. &nbsp;</p>
<p>In tegenstelling tot andere, door Smals Research bedachte, geavanceerde peudonimisatietechnieken, ziet deze partij onvermijdelijk zowel het rijksregisternummer als het pseudoniem. Een <em>blinde</em> pseudonimiseringsdienst is dus onmogelijk m.b.v. FPE en bijgevolg is wel een hogere graad van vertrouwen vereist in deze partij.</p>



<h1>Conclusie</h1>
<p>FPE laat een elegante aanpak toe om rijksregisternummers om te zetten in pseudoniemen met dezelfde structuur. Dit kan de bescherming van persoonsgegevens verbeteren, zonder dat de onderliggende toepassing of database aangepast dient te worden. De informatie die vervat zit in het rijksregisternummer – met name de geboortedatum en het biologische geslacht – gaat daarbij weliswaar verloren. Toch zou dit geen probleem mogen zijn indien de best practices gevolgd worden en de informatie dus opgevraagd wordt aan de authentieke bron, zijnde het Rijksregister.</p>
<p>Dezelfde techniek kan ook toegepast worden op andere types numerieke identifiers, zoals KBO nummers, telefoonnummers en bankrekeningnummers. Smals Research biedt vandaag in haar research code, naast rijksregisternummers, ook reeds ondersteuning voor <a href="https://www.ksz-bcss.fgov.be/nl/diensten-en-support/diensten/rijksregisterksz-registers">BIS-nummers</a>, wat unieke identificatienummers zijn voor personen die niet ingeschreven zijn in het Rijksregister, maar die toch een relatie hebben met de Belgische overheden. De rijksregisternummers en BIS-nummers vormen samen de INSZ nummers, de identificatienummers van de sociale zekerheid.</p>
<p>De inleiding vermeldde dat FPE een <em>aanvullende</em> beschermingsmaatregel is. Wanneer bijvoorbeeld in een database record het rijksregisternummer vervangen wordt door een pseudoniem, maar verder naam en adres gewoon in klaartekst in de database blijven staan, blijft identificatie van de burger vrij triviaal. Ofwel zijn dan bijkomende beschermingsmaatregelen nodig, ofwel worden deze persoonsgegevens niet langer lokaal bewaard, maar wel systematisch bij de authentieke bron (in dit geval het Rijksregister) opgevraagd.</p>
<p>In december 2021 werd op het einde van mijn <a href="/publications/document/?docid=249">webinar</a> over privacy bevorderende technologieën via een peiling de volgende vraag gesteld: <em>welke privacy bevorderende technologieën hebben volgens u het meest potentieel en verdienen dus meer aandacht? </em>De winnaar was FPE (gevolgd door Oblivious Join en <a href="/?s=synthetic+data&amp;submit=Search">Synthetic data</a>). Dit was voor ons een signaal om deze technologie meer aandacht te geven. Ondertussen hebben we met Smals research de eerste succesvolle experimenten met FPE achter de rug.</p>
<p><strong>Mocht u interesse hebben in het toepassen van FPE, eventueel in de vorm van een privacy membraan, of in het omzetten van identifiers in pseudoniemen,&nbsp;gaan wij graag met u in gesprek. &nbsp;</strong></p>
<p>&nbsp;</p>



<hr />
<p><em data-rich-text-format-boundary="true">Dit is een ingezonden bijdrage van Kristof Verslype, cryptograaf bij Smals Research. Het werd geschreven in eigen naam en neemt geen standpunt in namens Smals.</em></p>
<p><em>Bron featured image: <a href="https://pixabay.com/photos/woman-eyes-mask-carnival-venice-411494/">Pixabay</a></em></p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Privacybevorderende technologieën voor de publieke sector</title>
		<link>https://www.smalsresearch.be/wanneer-is-welke-privacybevorderende-technologie-nuttig/</link>
		
		<dc:creator><![CDATA[Kristof Verslype]]></dc:creator>
		<pubDate>Tue, 12 Oct 2021 04:30:00 +0000</pubDate>
				<category><![CDATA[[NL]]]></category>
		<category><![CDATA[Blog post]]></category>
		<category><![CDATA[cryptography]]></category>
		<category><![CDATA[gdpr]]></category>
		<category><![CDATA[Privacy]]></category>
		<category><![CDATA[privacy-enhancing technologies]]></category>
		<category><![CDATA[Security]]></category>
		<category><![CDATA[statistics]]></category>
		<guid isPermaLink="false">/?p=16385</guid>

					<description><![CDATA[Het wordt steeds makkelijker om grote hoeveelheden persoonsgegevens te verzamelen en te verwerken. Dit creëert enerzijds heel wat opportuniteiten, zoals het doen van statistische analyses ter verbetering van de gezondheidszorg. Tegelijkertijd moet echter rekening gehouden worden met de privacy van de burger, wat een juridische basis vindt in de GDPR. Met traditionele aanpakken en technologieën [&#8230;]]]></description>
										<content:encoded><![CDATA[<p>Het wordt steeds makkelijker om grote hoeveelheden persoonsgegevens te verzamelen en te verwerken. Dit creëert enerzijds heel wat opportuniteiten, zoals het doen van statistische analyses ter verbetering van de gezondheidszorg. Tegelijkertijd moet echter rekening gehouden worden met de privacy van de burger, wat een juridische basis vindt in de GDPR. Met traditionele aanpakken en technologieën kan het omslachtig tot zelfs onmogelijk zijn om functionele noden en privacyvereisten met elkaar in balans te brengen. De behoefte naar meer geavanceerde technologieën groeit dan ook. Privacybevorderende technologieën, of <em>privacy-enhancing technologies</em> (PETs), kunnen hier een uitweg bieden en laten met behulp van cryptografie en/of statistiek zaken toe die zelfs intuïtief onmogelijk kunnen lijken.</p>
<p>Doordat PETs een elegant alternatief kunnen bieden op meer omslachtige traditionele aanpakken, kan hun gebruik bovendien leiden tot een vereenvoudiging van bestaande procedures, niet alleen op technisch, maar ook op juridisch vlak. In deze gevallen worden de procedures dan ook sneller en goedkoper, terwijl ook de veiligheidsrisico’s afnemen. Een aantal redenen daartoe kunnen zijn:</p>
<ul>
<li>Een reductie van het aantal informatiestromen</li>
<li>Een reductie van het aantal TTPs (Trusted Third Parties)</li>
<li>Een reductie van het vertrouwen dat in TTPs gelegd dient te worden</li>
<li>Maatwerk maakt plaats voor een meer uniforme aanpak.</li>
</ul>
<p>Dit artikel wil een leidraad zijn bij het selecteren van de juiste PET. Wel moet beseft worden dat dit maar een selectie van PETs en use cases is, dat niet alle PETs vandaag volledig matuur zijn en dat steeds nagedacht moet worden over de correcte toepassing ervan. Dit artikel is een aanzet en zal, met voortschrijdend inzicht en voortschrijdende technologische evoluties in de toekomst verder verfijnd worden.</p>
<p>In het buitenland werden reeds gelijkaardige, uitgebreidere oefeningen gedaan. We verwijzen graag onder meer naar <a href="https://cdeiuk.github.io/pets-adoption-guide/"><em>Privacy Enhancing Technologies Adoption Guide</em></a> door het <em>Centre for Data Ethics and Innovation</em>, naar <a href="https://royalsociety.org/-/media/policy/projects/privacy-enhancing-technologies/privacy-enhancing-technologies-report.pdf"><em>Protecting privacy in practice</em></a> van <em>The Royal Society</em> en naar het meer academische <a href="https://www.sciencedirect.com/science/article/pii/S0167404815000668?casa_token=3JiLQpvh2NcAAAAA:3sL35tXxUs50afMGn6ITlSG6yxQwgeKS18a7B9c5KLgNWDCu9Cf_b5yWj3k67aRUjT1yp0IV9nz9"><em>A taxonomy for privacy enhancing technologies</em></a> door <em>Johannes Heurix, Peter Zimmermann, Thomas Neubauer</em> en <em>Stefan Fenz</em>.</p>
<h1>PETs selectieboom</h1>
<p>Onderstaande figuur geeft onze eigen, adviserende PET-selectieboom weer, die focust op behoeften vanuit de publieke sector. De boom heeft (momenteel) acht bladeren, die elk een groep van use cases voorstellen. Elk van deze bladeren wordt onder de figuur toegelicht. Voor details over de PETS zelf voorzien we doorverwijzingen/links.</p>
<p><a href="/wp-content/uploads/2021/10/petsboom-1.png"><img loading="lazy" decoding="async" class="alignnone size-full wp-image-16495" src="/wp-content/uploads/2021/10/petsboom-1.png" alt="" width="1920" height="1080" srcset="https://www.smalsresearch.be/wp-content/uploads/2021/10/petsboom-1.png 1920w, https://www.smalsresearch.be/wp-content/uploads/2021/10/petsboom-1-300x169.png 300w, https://www.smalsresearch.be/wp-content/uploads/2021/10/petsboom-1-768x432.png 768w, https://www.smalsresearch.be/wp-content/uploads/2021/10/petsboom-1-1024x576.png 1024w, https://www.smalsresearch.be/wp-content/uploads/2021/10/petsboom-1-1536x864.png 1536w" sizes="auto, (max-width: 1920px) 100vw, 1920px" /></a></p>
<p><strong>1.</strong> <strong style="color: initial;">Burger wil controle over prijsgave eigen persoonsgegevens bij authenticatie</strong></p>
<p>De burger moet zich geregeld, zowel online als offline, authentiseren, wat wil zeggen dat ze bepaalde eigenschappen over haarzelf dient te bewijzen. Een aantal voorbeelden:</p>
<ul>
<li>Om alcohol te kopen moet ze bewijzen dat zij volwassen is</li>
<li>Om een auto te huren moet ze bewijzen dat ze over een rijbewijs van het juiste type beschikt en verzekerd is.</li>
<li>Om recht te hebben op korting bij een museumbezoek, moet ze bewijzen dat ze in die bepaalde gemeente woont.</li>
</ul>
<p>In elk van voorgaande voorbeelden wordt in de praktijk m.b.v. de identiteitskaart en/of andere documenten veel meer informatie prijsgegeven dan strikt noodzakelijk. Om alcohol te kopen moet de burger bijvoorbeeld enkel kunnen bewijzen dat zij volwassen is. Om korting te krijgen in het museum volstaat te bewijzen dat haar postcode behoort tot de postcodes van die gemeente. Haar exacte geboortedatum, haar identiteit, exacte postcode, geslacht en andere informatie op de eID doen er niet toe en blijven vanuit een privacy-standpunt beter verborgen. Dergelijke selectieve prijsgave van attribuutinformatie wordt mogelijk dankzij <a href="https://en.wikipedia.org/wiki/Zero-knowledge_proof">z<em>ero-knowledge proofs</em></a><em>, </em>wat we terugvinden in <a href="https://en.wikipedia.org/wiki/Self-sovereign_identity"><em>self-sovereign identity (SSI)</em></a> oplossingen, zoals <a href="https://privacypatterns.org/patterns/Attribute-based-credentials"><em>attribute-based credentials</em></a><em>.</em> Ook zijn er oplossingen, zoals <a href="https://sovrin.org/faq/what-is-a-zero-knowledge-proof/"><em>Sovrin</em></a>, die zero-knowledge proofs integreren in blockchain technologie.</p>
<p><strong>2. Onderzoeker wil inzichten verkrijgen uit persoonsgegevens die gefragmenteerd zijn over meerdere organisaties.</strong></p>
<p>Dit kan gaan over een combinatie van gezondheidsdata, socio-economische data, etc. die gefragmenteerd zijn over meerdere organisaties. Gegeven de huidige stand der techniek, geven we er de voorkeur aan om eerst de data te kruisen (zie puntje 4), en vervolgens ter beschikking te stellen van de onderzoeker (zie puntje 3). Indien dit kruisen (samenbrengen van gegevens) omwille van strikte privacy- of andere redenen echt niet mogelijk is, moeten we echter terugvallen &#8211; als laatste redmiddel &#8211; op een andere aanpak.</p>
<p>Bij die andere aanpak worden de scripts/queries van de onderzoeker gedistribueerd uitgevoerd, wat wil zeggen dat de verschillende participanten met elkaar interageren, zonder een centrale partij. <span style="font-size: revert; color: initial;">De (persoons)gegevens beheerd door de verschillende organisaties worden daarbij op geen enkel moment prijsgegeven. De onderzoeker krijgt enkel het resultaat van zijn script/query te zien en voor de rest lekken er geen persoonsgegeven, noch naar de onderzoeker, noch naar andere data bronnen. </span></p>
<p><span style="font-size: revert; color: initial;">Dit is in theorie mogelijk met</span><span style="font-size: revert; color: initial;"> </span><a style="font-size: revert;" href="/secure-multiparty-computation-collectieve-berekeningen-op-verspreide-gevoelige-gegevens/"><em>secure multiparty computation (SMC)</em></a><span style="font-size: revert; color: initial;">. Vandaag is deze aanpak eerder experimenteel en blijft het doorgaans nog erg moeilijk om dit ook in de praktijk om te zetten. </span></p>
<p><strong style="color: initial;">3. Onderzoeker wil inzichten verkrijgen uit persoonsgegevens die zich bij één organisatie bevinden.</strong></p>
<p>De onderzoeker die inzichten wil bekomen uit gezondheidsdata, socio-economische data, etc. van burgers kan niet zomaar toegang gegeven worden tot de ruwe geïdentificeerde persoonsgegevens. Het vervangen van de identifiers door codes (pseudoniemen) zal niet volstaan, gezien records via combinaties van attribuutwaarden te herleiden kunnen zijn naar unieke personen. Er zijn een aantal benaderingen om hiermee om te gaan, waaronder de volgende:</p>
<ul>
<li>De onderzoeker krijgt slechts toegang tot een vervaagde (gegeneraliseerde) versie van de dataset. Daarbij gaat onvermijdelijk informatie verloren: de data wordt in het beste geval minder nuttig maar blijft wel bruikbaar, terwijl de identificatierisico&#8217;s significant dalen. In het slechtste geval wordt de data compleet nutteloos indien we de identificatierisico&#8217;s aanzienlijk willen reduceren. De voornaamste technologieën hiervoor zijn <a href="https://en.wikipedia.org/wiki/K-anonymity"><em>k-anonymity</em></a> en <a href="https://en.wikipedia.org/wiki/L-diversity"><em>l-diversity</em></a><em>. </em></li>
<li>De onderzoeker krijgt geen toegang tot de data zelf, maar kan wel queries uitvoeren. Het resultaat van de query wordt vervaagd voor het aan de onderzoeker doorgegeven wordt. Gezien het voorzien van ruis later gebeurt dan in voorgaande bullet zal het effect op het uiteindelijk resultaat beperkter zijn. Deze aanpak steunt op <a href="/differential-privacy/"><em>differential privacy</em></a>.</li>
<li>De scripts/queries van de onderzoeker worden in een beveiligde omgeving uitgevoerd en de onderzoeker krijgt enkel toegang tot het uiteindelijke resultaat. Dit vereist geen PET, maar leek ons desondanks het vermelden waard.</li>
</ul>
<p><strong>4. Publieke instelling wil persoonsgegevens afkomstig van meerdere bronnen kruisen</strong></p>
<p>Dit kan noodzakelijk zijn voor de uitvoering van de opdracht van de publieke instelling zelf, of het kan gebeuren naar aanleiding van een specifieke vraag van een onderzoeker. In dit tweede geval krijgt de onderzoeker in een volgende stap op een gecontroleerde manier toegang tot de gekruiste persoonsgegevens (zie puntje 3).</p>
<p>Cruciaal bij het kruisen is dat het resultaat enkel de minimaal noodzakelijke gepseudonimiseerde gegevens bevat en dat er verder geen ongewenste lekken van persoonsgegevens zijn. Traditionele aanpakken zijn inefficiënt, en daardoor traag en duur.</p>
<p><a href="https://www.sciencedirect.com/science/article/pii/S0306437912001470?casa_token=iYgHtDDlZ5QAAAAA:ap1vwqYn-aaV7kCl5MHn3ip4uWqXSV8kPP8Wd3xIEZwtzUCmD-_btSVqei6YJqN99MyXmgbTNBiy"><em>Privacy-preserving record linkage</em></a> technieken trachten hier een antwoord op te bieden, al focussen ze doorgaans op situaties waarbij er geen gedeelde burger identifiers zijn &#8211; zoals het rijksregisternummer &#8211; en er aan <em>string matching</em> gedaan wordt, bijvoorbeeld van – mogelijks verschillend gespelde – persoonsnamen in combinatie met een geboortedatum. <a href="/download/presentations/20200121-crypto-cases-KU-Leuven-Campus-Gent.pdf"><em>Oblivious join</em></a> – een innovatie van Smals Research – gaat wel uit van gedeelde identifiers en kreeg vorm op basis van businessvereisten in de context van de Belgische gezondheidszorg en sociale zekerheid.</p>
<p><strong style="color: initial;">5. Publieke instelling wil persoonsgegevens voor testen / software development</strong></p>
<p>Bij het ontwikkelen en testen van systemen kan de verleiding bestaan om met echte persoonsgegevens te werken, wat uiteraard risico’s inhoudt. In werkelijkheid volstaan misschien gegevens die daarop lijken, maar geen echte persoonsgegevens zijn. Een dergelijke dataset noemt men <a href="/synthetic-data/"><em>synthetic data</em></a><strong>. </strong>Het bewaart de structuur van de individuele records, maar ook bepaalde statistische eigenschappen van de gehele dataset.</p>
<p>Indien de systemen in test- of ontwikkelomgevingen moeten interageren met systemen in productie, zal synthetic data alleen vaak niet volstaan gezien de overeenkomsen (vb. gelijk rijksregisternummer) tussen de interne (synthetische) data en de echte data op de externe systemen vernietigd is. In dat geval kan <a href="/bescherming-van-persoonsgegevens-met-geavanceerde-cryptografie/"><em>format preserving encryption</em></a> als een schil rond de test- of ontwikkelomgeving helpen om rijksregisternummers en andere ‘echte’ persoonsgegevens afkomstig van systemen in productie die de schil binnenkomen om te zetten in pseudoniemen die dezelfde structuur hebben als rijksregisternummers. Daarbij kunnen eventueel ook bepaalde eigenschappen behouden blijven binnen de schil (zodat bijvoorbeeld een meerderjarige een meerderjarige blijft). Ook de omgekeerde operatie is mogelijk, waarbij bijvoorbeeld fake-rijksregisternummers (dus eigenlijk pseudoniemen) die binnen de schil bestaan terug omgezet worden in het echte rijksregisternummer wanneer er vanuit de test- of ontwikkelomgeving een vraag gesteld wordt aan een extern systeem in productie over de betrokken burger.</p>
<p><strong style="color: initial;">6. Publieke instelling wil extra gegevens opvragen over één of beperkt aantal geïdentificeerde burgers</strong></p>
<p>Er kunnen vanuit justitie onderzoeken gevoerd worden naar specifieke burgers, bijvoorbeeld in het kader van terrorismebestrijding of fraudeopsporing. Persoonsgegevens die beheerd worden door derden moeten daarbij opgevraagd kunnen worden. Denk daarbij bijvoorbeeld aan metagegevens over telefoongesprekken gekend door telecomoperatoren of aan de verschillende officiële verblijfplaatsen doorheen de tijd, wat gekend is door het Rijksregister.</p>
<p>Dergelijke data opvragen bij een andere (private of publieke) organisatie over een specifieke burger is op zich geen uitdaging, althans niet op technisch vlak. Helaas lekt de vragende organisatie daarbij de identiteit van de betrokken burger naar de aanleverende organisatie. Dit brengt zowel de privacy van de betrokkenen als de confidentialiteit van het onderzoek in het gedrang.  Dit is op te lossen met behulp van <a href="/vergeetachtige-verzending-voor-vertrouwelijk-gerechtelijk-onderzoek/">oblivious transfer</a>.</p>
<p><strong style="color: initial;">7. Publieke instelling wil burgers selecteren a.d.h.v. eigenschappen gekend door andere organisatie</strong></p>
<p>Stel dat een wetshandhavingsdienst A wil weten welke van de verdachten die het volgt ook door wetshandhavingsdienst B met hoge prioriteit gevolgd worden. Een naïeve aanpak is dat B een lijst bezorgt aan A met alle verdachten die het met hoge prioriteit volgt en dat A dan eenvoudigweg de doorsnede berekent van haar eigen verdachtenlijst met die van B. B geeft zo echter veel te veel gevoelige persoonsgegevens aan A, dat inderdaad de volledige lijst van personen te weten komt die door B met hoge prioriteit gevolgd worden, terwijl de doorsnede volstaat. Dit wordt opgelost met behulp van <a href="https://en.wikipedia.org/wiki/Private_set_intersection">private set intersection</a> (PSI).</p>
<p><strong style="color: initial;">8. Publieke instelling wil berekeningen op gevoelige persoonsgegevens outsourcen</strong></p>
<p>Bij overwegingen om opslag van en berekenen op gevoelige persoonsgegevens te outsourcen, typisch naar de cloud, is een garantie dat de (cloud) provider zelf op geen enkel moment toegang tot de data zelf kan verkrijgen een noodzaak. </p>
<p>De sterkste garanties worden geleverd door <a href="https://en.wikipedia.org/wiki/Trusted_execution_environment">Trusted execution environments (TEEs)</a> en, meer nog, door <a href="/secure-multiparty-computation-collectieve-berekeningen-op-verspreide-gevoelige-gegevens/#HE">homomorphic encryption (HE)</a>.</p>
<ul>
<li>Een TEE biedt een door hardware beveiligde, afgeschermde omgeving aan op een processor, waarbinnen de confidentialiteit en integriteit van de data en correcte uitvoering van code wordt gewaarborgd. TEE blijft helaas gevoelig voor side-channel attacks.</li>
<li>HE laat toe om berekeningen te doen op de vercijferde data in plaats van op de data zelf. HE is vandaag doorgaans erg inefficiënt. In het bijzonder <a href="https://eprint.iacr.org/2018/1032.pdf">blijkt</a> het erg lastig te zijn om ondersteuning te voorzien voor o.a. vergelijkingen condities en array lookups.</li>
</ul>
<h1>Conclusies</h1>
<p>Privacy-enhancing technologies (PETs) zijn vandaag vaak nog emerging, waarmee we bedoelen dat de ontwikkeling tot enterprise-ready producten nog bezig is en/of dat praktische toepassingen nog zeldzaam zijn. Toch bieden ze heel wat opportuniteiten, zeker in een publieke sector die de privacy van de burger au serieux neemt. In de komende jaren zullen we dan ook ongetwijfeld een boom in de uptake van deze technologieën zien. Het lijkt uw auteur logisch dat de publieke sector hier een voortrekkersrol in speelt.</p>
<p>De PETs die in dit artikel vermeld worden zijn natuurlijk niet de enige. Bovendien moeten we de meeste hier vermeldde PETs eerder zien als afzonderlijke categorieën van PETs. Zo is oblivious transfer reeds een levend onderzoeksdomein op zich, waarbinnen heel wat verschillende protocollen met uiteenlopende eigenschappen voorgesteld werden en worden.</p>
<p>Smals Research heeft gelukkig reeds heel wat kennis in huis, met zelfs eigen innovaties en implementaties. Ook daarbuiten wordt hard aan de weg getimmerd, onder meer binnen de academische wereld, waarmee Smals Research goede contacten onderhoudt.</p>
<p>Ten slotte geven we nog mee dat PETs ook voor heel wat andere &#8212; soms verrassende &#8212; toepassingen kennen. Zo kan je met private set intersection (PSI) testen of je paswoord gelekt is, zonder je paswoord zelf prijs te geven. Of je kunt ermee nagaan of je een erfelijke ziekte hebt, zonder je genetische informatie zelf prijs te geven.</p>
<p>We kijken er alvast naar uit om samen met u na te gaan hoe PETs kunnen helpen bij het realiseren of optimaliseren van uw concrete use case.</p>
<p> </p>
<hr />
<p><em data-rich-text-format-boundary="true">Dit is een ingezonden bijdrage van Kristof Verslype, cryptograaf bij Smals Research. Het werd geschreven in eigen naam en neemt geen standpunt in namens Smals.</em></p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Anonimisatie Vs. Pseudonimisatie</title>
		<link>https://www.smalsresearch.be/anonimisatie-vs-pseudonimisatie/</link>
		
		<dc:creator><![CDATA[Kristof Verslype]]></dc:creator>
		<pubDate>Fri, 17 Sep 2021 13:41:31 +0000</pubDate>
				<category><![CDATA[Presentations]]></category>
		<category><![CDATA[anonymisation]]></category>
		<category><![CDATA[gdpr]]></category>
		<category><![CDATA[pseudonymisation]]></category>
		<category><![CDATA[Security]]></category>
		<guid isPermaLink="false">https://www.smalsresearch.be/anonimisatie-vs-pseudonimisatie/</guid>

					<description><![CDATA[De termen &#8220;anonimisatie&#8221; en &#8220;pseudonimisatie&#8221; worden geregeld fout gebruikt, hoewel de GDPR ze wel scherp definieert. Deze verwarring bemoeilijkt niet enkel discussies, maar kan bovendien verregaande consequenties hebben. Er wordt bijvoorbeeld vaak over anonimisatie gesproken hoewel er nog steeds significante identificatierisico&#8217;s overblijven en de GDPR dus van toepassing blijft. Deze presentatie gaat uitgebreid in op [&#8230;]]]></description>
										<content:encoded><![CDATA[<p>De termen &ldquo;anonimisatie&rdquo; en &ldquo;pseudonimisatie&rdquo; worden geregeld fout gebruikt, hoewel de GDPR ze wel scherp definieert. Deze verwarring bemoeilijkt niet enkel discussies, maar kan  bovendien verregaande consequenties hebben. Er wordt bijvoorbeeld vaak over anonimisatie gesproken hoewel er nog steeds significante identificatierisico&rsquo;s overblijven en de GDPR dus van toepassing blijft. Deze presentatie gaat uitgebreid in op anonimisering en pseudonimisering en werd positief onthaald door de DPO&rsquo;s van de sociale zekerheid en de ziekenhuizen.</p><p>Les termes &#8220;anonymisation&#8221; et &#8220;pseudonymisation&#8221; sont r&eacute;guli&egrave;rement mal utilis&eacute;s, bien que le RGPD les d&eacute;finisse de mani&egrave;re pr&eacute;cise. Cette confusion complique les discussions et peut en outre &ecirc;tre lourde de cons&eacute;quences. Par exemple, on parle souvent d&#8217;anonymisation alors qu&rsquo;il subsiste d&rsquo;importants risques d&#8217;identification et que le RGPD reste donc d&rsquo;application. Cette pr&eacute;sentation traite en d&eacute;tail de l&#8217;anonymisation et de la pseudonymisation et a &eacute;t&eacute; bien accueillie par les DPO de la s&eacute;curit&eacute; sociale et des h&ocirc;pitaux.</p>







                <h1 class="wp-block-heading">Presentation</h1>
            
            


            <div data-wp-interactive="core/file" class="wp-block-file">
                <object data-wp-bind--hidden="!state.hasPdfPreview" hidden class="wp-block-file__embed" data="https://www.smalsresearch.be/wp-content/uploads/2021/09/20210916-anon-pseudo.pdf" type="application/pdf" style="width:100%;height:600px" aria-label="Embed of 20210916-anon-pseudo."></object>
                <a id="wp-block-file--media-19c0c291-4334-49d1-a67d-6a9514d1224d" href="https://www.smalsresearch.be/wp-content/uploads/2021/09/20210916-anon-pseudo.pdf">20210916-anon-pseudo</a><a href="https://www.smalsresearch.be/wp-content/uploads/2021/09/20210916-anon-pseudo.pdf" class="wp-block-file__button wp-element-button" download aria-describedby="wp-block-file--media-19c0c291-4334-49d1-a67d-6a9514d1224d">Download</a>
                </div>
            ]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Bescherming van persoonsgegevens met geavanceerde cryptografie</title>
		<link>https://www.smalsresearch.be/bescherming-van-persoonsgegevens-met-geavanceerde-cryptografie-2/</link>
		
		<dc:creator><![CDATA[Kristof Verslype]]></dc:creator>
		<pubDate>Thu, 05 Dec 2019 12:30:43 +0000</pubDate>
				<category><![CDATA[Presentations]]></category>
		<category><![CDATA[cryptography]]></category>
		<category><![CDATA[gdpr]]></category>
		<category><![CDATA[personal data]]></category>
		<category><![CDATA[Privacy]]></category>
		<category><![CDATA[Security]]></category>
		<guid isPermaLink="false">https://www.smalsresearch.be/bescherming-van-persoonsgegevens-met-geavanceerde-cryptografie-2/</guid>

					<description><![CDATA[NEDERLANDS Overheidsinstellingen verwerken in het kader van hun opdracht onvermijdelijk grote hoeveelheden &#8211; soms erg gevoelige &#8211; persoonsgegevens. Dit dient zowel op een effici&#235;nte als op een veilige manier te gebeuren. Traditionele benaderingen, waaronder het gebruik van klassieke cryptografie, zijn helaas niet steeds afdoende. Stel, bij wijze van voorbeeld, dat de FOD justitie in het [&#8230;]]]></description>
										<content:encoded><![CDATA[<p>NEDERLANDS</p><p>Overheidsinstellingen verwerken in het kader van hun opdracht onvermijdelijk grote hoeveelheden &ndash; soms erg gevoelige &ndash; persoonsgegevens. Dit dient zowel op een effici&euml;nte als op een veilige manier te gebeuren. Traditionele benaderingen, waaronder het gebruik van klassieke cryptografie, zijn helaas niet steeds afdoende.</p><p>Stel, bij wijze van voorbeeld, dat de FOD justitie in het kader van een terrorismedossier aan verschillende bedrijven en overheidsinstellingen informatie over een specifieke burger opvraagt. De bevraagde entiteiten komen allen te weten dat er een onderzoek loopt naar deze persoon, wat zowel de privacy van de burger als de confidentialiteit van het onderzoek in het gedrang kan brengen.</p><p>Geavanceerde cryptografie kan hiervoor op een elegante manier een oplossing bieden en stelt ons zelfs in staat om zaken te realiseren die intu&iuml;tief gewoon onmogelijk lijken. Ondanks het potentieel zijn de mogelijkheden van geavanceerde cryptografie vandaag nog te weinig gekend.</p><p>Deze infosessie wil dan ook een bewustzijn rond de mogelijkheden van geavanceerde cryptografie cre&euml;ren zodat u voortaan cases zult herkennen waarin deze aanpak een uitweg kan bieden. Diverse cryptografische bouwblokken worden op een toegankelijke manier besproken, alsook het &ndash; zowel theoretische als praktische &ndash; werk dat Smals Research hierrond verricht heeft. Verder komen mogelijke en concrete cases aan bod waar geavanceerde cryptografie toegepast kan worden.</p><p>FRANCAIS</p><p>Dans le cadre de leur mission, les institutions publiques traitent in&eacute;vitablement de grandes quantit&eacute;s de donn&eacute;es &agrave; caract&egrave;re personnel, lesquelles sont parfois tr&egrave;s sensibles. Ce traitement doit &ecirc;tre &agrave; la fois s&ucirc;r et efficace. Malheureusement, les approches traditionnelles, notamment l&#8217;usage de la cryptographie classique, ne sont pas toujours suffisantes.</p><p>Supposons, par exemple, que le SPF Justice demande des informations &agrave; diverses entreprises et institutions publiques &agrave; propos d&#8217;un citoyen dans le cadre d&#8217;un dossier de terrorisme. Toutes les entit&eacute;s interrog&eacute;es sauront ainsi que cette personne fait l&#8217;objet d&#8217;une enqu&ecirc;te, ce qui peut compromettre tant la vie priv&eacute;e du citoyen que la confidentialit&eacute; de l&#8217;enqu&ecirc;te.</p><p>La cryptographie avanc&eacute;e peut offrir une solution &eacute;l&eacute;gante &agrave; ce probl&egrave;me et nous permet m&ecirc;me de r&eacute;aliser des choses qui semblent a priori impossibles. En d&eacute;pit de ce potentiel, les possibilit&eacute;s de la cryptographie avanc&eacute;e sont encore trop peu connues aujourd&#8217;hui.</p><p>L&#8217;objectif de cette s&eacute;ance est donc de vous sensibiliser aux possibilit&eacute;s de la cryptographie avanc&eacute;e pour vous permettre d&#8217;identifier les cas o&ugrave; cette approche peut s&#8217;av&eacute;rer utile. Diff&eacute;rents composants cryptographiques y seront abord&eacute;s en des termes simples. Vous y d&eacute;couvrirez &eacute;galement les travaux &#8211; th&eacute;oriques et pratiques &#8211; que Smals Research a r&eacute;alis&eacute;s en la mati&egrave;re. En outre, des cas potentiels et concrets o&ugrave; la cryptographie avanc&eacute;e peut &ecirc;tre appliqu&eacute;e seront abord&eacute;s.</p>







                <h1 class="wp-block-heading">Presentation</h1>
            
            


            <div data-wp-interactive="core/file" class="wp-block-file">
                <object data-wp-bind--hidden="!state.hasPdfPreview" hidden class="wp-block-file__embed" data="https://www.smalsresearch.be/wp-content/uploads/2019/12/20191205-infosessie-adv-crypto-print.pdf" type="application/pdf" style="width:100%;height:600px" aria-label="Embed of 20191205-infosessie-adv-crypto-print."></object>
                <a id="wp-block-file--media-89b1c604-ff6a-47a5-8a97-0829714bf467" href="https://www.smalsresearch.be/wp-content/uploads/2019/12/20191205-infosessie-adv-crypto-print.pdf">20191205-infosessie-adv-crypto-print</a><a href="https://www.smalsresearch.be/wp-content/uploads/2019/12/20191205-infosessie-adv-crypto-print.pdf" class="wp-block-file__button wp-element-button" download aria-describedby="wp-block-file--media-89b1c604-ff6a-47a5-8a97-0829714bf467">Download</a>
                </div>
            ]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Cryptografische pseudoniemen snellen de GDPR te hulp</title>
		<link>https://www.smalsresearch.be/cryptografische-pseudoniemen-snellen-de-gdpr-te-hulp/</link>
		
		<dc:creator><![CDATA[Kristof Verslype]]></dc:creator>
		<pubDate>Tue, 21 May 2019 05:30:33 +0000</pubDate>
				<category><![CDATA[[NL]]]></category>
		<category><![CDATA[Blog post]]></category>
		<category><![CDATA[cryptography]]></category>
		<category><![CDATA[gdpr]]></category>
		<category><![CDATA[Privacy]]></category>
		<category><![CDATA[Privacy by design]]></category>
		<category><![CDATA[pseudonym]]></category>
		<category><![CDATA[pseudonymisation]]></category>
		<category><![CDATA[Security]]></category>
		<guid isPermaLink="false">/?p=12749</guid>

					<description><![CDATA[Er worden steeds meer persoonsgegevens verwerkt, die dan ook op een afdoende manier beschermd moeten worden. Vaak volstaan de genomen veiligheidsmaatregelen niet en lezen we in de pers over opnieuw een data breach of over het niet respecteren van de privacy. Cryptografische pseudonimisatie is een relatief weinig gekende technologie die dergelijk misbruik een pak moeilijker [&#8230;]]]></description>
										<content:encoded><![CDATA[
<p><strong>Er worden steeds meer persoonsgegevens verwerkt, die dan ook op een afdoende manier beschermd moeten worden. Vaak volstaan de genomen veiligheidsmaatregelen niet en lezen we in de pers over opnieuw een data breach of over het niet respecteren van de privacy. Cryptografische pseudonimisatie is een relatief weinig gekende technologie die dergelijk misbruik een pak moeilijker maakt en ondersteuning biedt om te voldoen aan de GDPR.</strong> &nbsp;&nbsp;&nbsp;</p>



<div class="wp-block-image"><figure class="alignright is-resized"><img loading="lazy" decoding="async" src="/wp-content/uploads/2019/03/mask_full-683x1024.jpg" alt="" class="wp-image-12752" width="249" height="373" srcset="https://www.smalsresearch.be/wp-content/uploads/2019/03/mask_full-683x1024.jpg 683w, https://www.smalsresearch.be/wp-content/uploads/2019/03/mask_full-1024x1536.jpg 1024w, https://www.smalsresearch.be/wp-content/uploads/2019/03/mask_full-200x300.jpg 200w, https://www.smalsresearch.be/wp-content/uploads/2019/03/mask_full-768x1152.jpg 768w, https://www.smalsresearch.be/wp-content/uploads/2019/03/mask_full.jpg 1200w" sizes="auto, (max-width: 249px) 100vw, 249px" /></figure></div>



<p>De GDPR vermeldt nadrukkelijk <strong>pseudonimisatie</strong> als maatregel om persoonsgegevens te beschermen, wat tevens past in het <em>privacy by design</em> principe dat in diezelfde verordening gepromoot wordt. In artikel 32 lezen we er bijvoorbeeld: </p>



<blockquote class="wp-block-quote is-layout-flow wp-block-quote-is-layout-flow"><p>“<em>Rekening houdend met de stand van de techniek, de uitvoeringskosten, alsook met de aard, de omvang, de context en de verwerkingsdoeleinden en de qua waarschijnlijkheid en ernst uiteenlopende risico&#8217;s voor de rechten en vrijheden van personen, treffen de verwerkingsverantwoordelijke en de verwerker passende technische en organisatorische maatregelen om een op het risico afgestemd beveiligingsniveau te waarborgen, die, waar passend, onder meer het volgende omvatten: a)&nbsp; de <strong>pseudonimisering</strong> en versleuteling van persoonsgegevens&nbsp;b)&nbsp;&#8230;</em></p></blockquote>



<p>en in artikel 89:
</p>



<blockquote class="wp-block-quote is-layout-flow wp-block-quote-is-layout-flow"><p>“De verwerking met het oog op archivering in het algemeen belang, wetenschappelijk of historisch onderzoek of statistische doeleinden is onderworpen aan passende waarborgen in overeenstemming met deze verordening voor de rechten en vrijheden van de betrokkene. Die waarborgen zorgen ervoor dat er technische en organisatorische maatregelen zijn getroffen om de inachtneming van het beginsel van minimale gegevensverwerking te garanderen. Deze maatregelen kunnen <strong>pseudonimisering</strong> omvatten, mits aldus die doeleinden in kwestie kunnen worden verwezenlijkt. Wanneer die doeleinden kunnen worden verwezenlijkt door verdere verwerking die de identificatie van betrokkenen niet of niet langer toelaat, moeten zij aldus worden verwezenlijkt. …”</p></blockquote>



<p>Pseudonimisatie
impliceert dat persoonsgegevens niet langer rechtstreeks d.m.v. een
identificatiesleutel zoals het rijksregister gekoppeld kunnen worden aan een
natuurlijk persoon, maar enkel m.b.v. additionele informatie die elders bewaard
wordt. Gepseudonimiseerde persoonsgegevens zijn een nieuwe categorie gegevens
in de privacywetgeving.</p>



<p>Het idee van
pseudonimisatie is dat eenzelfde burger in elke context slechts gekend is onder
het context-specifieke pseudoniem. Persoonsgegevens uit de ene context zijn dus
niet zomaar te koppelen aan gegevens over dezelfde persoon in een andere
context of aan de natuurlijke persoon zelf. Dit maakt misbruik een pak
moeilijker. Een context kan echter heel wat betekenen, zoals blijkt uit
onderstaande voorbeelden.</p>



<ul class="wp-block-list"><li><strong>Online leerplatformen.</strong> Scholen maken in toenemende mate gebruik van online leerplatformen, waar de leerlingen allerlei materiaal ter beschikking krijgen en ook huiswerk maken en testen afleggen. Deze data kan commercieel erg waardevol zijn voor zowel de aanbieder van het platform als voor hackers, zeker als het te koppelen is aan andere informatie van die scholier. Mogelijks bevat het profiel van de leerling medische &#8211; en dus gevoelige &#8211; informatie; Een leerling kan bijvoorbeeld meer tijd krijgen voor een online test omwille van dyslexie. <br>De school moet de leerling natuurlijk wel kunnen identificeren, maar er is geen enkele reden dat ook het online platform dit zou moeten kunnen. We willen niet dat eenzelfde platform over de jaren en vakken heen een erg uitgebreid profiel aan eenzelfde leerling kan koppelen. Per jaar en per vak zou een leerling door het platform slechts gekend kunnen zijn onder een apart pseudoniem, terwijl slechts de school in staat is pseudoniemen van eenzelfde scholier aan elkaar te koppelen. De context is hier dus een vak tijdens een bepaald schooljaar.</li><li><strong>Wetenschappelijke onderzoek.</strong> Geregeld is er in het kader van een specifiek wetenschappelijke onderzoek nood aan een &#8211; rijk of minder rijk – gegevensbestand met bijvoorbeeld specifieke medische gegevens van bepaalde burgers. Een context komt hier overeen met een specifiek onderzoek. Zelfs indien de wetenschappers (of hackers) zouden willen, zijn ze niet in staat op basis van het pseudoniem gegevens van eenzelfde persoon aan elkaar of aan publiek beschikbare gegevens over die burger te koppelen.</li><li><strong>Data warehouse. &nbsp;</strong>Zowat elke overheidsinstelling beheert een specifieke set burgergegevens, wat onder meer kan gaan over pensioen-, medische, professionele of fiscale gegevens. &nbsp;Echter, om zinvolle analyses te kunnen doen moeten vaak gegevens afkomstig van meerdere bronnen &#8211; zoals overheidsinstellingen en medische sensoren &#8211; gekruist (gecombineerd) worden.&nbsp; Om praktische redenen zou geopteerd kunnen worden voor een data warehouse dat alle persoonsgegevens bevat die eventueel ter beschikking gesteld kunnen worden voor analyses of wetenschappelijk onderzoek (zie vorig puntje). Een wetenschapper krijgt dan uiteraard enkel toegang tot die gegevens die strikt noodzakelijk zijn voor het onderzoek in kwestie. Maar indien in dit data warehouse alle gegevens van eenzelfde burger triviaal aan elkaar en aan een natuurlijk persoon gekoppeld kunnen worden – bijvoorbeeld m.b.v. het rijksregisternummer -, ontstaat uiteraard een onaanvaardbaar groot privacyrisico. Daarom zou geopteerd kunnen worden om de gegevens van eenzelfde burger te verspreiden over heel wat verschillende compartimenten in het data warehouse. In het ene compartiment kunnen fiscale gegevens bewaard worden, in een ander basisgegevens zoals geboortedatum, geslacht en woonplaats. Op elk van die compartimenten is eenzelfde burger gekend onder een ander pseudoniem. Slechts wanneer de organisaties en bedrijven die de data aanleveren meewerken, kunnen bepaalde gegevens gekoppeld worden. Elk compartiment is een afzonderlijke context. Het profiel van een burger wordt dus in heel wat stukjes gebroken, die quasi onmogelijk in elkaar gepast kunnen worden door onbevoegden. Bovendien zijn kleinere stukjes sowieso moeilijker aan een natuurlijk persoon te koppelen dan grotere stukken data.</li></ul>



<p>Bovenstaande toepassingen in de praktijk brengen zal al snel vrij omslachtig worden wanneer gebruik gemaakt wordt van traditionele pseudonimisatietechnieken, dus op basis van willekeurig gegenereerde pseudoniemen, cryptografische hashing of (symmetrische of asymmetrische) cryptografische vercijfering. Daarom wordt het best gekeken naar meer geavanceerde cryptografische pseudoniemistatietechnieken. Deze technieken zijn vrij jong en vandaag nog te weinig gekend, maar maken een onwaarschijnlijke flexibiliteit en bescherming mogelijk. </p>



<p>Smals Research was in 2015 een van de eersten die een dergelijk cryptografische pseudonimiseringssysteem <a href="/data-archipelago-and-gdpr/">ontwikkelde en succesvol toepaste</a> in een proof of concept. Ondertussen publiceerden onder meer de <a href="https://eprint.iacr.org/2016/411.pdf">Radboud Universiteit</a> van Nijmegen en het <a href="https://www.researchgate.net/profile/Jan_Camenisch/publication/318125386_Privacy-Preserving_User-Auditable_Pseudonym_Systems/links/5a969ab1aca272140569f0eb/Privacy-Preserving-User-Auditable-Pseudonym-Systems.pdf">onderzoekslab van IBM</a> in Zürich reeds erg waardevolle bijdragen, de eerste op een meer praktisch, de tweede op een meer theoretisch niveau. </p>



<p>Het idee dat telkens terugkomt is dat een natuurlijke persoon in elke context gekend is onder een ander pseudoniem. Met een geheime sleutel worden rijksregisternummers omgezet in pseudoniemen, die eventueel op hun beurt weer omgezet kunnen worden in andere pseudoniemen. De operatie kan dus transitief zijn. Twee verschillende pseudoniemen van eenzelfde persoon kunnen eventueel met de juiste sleutels na hun respectievelijke converties resulteren in één en hetzelfde pseudoniem. Daardoor kan de bijhorende data onder bepaalde condities aan elkaar gekoppeld worden zonder te weten over welke natuurlijke persoon het gaat. Eventueel kan een derde partij een pseudoniem onder bepaalde voorwaarden, bijvoorbeeld na akkoord van de gegevensbeschermingsautoriteit, opnieuw koppelen aan het oorspronkelijke rijksregisternummer. Bovendien kunnen dergelijke systemen transparantie bieden aan – en enkel aan – de betrokken burger. (Ter volledigheid geven we mee dat niet elk pseudoniemsysteem alle in deze paragraaf beschreven eigenschappen bezit.)</p>



<p>De Radboud universiteit heeft i.s.m. de Nederlandse provincie Gelderland reeds een <a href="https://pep.cs.ru.nl/">onderzoeksproject</a> opgezet met een budget van 1,6 miljoen euro. Het project gaat specifiek over het op een privacy-vriendelijke wijze uitwisselen van medische gegevens voor onderzoeksdoeleinden. Er werd reeds succesvol een concrete piloot opgezet, waarbij 650 Parkinson-patiënten over een periode van 2 jaar gevolgd worden en waarbij allerlei gegevens aangeleverd worden door draagbare toestellen (wearable devices).&nbsp;Bovendien <a href="https://www.cs.ru.nl/B.Jacobs/PAPERS/naw5-2017-18-3-168.pdf">zou</a>&nbsp; hun pseudoniem- en encryptiesysteem ondersteund worden door de toekomstige Nederlandse eID kaart.</p>



<p>In al de bovenstaande voorbeelden heeft de betrokken burger geen controle over wat er met zijn rijksregister en pseudoniemen gebeurt. Er zijn echter andere systemen &#8211; <a href="https://dl.acm.org/citation.cfm?id=2728714">Attribute-based credentials</a> &#8211; waarbij de pseudoniemen onder de controle van de burger zelf blijven. De burger kan dan zelf beslissen om zich tegenover verschillende entiteiten kenbaar te maken onder verschillende, onlinkbare pseudoniemen, eventueel gekoppeld aan bepaalde gecertifieerde persoonsgegevens zoals leeftijd. Hier zal in een toekomstige blogpost dieper op ingegaan worden.</p>



<p>Samengevat bieden cryptografische pseudoniemen een krachtig instrument om persoonsgegevens, en daarmee ook de privacy van de betrokkenen, beter te beveiligen. Het is dan ook niet enkel een nuttig, maar op termijn noodzakelijk instrument om toepassingen in overeenstemming te brengen met de GDPR. <br></p>



<p><strong>Aarzel niet ons te contacteren om toepassingen binnen de context van de overheid in België te bespreken!</strong></p>



<p class="has-small-font-size"><em>Dit is een ingezonden bijdrage van Kristof Verslype, IT consultant bij Smals Research. &nbsp;Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.</em></p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Linking Together Personal Data in the Era of Big Data &#038; GDPR</title>
		<link>https://www.smalsresearch.be/data-archipelago-and-gdpr/</link>
		
		<dc:creator><![CDATA[Kristof Verslype]]></dc:creator>
		<pubDate>Wed, 18 Apr 2018 05:00:23 +0000</pubDate>
				<category><![CDATA[[NL]]]></category>
		<category><![CDATA[Blog post]]></category>
		<category><![CDATA[analytics]]></category>
		<category><![CDATA[big data]]></category>
		<category><![CDATA[cryptography]]></category>
		<category><![CDATA[egov]]></category>
		<category><![CDATA[gdpr]]></category>
		<category><![CDATA[Privacy]]></category>
		<category><![CDATA[Privacy by design]]></category>
		<category><![CDATA[pseudonym]]></category>
		<category><![CDATA[Security]]></category>
		<guid isPermaLink="false">/?p=11535</guid>

					<description><![CDATA[In May 2018, the much-discussed GDPR will be enacted. Besides identified data and anonymous data, the European regulation introduces a new category of data, called pseudonymous data. This articles presents an approach, based on cryptographic pseudonyms, that can help governments to become  GDPR compliant more easily in case personal data originating from different sources need to [&#8230;]]]></description>
										<content:encoded><![CDATA[<p>In May 2018, the much-discussed <a href="https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=celex%3A32016R0679" target="_blank" rel="noopener">GDPR</a> will be enacted. Besides identified data and anonymous data, the European regulation introduces a new category of data, called <a href="https://iapp.org/news/a/top-10-operational-impacts-of-the-gdpr-part-8-pseudonymization/" target="_blank" rel="noopener">pseudonymous data</a>. This articles presents an approach, based on cryptographic pseudonyms, that can help governments to become  GDPR compliant more easily in case personal data originating from different sources need to be combined for analysis purposes.</p>
<h1>Introduction</h1>
<p>We focus on the following situation. What if a research team wants to analyse large sets of personal data? Say it needs medical, financial and demographic data of all citizens with a wage of at least € 40.000, born in or after 1990 and who are self-employed as a secondary activity. Data sets managed by different government organizations would need to be linked together. Such requests are common, and any government should be able to answer them. Yet is it possible with due respect for the privacy of citizens in an era of big data?</p>
<p>Before answering this question, let’s first clarify the distinction between the three categories of data defined in the GDPR: Anonymous data, identified data and the new category, pseudonymous data.</p>
<ul>
<li><strong>Anonymous data</strong> can impossibly be linked to a natural person. An example are statistical medical data. The GDPR is not applicable on anonymous data.</li>
<li><strong>Identified data</strong> are linkable to a natural person without additional information. An example are medical records that contain the citizen’s social security number. The GDPR fully applies on identified data.</li>
<li><strong>Pseudonymous data</strong> is linkable to a natural person, but only with extra information that is stored elsewhere. An example are medical records where the citizen’s social security number is replaced by a unique code. The mapping between these codes and the citizens’ social security numbers is stored separately. The GDPR still applies, but some provisions are relaxed. The GDPR encourages the use of pseudonymous data.</li>
</ul>
<p>By replacing identifiers by pseudonyms, we convert identified data into pseudonymous data. However, completely removing the identifiers does not necessarily result in anonymous data and should in many cases still be considered as pseudonymous data. Imagine, for instance, that the medical records contain the social security number, the gender, date of birth, the ZIP code and some medical data, such as the disease the citizen is suffering from. Imagine that only the identifiers are removed. If Bob knows the date of birth, gender and ZIP code of Alice, he is often able to <a href="https://dataprivacylab.org/projects/identifiability/paper1.pdf" target="_blank" rel="noopener">link</a> this de-identified medical record uniquely to Alice, and is, hence, able to learn sensitive medical data about her.</p>
<p>In a traditional approach, the data-delivering government organizations send the required data on a regular basis to a central data warehouse that stores the personal data. Data of the same citizen are trivially linkable to each other. If a research team wants to analyse data, it receives a pseudonymized subset of the data. Although linking of data originating from different sources becomes trivial, the approach comes with several risks:</p>
<ul>
<li>The data-delivering government organizations lose all control over the personal data for which they are still legally accountable. These government organizations have, as data controllers, indeed still responsibilities and duties according to the GDPR. How is it sure that the data are not used for purposes incompatible with the purpose for which they have been initially collected?</li>
<li>In case of a data breach of the data warehouse, the consequences are dramatic, not only for the institution managing the data warehouse, but also for the millions of citizens whose privacy is severely affected. We see indeed that hacking attempts become increasingly professional and that the amount of personal data amassed by organizations and companies explodes. Both aspects contribute to the increase in risk.</li>
<li>Even when pseudonimized, the data entrusted to the research team generally remain sensitive. If these data are stolen or made public, the consequences for citizens’ privacy can still be considerable.</li>
</ul>
<p>Can we do better? Can we use technology to reduce these risks? How well can we protect personal data by using cryptographic pseudonyms? By answering these questions, we also shed light on what future analysis on personal data originating from multiple sources might look like.</p>
<h1>The Data Archipelago &#8211; Central Ideas</h1>
<p>The core idea is to have, instead of one big data warehouse, several &#8216;<em>data islands</em>&#8216; which are maximally isolated. As illustrated in the figure below, we distinguish between the long-term domain islands, with strong isolation, and the short-term project islands, with a somewhat weaker isolation.</p>
<p><a href="/wp-content/uploads/2018/04/archipelago_overview.png"><img decoding="async" class="aligncenter size-large wp-image-11497" src="/wp-content/uploads/2018/04/archipelago_overview-1024x495.png" alt="" width="500" srcset="https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_overview-1024x495.png 1024w, https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_overview-1536x743.png 1536w, https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_overview-300x145.png 300w, https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_overview-768x372.png 768w, https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_overview.png 1581w" sizes="(max-width: 1024px) 100vw, 1024px" /></a></p>
<p><strong>Domain islands.</strong> Each data-providing organization controls its own domain island (or islands) and keeps the contained data up-to-date. It only uploads these personal data to the domain islands that might be made available for data analysis projects. The data in the domain island is, hence, a subset of all the personal data controlled by the government organization. We use two principles to maintain perfect isolation between domain islands:</p>
<ol>
<li><strong>Island-specific pseudonyms</strong>, instead of identifiers, are used for personal data on the domain islands. Different domain islands use a different, unlinkable pseudonym for the same citizen. Only after a procedure in which the involved government organizations give their consent with a secret cryptographic key, data about the same citizen can be linked together, without revealing any identifiers (see later).</li>
<li><strong>Attribute partitions.</strong> There is no overlap between the attributes stored by the domain islands. If domain island A stores your gender, no other domain island will contain it. Hence, If an entity has access to multiple islands, (s)he will be unable to link any of the records to each other based on attributes.</li>
</ol>
<p>Hence, an attacker cannot know whether a record in domain island A and another record in domain island B belong to the same citizen. Only with the proper cryptographic keys, which are controlled and kept secret by the data-providing government organizations, it is possible to do this linking.</p>
<p>Domain islands can be stored in the central data warehouse, or on infrastructure of the controlling government institution. However, the data warehouse should be able to communicate with the domain islands.</p>
<p><strong>Project islands.</strong> For each approved project, personal data originating from different domain islands are selectively linked together and stored on a project island. The project island only contains relevant attributes of the involved citizens. The lifetime of a project island is restricted to the duration of the project. Also, the project islands stay under the exclusive control of the data warehouse. Researchers are allowed to do certain data queries on the project island, but are never allowed to have full access to the raw data. Hence, we bring the calculations to the data instead of the data to the calculations.</p>
<p>Also, for the project islands, isolation is maximized, although at a lower level than the domain islands. We again apply the concept of island-specific pseudonyms. For each (domain or project) island, the same citizen is known under a different pseudonym. Note, however, that based on shared attributes, it might be possible to link records on a project island to other (domain or project) islands. Therefore, it is still important to sufficiently protect the project islands and minimize not only their lifetime, but also the data they store. Maybe the project does not need the exact date of birth, but just an age category.</p>
<p>By applying this approach, we arrive at the situation shown in the figure below. Although records of the same citizen are known by organizations under the same social security number, the citizen’s personal data are known under a different pseudonym on each island.</p>
<p><a href="/wp-content/uploads/2018/04/archipelago_nyms.png"><img decoding="async" class="aligncenter size-large wp-image-11499" src="/wp-content/uploads/2018/04/archipelago_nyms-1024x494.png" alt="" width="500" srcset="https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_nyms-1024x494.png 1024w, https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_nyms-1536x740.png 1536w, https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_nyms-300x145.png 300w, https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_nyms-768x370.png 768w, https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_nyms.png 1581w" sizes="(max-width: 1024px) 100vw, 1024px" /></a></p>
<p>This results in the following properties:</p>
<ul>
<li><strong>Maximal control by organizations.</strong> We give the data-delivering government organizations full control over what happens with their data. They receive a description of the new analysis project and only if it is compatible with the purposes for which it has originally been collected, the data is delivered to the project.</li>
<li><strong>Smaller impact in case of data breach &amp; better privacy.</strong> In case a hacker has access to data in several islands, or in case data are leaked into the public, the damage is limited. Data on the permanent domain islands are in any case unlinkable. The linkability of data on project islands is minimized, by the use of project-specific pseudonyms and by limiting the data on and the lifetime of project islands. This way, we maximize the isolation between the islands, and, hence, the privacy of the citizens. Indeed, the more data of the same citizen you can link, the easier it becomes to identify this person.</li>
</ul>
<h1>Linking records with cryptography</h1>
<p>The use of cryptographic keys is sketched in the figure below. Organizations and islands have keys, which are used to convert identifiers into pseudonyms or pseudonyms into other pseudonyms. Pseudonym conversion is indicated by a dashed line near the corresponding key.</p>
<p><a href="/wp-content/uploads/2018/04/archipelago_keys.png"><img decoding="async" class="aligncenter size-large wp-image-11505" src="/wp-content/uploads/2018/04/archipelago_keys-1024x691.png" alt="" width="500" srcset="https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_keys-1024x691.png 1024w, https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_keys-300x202.png 300w, https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_keys-768x518.png 768w, https://www.smalsresearch.be/wp-content/uploads/2018/04/archipelago_keys.png 1382w" sizes="(max-width: 1024px) 100vw, 1024px" /></a></p>
<p>Each organization has a master key, each domain island has a key per project that it delivers data to, and each project island has one key per domain that it receives data from.</p>
<p>All government organizations in Belgium use the same social security number to identify a citizen. Using their master key, they convert it into a pseudonym that is used on the level of the domain island. Each government institution has its own master key. The same social security number converted with two different master keys results in two different, without the cryptographic keys unlinkable, domain pseudonyms. A subset of the data controlled by the data-providing government organization is sent to the domain island, whereby the social security numbers are replaced by these pseudonyms.</p>
<p>When a project is created, the involved domain islands each obtain a project-specific key, and the project island obtains a domain-specific key per involved domain island. Domain pseudonyms are converted with the project-specific key into unique transfer pseudonyms. When these transfer pseudonyms are received by the project island, they are converted with the domain-specific key into a project pseudonym. The transfer pseudonyms are deleted after the data transfer. Once all data is delivered by the domain islands to the project island, the associated keys in the project and the islands should be removed. The government organizations should, however, maintain their master keys.</p>
<p>By properly choosing the keys in the system, the following properties are achieved:</p>
<ul>
<li>Different domain pseudonyms corresponding to the same citizen are always converted into the same project pseudonym. Hence, different, unlinkable pseudonimized records of personal data received from different domain islands become again linkable on the project island.</li>
<li>Domain pseudonyms of different citizens are converted into different project pseudonyms on the same project island.</li>
<li>The same citizen is known under different, unlinkable pseudonyms on different project islands</li>
</ul>
<p>In summary, a citizen is known under a different, unlinkable pseudonym on each island that contains personal data about him or her.</p>
<h1>An example to illustrate the protocol</h1>
<p>Let’s have a look at the example described in the introduction. A research team wants to analyse large sets of personal data. Say it needs medical, financial and demographic data of all citizens with a wage of at least EURO 40.000, born after 1990 and who are self-employed as a secondary activity. For the moment, we restrict our example to three domain islands and assume that the required personal data are stored in the second and third domain island:</p>
<ul>
<li>The first is the domain island of the National Register (<a href="https://www.ibz.rrn.fgov.be/nl/rijksregister/" target="_blank" rel="noopener">Rijksregister</a>) which contains for each citizen data about date of birth, gender, place of residence, nationality, etc.</li>
<li>The second, the <a href="https://www.nisse.be/en" target="_blank" rel="noopener">RSVZ</a> island, contains data about independents in Belgium, and, hence, knows who is self-employed as secondary activity.</li>
<li>The third one, the <a href="https://www.rsz.fgov.be/en" target="_blank" rel="noopener">RSZ</a> island, has the data about employees, and, hence knows the wage of each citizen.</li>
</ul>
<p>In order to obtain the required data, the following steps, illustrated in the four pictures below, are performed:</p>
<ol>
<li>The project island asks each of the involved domain islands for the relevant pseudonyms. It asks the domain island of the National Register to provide the pseudonyms of all citizens that are born in or after 1990, it asks the RSVZ island to provide pseudonyms of all citizens who are self-employed as secondary activity and it asks the RSZ island for the pseudonyms of citizens who have a salary of at least 40 000 €.</li>
<li>Each of the involved islands retrieves locally the relevant domain pseudonyms, converts them into transfer pseudonyms and sends them to the project island. The project island converts each of the received transfer pseudonyms with the proper key into project pseudonyms. For each involved domain island, the project island now has a separate set of project pseudonyms.</li>
<li>The project island now takes the intersection of the three pseudonym sets, resulting in the set of project pseudonyms of the citizens of which the project islands needs data.</li>
<li>For each domain island of which data are needed, these pseudonyms are again converted into transfer pseudonyms, sent to the domain island, which converts the transfer pseudonyms back into domain pseudonyms.</li>
<li>The domain islands now select for each of the resulting domain pseudonym the relevant data and sends for each of the pseudonyms the relevant data to the project island. Again, the domain pseudonyms are converted into transfer pseudonyms by the domain islands before the data is sent to the project island</li>
<li>Upon receipt of the data records, the transfer pseudonyms are again converted into project pseudonyms. Each received data record now has a project pseudonym. If and only if two data records have the same project pseudonym, they belong to the same citizen and they can be trivially linked.</li>
</ol>
<table border="0">
<tbody>
<tr>
<td><a href="/wp-content/uploads/2018/04/archipelago_protocol_02.png"><img loading="lazy" decoding="async" src="/wp-content/uploads/2018/04/archipelago_protocol_02-300x206.png" alt="" width="300" height="206" /></a><br />
Step 1</td>
<td><a href="/wp-content/uploads/2018/04/archipelago_protocol_03.png"><img loading="lazy" decoding="async" src="/wp-content/uploads/2018/04/archipelago_protocol_03-300x206.png" alt="" width="300" height="206" /></a><br />
Step 2</td>
</tr>
<tr>
<td><a href="/wp-content/uploads/2018/04/archipelago_protocol_04.png"><img loading="lazy" decoding="async" src="/wp-content/uploads/2018/04/archipelago_protocol_04-300x206.png" alt="" width="300" height="206" /></a><br />
Steps 3 and 4</td>
<td><a href="/wp-content/uploads/2018/04/archipelago_protocol_05.png"><img loading="lazy" decoding="async" src="/wp-content/uploads/2018/04/archipelago_protocol_05-300x206.png" alt="" width="300" height="206" /></a><br />
Steps 5 and 6</td>
</tr>
</tbody>
<caption><em>The six steps in the protocol to link data in a project island. A dashed line above a key indicates a cryptographic pseudonym conversion. Click on the figures to enlarge.</em></caption>
</table>
<p>In case data needs to be retrieved from other domain islands, besides the ones of the RSVZ and the RSZ, steps 4,5 and 6 are also executed between the project island and each involved domain island. This way, the project island can also obtain, for instance, medical data.</p>
<p>The proposed approach ensures that the data-providing government organizations maintain maximal control over what happens with the data, since they control the cryptographic keys of their domain islands. The approach also ensures that the domain island does not learn more personal data than strictly necessary.</p>
<p>The presented approach, however, has some drawbacks.</p>
<ul>
<li><strong>Personal data leaks to the domain islands.</strong> In our example, the RSVZ island learns that the pseudonyms received in step 4 belong to people born in 1990 or later with a salary of over 40 000 €. Similarly, the RSZ learns new personal information.</li>
<li><strong>The project island can ask too much data from the domain islands.</strong> In step 4, the domain islands cannot know whether the received pseudonyms belong effectively to the intersection calculated in step 3. This enables the project island to request also data about pseudonyms that are not in the intersection.</li>
</ul>
<p>Both drawbacks can be prevented. We refer to our <a href="https://cryptov.net/docs/Data_Archipelago.pdf" target="_blank">detailed report</a> for more details.</p>
<h1>Conclusions</h1>
<p>In this article, we sketched the main ideas of the <a ref="http://cryptov.net/docs/Data_Archipelago.pdf" target="_blank">Data Archipelago</a>, which we invented three years ago. Since then the concept has only gained importance, especially given the upcoming GDPR. Indeed, this European regulation encourages the use of <a href="https://en.wikipedia.org/wiki/Privacy_by_design" target="_blank" rel="noopener">privacy by design</a>, which is exactly what we did here, as well as the use of pseudonyms. We presented a very specific case, linking together personal data for data analysis purposes, but we are convinced that the use of cryptographic pseudonyms can and should also be applied in many other contexts to better protect the privacy of citizens. In that respect, in the meantime we also came up with a <a href="https://www.slideshare.net/LegalHackersBXL/20170620-meetup-smart-contracts-proof-of-concept-for-prescriptions" target="_blank" rel="noopener">blockchain based prescription processing scheme</a>, that uses one-time pseudonyms to protect not only the privacy of the involved citizens, but also the confidentiality of business information. Unfortunately, the use of cryptographic pseudonyms is less straightforward than traditional approaches, which poses to European governments the challenge of obtaining and developing the right competences.</p>
<p>Several aspects have not been discussed in this introductory article. We didn&#8217;t talk about key generation, re-identification in case of fraud, or less straightforward combinations such as family configurations. We emphasize that for each of these aspects, we have come up with solutions.  </p>
<p><b>Further information</b></p>
<ul>
<li>The content of this article was presented at <a href="https://www.infosecurity.be/?lang=EN" target="_blank" rel="noopener">InfoSecurity Brussels</a> on 25 March 2017. The slides can be downloaded <a href="/publications/document/?docid=177">here</a>.
<li>We wrote a <a href="https://cryptov.net/docs/Data_Archipelago.pdf" target="_blank">scientific document</a> were everything is described in detail.
<li>We also published a more accessible <a href="/download/research_reports/research_note/researchnote_dataarachipel.pdf" target="_blank">report</a> in Dutch.
</ul>
<p>If you have questions or suggestions regarding our approach, feel free to contact us.</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
