<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Security labels &#8211; Smals Research</title>
	<atom:link href="https://www.smalsresearch.be/tag/security-labels/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.smalsresearch.be</link>
	<description></description>
	<lastBuildDate>Thu, 09 Apr 2026 12:23:58 +0000</lastBuildDate>
	<language>en-GB</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://www.smalsresearch.be/wp-content/uploads/2026/01/cropped-cropped-Smals_Research-32x32.png</url>
	<title>Security labels &#8211; Smals Research</title>
	<link>https://www.smalsresearch.be</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Détection et étiquetage de données sensibles</title>
		<link>https://www.smalsresearch.be/detection-et-etiquetage-de-donnees-sen-sibles/</link>
		
		<dc:creator><![CDATA[Fabien A. P. Petitcolas]]></dc:creator>
		<pubDate>Tue, 25 Feb 2025 09:00:00 +0000</pubDate>
				<category><![CDATA[[FR]]]></category>
		<category><![CDATA[Blog post]]></category>
		<category><![CDATA[classification]]></category>
		<category><![CDATA[Data leakage prevention]]></category>
		<category><![CDATA[Security]]></category>
		<category><![CDATA[Security labels]]></category>
		<guid isPermaLink="false">/?p=21971</guid>

					<description><![CDATA[Est-il possible d’évaluer de manière automatique la présence de données sensibles classifiées ?]]></description>
										<content:encoded><![CDATA[
<p><a href="/opsporing-en-labeling-van-gevoelige-gegevens/" data-type="link" data-id="/opsporing-en-labeling-van-gevoelige-gegevens/"><em>Nederlandstalige versie</em></a><a name="_Toc182401051"></a></p>



<p>Le classement en niveaux de sensibilité des données est le pivot sur lequel repose l’ensemble du système de sécurité des données ultérieur. L’objectif d’un système de classement de données est donc d’identifier clairement les informations qui doivent être protégées pour des raisons de sécurité et de fournir des directives adéquates en matière de classement afin que les informations qui n’ont pas besoin d’une telle protection ne soient pas inutilement classées par un système hiérarchique du secret. Une fois les données correctement classées une étiquette de confidentialité peut leur être apposée.</p>



<p>Dans un <a href="/etiquettes-de-confidentialite-pour-mieux-proteger-les-donnees-sensibles/">précédent article</a> nous avons vu des
     techniques permettant de protéger des objets de données sensibles, notamment
     grâce à un étiquetage permettant de décider si ces objets
     peuvent être transmis ou pas d’un système informatique à un autre. Comme nous
     l’avons noté, il existe deux manières principales d’assigner une étiquette de
     confidentialité à un objet&nbsp;:</p>



<ul class="wp-block-list">
<li>Évaluer le contenu même de l’objet de données afin de déterminer les attributs de confidentialité.</li>



<li>Baser les propriétés de confidentialité sur l’origine de l’information présente dans l’objet de données.</li>
</ul>



<p>Malheureusement ce type de solutions ne
     répond pas à la question de savoir si les objets ont été étiquetés correctement
     ou pas, par l’utilisateur ou par le service ayant initié le transfert<a title="" href="#_ftn1" name="_ftnref1"><sup>1</sup></a><strong><sup>,</sup></strong><a title="" href="#_ftn2" name="_ftnref2"><sup>2</sup></a>. </p>



<p>Afin de mitiger les
     risques, une technique fréquente est de scanner les données transférées pour la
     présence de certains mots-clés considérés comme pouvant indiquer du contenu
     classifié selon des niveaux de confidentialité (p. ex., niveaux de classification,
     lieux, nom de projets, acronymes de projets, termes techniques, etc.). Une
     telle technique impose la mise à jour fréquente de la liste des mots-clés et le
     résultat dépend fortement de la qualité de la liste. C’est un travail laborieux
     et d’autant plus difficile dans un contexte où sont interconnectés plusieurs systèmes
     informatiques d’organisations différentes, voire de pays différents.</p>



<p>Alors, est-il possible d’évaluer de manière automatique la présence de données classifiées au sein d’autres données échangées entre deux systèmes informatiques, afin de s’assurer que la politique de sécurité appliquée aux données n’est pas violée&nbsp;?</p>



<h1 class="wp-block-heading"><a name="_Ref175241410"></a>Détection
     simple<a name="_Ref173507674"></a><a name="_Toc182401063"></a></h1>



<p>Les systèmes de prévention de perte ou fuite de données («&nbsp;<em>Data leakage prevention (DLP)</em>&nbsp;» ou «&nbsp;<em>Data loss prevention (DLP)</em>&nbsp;») analysent les flux de données et appliquent des politiques afin de préserver les données sensibles en cours d’utilisation (actions sur les terminaux), en mouvement (trafic réseau), et au repos (stockage de données). En 2015 plus d’une douzaine d’entreprises promouvaient déjà leurs solutions techniques. En 2023, Chugh et al.&nbsp;<a href="#_ref1">[1]</a> en répertoriaient plus d’une trentaine. La sélection n’est pas chose facile car, comme le faisaient remarquer Gugelmann et al.&nbsp;<a href="#_ref2">[2]</a>, les entreprises concernées sont assez réluctantes pour divulguer des informations sur le fonctionnement de leurs produits. Par ailleurs les modèles de menaces ne sont pas toujours clairement définis et varient d’un vendeur à l’autre.</p>



<p>Néanmoins, on peut citer plusieurs
     méthodes d’analyse des données&nbsp;<a href="#_ref3">[3]</a> fréquemment
     utilisées dont&nbsp;:</p>



<ul class="wp-block-list">
<li><strong>Règles d’expressions régulières</strong>&nbsp;: celles-ci supposent des scenarios basés sur des environnements très contrôlés (règles pour détecter des destinataires de courriels erronés ou non nécessaires, règles pour reconnaître des numéros de cartes de crédit, des numéros de passeport, etc.).</li>



<li><strong>Détection d’empreintes</strong>&nbsp;: il s’agit de la recherche de correspondances exactes entre les éléments d’une base de données à inspecter et des éléments fournis pour l’analyse (mots-clés, numéros d’identification spécifiques, etc.).</li>



<li><strong>Correspondance de fichiers</strong>&nbsp;: comparaison des valeurs de hachage cryptographique des fichiers analysés avec une liste donnée.</li>



<li><strong>Analyse statistique&nbsp;</strong>: voir ci-dessous.</li>
</ul>



<h1 class="wp-block-heading">Analyses statistiques</h1>



<p><a name="_Toc182401064"></a><a name="_Ref182401587"></a>L’analyse se révèle plus complexe lorsque l’on considère des
     documents entiers et non plus certains éléments. Dès 2008, Kassidy-Clark&nbsp;<a href="#_ref4">[4]</a> suggérait l’idée d’utiliser des techniques
     d’apprentissage automatique afin d’automatiser le processus d’assignation de
     protection appropriée aux données en fonction de leur sensibilité, afin
     notamment de s’affranchir des limites de la classification manuelle en terme de
     vitesse et de cohérence. En 2010, dans une approche plus pratique, Brown et
     al.&nbsp;<a href="#_ref5">[5]</a> évaluaient l’efficacité des techniques de
     traitement du langage naturel statistique et d’apprentissage automatique pour
     attribuer automatiquement une classification de confidentialité à un document
     non structuré. En utilisant une approche traditionnelle d’apprentissage
     automatique les auteurs pouvaient obtenir une précision de classification de
     80%.</p>



<p>Kongsgård et al.&nbsp;<a href="#_ref6">[6]</a> ont proposé un cadre permettant de
     sécuriser et d’automatiser l’étiquetage des données afin d’offrir un équilibre
     entre justesse des étiquettes de confidentialité et flexibilité du système. L’idée
     est de déduire un grand nombre d’attributs<a title="" href="#_ftn3" name="_ftnref3"><sup>3</sup></a> à partir de l’objet lui-même, des circonstances de l’étiquetage, du
     sujet pour qui l’objet est étiqueté ainsi que de l’environnent dont est issu l’objet.
     Ces attributs sont ensuite utilisés pour déterminer l’étiquette de
     confidentialité à appliquer en fonction d’une politique donnée. Ce cadre peut aussi
     être utilisé pour suggérer à un utilisateur quelles étiquettes appliquer.</p>



<p>En 2017 des chercheurs
     de l’Agence des communications et de l’information de l’OTAN ont proposé un
     processus automatisé pouvant offrir une aide importante à l’examen manuel des
     documents&nbsp;<a href="#_ref7">[7]</a>. Il consiste à fournir un pré-étiquetage
     automatisé des documents, accompagné d’une évaluation des niveaux de confiance
     concernant les étiquettes identifiées avant contrôle manuel par un opérateur. Après
     évaluation de différents outils disponibles dans le domaine public, les auteurs
     concluent que même si les résultats de la classification automatique ne sont
     pas suffisamment précis (bien en dessous de 100% d’exactitude) pour les
     documents de l’OTAN, leur utilisation apporte un soutien non négligeable au personnel
     concerné.</p>



<p>La même année, Alzhrani et al. <a href="#_ref8">[8]</a> utilisent les <a href="https://wikileaks.org/cablegate.html">télégrammes diplomatiques disponibles sur WikiLeaks</a> (dont le niveau de sensibilité est connu) afin de construire des algorithmes de classification automatique et de détecter des comportements malveillants d’employés. La classification est effectuée au niveau des paragraphes de chaque document. En effet, les auteurs font remarquer que quelques caractéristiques peu fréquentes peuvent impacter la classification d’un document entier vers un plus haut niveau de classification et qu’il est erroné de supposer que toutes les portions d’un même document appartiennent au même niveau de sécurité.</p>



<p>Enfin, Frayling et
     al.&nbsp;<a href="#_ref9">[9]</a> affirment que la classification automatique de textes en fonction de leur sensibilité est difficile.
     En effet la sensibilité est souvent due à une bonne connaissance contextuelle
     qui doit être déduite du texte. Ils donnent l’exemple du simple nom d’une
     entité qui, en lui-même, n’est peut-être pas sensible, mais le devient lorsque
     le rôle de l’entité est connu (p. ex., «&nbsp;Marc Dubois&nbsp;» et «
     espion&nbsp;»). Un expert humain peut déduire les sensibilités latentes grâce à
     ses connaissances du domaine dont il est question, mais les classificateurs
     textuels automatiques (entrainés ou pas sur des données contextualisées) ont d’importantes
     limites.</p>



<p>Malgré des progrès
     significatifs, les méthodes statistiques permettant de déterminer de manière
     automatique le niveau de sensibilité d’un objet de données, ne sont pas encore
     suffisamment fiables, mais cela n’empêche pas leur utilisation sous forme de
     recommandation. C’est par exemple ce que propose l’une des sociétés importantes
     du domaine.</p>



<h1 class="wp-block-heading">Exemple d’application pratique<a name="_Ref173154379"></a></h1>



<p>Récemment achetée par Airbus<a title="" name="_ftnref4" href="#_ftn4"><sup>4</sup></a>, la société allemande Infodas est accréditée par l’Union Européenne, le Gouvernement allemand, et l’OTAN au niveau «&nbsp;secret&nbsp;». Sa famille de dispositifs de sécurité matériels appelée «&nbsp;<em>Secure Domain Transition (SDoT)</em>&nbsp;» permet de connecter des systèmes de différents niveaux de classification. Seules les données autorisées à quitter un domaine de niveau de classification élevé peuvent le faire. Les produits SDoT utilisent des filtres (p. ex. expression régulières) pour les données structurées ou des étiquettes de confidentialité qui sont liées cryptographiquement à n’importe quel objet de données.</p>



<p>En particulier l’appareil d’étiquetage «&nbsp;<em>SDoT Labelling Service</em><a name="_ftnref5" title="" href="#_ftn5"><i><b><sup>5</sup></b></i></a>&nbsp;» prend en charge la classification des données sensibles et la vérification des étiquettes (de type XML liées cryptographiquement aux objets protégés). Le service d’étiquetage, disponible sous forme de machine virtuelle ou sous forme d’appareil, permet l’étiquetage des données, compatible avec les accords de normalisation STANAG 4774 et 4778 de l’OTAN (voir <a href="/etiquettes-de-confidentialite-pour-mieux-proteger-les-donnees-sensibles/">article précédent</a>) et peut être intégré aux applications standards de bureautique. L’étiquetage, qui peut être appliqué à tous les documents textuels ainsi qu’aux documents papier numérisés, n’est pas automatique mais des suggestions sont faites à un opérateur qui prend la décision finale.</p>



<h1 class="wp-block-heading">Conclusions</h1>



<p>La protection de données dont le niveau de
     sensibilité est bien défini, est un problème relativement bien compris pour
     lequel des techniques standardisées offrent des solutions efficaces. En revanche,
     malgré des progrès importants pour prévenir les fuites de données, l’évaluation
     automatique du niveau de sensibilité explicite ou latente des données, reste
     encore limitée. La recherche scientifique est peu développée et la plupart des
     outils proposent des mécanismes fondés sur des règles d’expressions régulières.
     Certains ajoutent des méthodes statistiques –&nbsp;apprentissage automatique,
     voire «&nbsp;d’intelligence artificielle&nbsp;»&nbsp;– afin de faciliter la
     tâche du personnel en charge de la classification, mais l’exercice reste en
     grande partie manuel.</p>



<h1 class="wp-block-heading">Références bibliographiques</h1>



<p><a name="_ref1">[1]</a>&nbsp;&nbsp;&nbsp;&nbsp; R. Chugh et A. Bales, «&nbsp;Market
     guide for data loss prevention&nbsp;», Gartner, G00776480, sept. 2023.</p>



<p><a name="_ref2">[2]</a>&nbsp;&nbsp;&nbsp;&nbsp; D.
     Gugelmann, P. Studerus, V. Lenders, et B. Ager, «&nbsp;Can content-based data
     loss prevention solutions prevent data leakage in Web traffic?&nbsp;», 2015.</p>



<p><a name="_ref3">[3]</a>&nbsp;&nbsp;&nbsp;&nbsp; R. Mogull,
     «&nbsp;Understanding and selecting a data loss prevention solution&nbsp;», SANS
     Institute, 2007.</p>



<p><a name="_ref4">[4]</a>&nbsp;&nbsp;&nbsp;&nbsp; K. P. Clark,
     «&nbsp;Automated security classification&nbsp;», Vrije Universiteit, Amsterdam,
     2008.</p>



<p><a name="_ref5">[5]</a>&nbsp;&nbsp;&nbsp;&nbsp; J. D. Brown et
     D. Charlebois, «&nbsp;Security Classification Using Automated Learning (SCALE):
     Optimizing Statistical Natural Language Processing Techniques to Assign
     Security Labels to Unstructured Text&nbsp;», Defence R&amp;D Canada, Technical
     Memorandum TM 2010-215, déc. 2010.</p>



<p><a name="_ref6">[6]</a>&nbsp;&nbsp;&nbsp;&nbsp; K. W.
     Kongsgård, N. A. Nordbotten, et S. Fauskanger, «&nbsp;Policy-based labelling: A
     flexible framework for trusted data labelling&nbsp;», in <i>2015 International
     Conference on Military Communications and Information Systems (ICMCIS)</i>,
     Cracow, Poland: IEEE, mai 2015, p. 1‑10.
     doi: <a href="https://doi.org/10.1109/ICMCIS.2015.7158708" target="_blank" rel="noopnener noopener">10.1109/ICMCIS.2015.7158708</a></p>



<p><a name="_ref7">[7]</a>&nbsp;&nbsp;&nbsp;&nbsp; M. Richter et
     K. Wrona, «&nbsp;Devil in the details: Assessing automated conﬁdentiality
     classiﬁers in context of NATO documents&nbsp;», in <i>Proceedings
     of the First Italian Conference on Cybersecurity (ITASEC17)</i>, Venice, Italy,
     janv. 2017.</p>



<p><a name="_ref8">[8]</a>&nbsp;&nbsp;&nbsp;&nbsp; K. Alzhrani, E.
     M. Rudd, C. E. Chow, et T. E. Boult, «&nbsp;Automated U.S. diplomatic cables
     security classification: Topic model pruning vs. classification based on
     clusters&nbsp;», 7 mars 2017, <i>arXiv</i>: arXiv:1703.02248. Consulté le: 2 août 2024. [En ligne].
     Disponible sur: <a href="https://arxiv.org/abs/1703.02248" target="_blank" rel="noopnener noopener">http://arxiv.org/abs/1703.02248</a></p>



<p><a name="_ref9">[9]</a>&nbsp;&nbsp;&nbsp;&nbsp; E. Frayling, C. Macdonald, G. McDonald, et I. Ounis, «&nbsp;Using entities in knowledge graph hierarchies to classify sensitive information&nbsp;», in <i>Experimental IR<br>     Meets Multilinguality, Multimodality, and Interaction</i>, A. Barrón-Cedeño, G. Da San Martino, M. Degli Esposti, F. Sebastiani, C. Macdonald, G. Pasi, A. Hanbury, M. Potthast, G. Faggioli, et N. Ferro, Éd., in Lecture Notes in Computer Science, vol. 13390. Bologna, Italy: Springer International Publishing, sept. 2022, p. 125‑132. doi: <a href="https://doi.org/10.1007/978-3-031-13643-6_10" target="_blank" rel="noopnener noopener">10.1007/978-3-031-13643-6_10</a></p>



<h1 class="wp-block-heading">Notes</h1>



<p><a title="" href="#_ftnref1" name="_ftn1"><sup>1</sup></a> &nbsp; C’est particulièrement le cas si des plateformes courantes (p.
     ex. Windows) sont utilisées fréquemment.</p>



<p><a title="" href="#_ftnref2" name="_ftn2"><sup>2</sup></a> &nbsp; Le volume des objets à étiqueter pouvant être important (p. ex.,
     données de capteurs), et le format de ceux-ci pouvant être incompatible avec un
     contrôle humain, il n’est pas réaliste d’espérer que chaque étiquetage puisse
     faire l’objet d’une vérification par un utilisateur.</p>



<p><a title="" href="#_ftnref3" name="_ftn3"><sup>3</sup></a> &nbsp; Dans leur système, des modules de collection d’attributs ont
     accès en lecture seule à l’objet ainsi qu’aux attributs déjà renvoyés par d’autres
     modules. Ces modules peuvent contrôler le contenu pour certains mots-clés,
     fournir des attributs sur le sujet demandant accès, etc.</p>



<p><a title="" href="#_ftnref4" name="_ftn4"><sup>4</sup></a> &nbsp; <a href="https://www.airbus.com/en/newsroom/press-releases/2024-03-airbus-to-acquire-infodas-and-strengthen-its-cybersecurity" target="_blank" rel="noopener">https://www.airbus.com/en/newsroom/press-releases/2024-03-airbus-to-acquire-infodas-and-strengthen-its-cybersecurity</a></p>



<p><a title="" href="#_ftnref5" name="_ftn5"><sup>5</sup></a> &nbsp; <a href="https://www.infodas.com/en/products/sdot_cross_domain_solutions/labelling-service-data-classification/" target="_blank" rel="noopener">https://www.infodas.com/en/products/sdot_cross_domain_solutions/labelling-service-data-classification/</a></p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<p><em>Ce post est une contribution individuelle de Fabien A. P. Petitcolas, spécialisé en sécurité informatique chez Smals Research. Cet article est écrit en son nom propre et n&#8217;impacte en rien le point de vue de Smals.</em></p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Opsporing en labeling van gevoelige gegevens</title>
		<link>https://www.smalsresearch.be/opsporing-en-labeling-van-gevoelige-gegevens/</link>
		
		<dc:creator><![CDATA[Fabien A. P. Petitcolas]]></dc:creator>
		<pubDate>Tue, 25 Feb 2025 09:00:00 +0000</pubDate>
				<category><![CDATA[[NL]]]></category>
		<category><![CDATA[Blog post]]></category>
		<category><![CDATA[classification]]></category>
		<category><![CDATA[Data leakage prevention]]></category>
		<category><![CDATA[Security]]></category>
		<category><![CDATA[Security labels]]></category>
		<guid isPermaLink="false">/?p=22005</guid>

					<description><![CDATA[Is het mogelijk om automatisch de aanwezigheid van geclassificeerde gevoelige gegevens te beoordelen?]]></description>
										<content:encoded><![CDATA[
<p><a href="/detection-et-etiquetage-de-donnees-sen-sibles/"><i>Version française</i></a></p>



<p>De classificering in gevoeligheidsniveaus van gegevens is de hoeksteen waarop het hele latere gegevensbeveiligingssysteem rust. Het doel van een classificeringssysteem voor gegevens is dan ook om duidelijk vast te stellen welke informatie om veiligheidsredenen moet worden beschermd en om passende classificeringsrichtlijnen op te stellen, zodat informatie die deze bescherming niet nodig heeft niet onnodig wordt geclassificeerd door een hiërarchisch systeem van geheimhouding. Zodra de gegevens correct geclassificeerd zijn kan een vertrouwelijkheidslabel aangebracht worden.</p>



<p>In een <a href="/vertrouwelijkheidslabels-om-gevoelige-gegevens-beter-te-beschermen/">vorig artikel</a> zagen we de technieken waarmee
 gevoelige <i>data-objects</i> beschermd kunnen worden, namelijk dankzij <i>labeling</i>
 waarmee beslist kan worden of deze <i>objects</i> al dan niet van het ene
 informaticasysteem naar het andere kunnen overgemaakt worden. Zoals we al
 opmerkten bestaan er twee belangrijke manieren om een vertrouwelijkheidslabel
 toe te kennen aan een object.</p>



<ul class="wp-block-list">
<li>De inhoud van het <i>data-object</i> zelf evalueren om de vertrouwelijkheidsattributen te bepalen.</li>



<li>De vertrouwelijkheidskenmerken baseren op de oorsprong van de informatie in het <i>data-object</i>.</li>
</ul>



<p>Spijtig genoeg geeft dit type oplossingen
 geen antwoord op de vraag of de objecten al dan niet correct gelabeld zijn,
 door de gebruiker of door de dienst die de overdracht heeft geïnitieerd<a href="#_ftn1" name="_ftnref1" title=""><sup>1</sup></a><strong><sup>,</sup></strong><a href="#_ftn2" name="_ftnref2" title=""><sup>2</sup></a>. </p>



<p>Om de risico&#8217;s te
 beperken, is een veelgebruikte techniek om de overgedragen gegevens te scannen
 op de aanwezigheid van bepaalde trefwoorden die geacht worden inhoud aan te
 duiden die geclassificeerd is volgens vertrouwelijkheidsniveaus (bv.
 classificatieniveaus, locaties, projectnamen, projectafkortingen, technische
 termen, enz.). Een dergelijke techniek vereist het regelmatig bijwerken van de
 trefwoordenlijst en het resultaat is sterk afhankelijk van de kwaliteit van die
 lijst. Dit is arbeidsintensief werk, en des te moeilijker in een context waarin
 meerdere IT-systemen van verschillende organisaties of zelfs verschillende
 landen met elkaar verbonden zijn.</p>



<p>Is het dus mogelijk om automatisch de aanwezigheid van geclassificeerde gegevens te evalueren binnen andere gegevens die worden uitgewisseld tussen twee IT-systemen, om ervoor te zorgen dat het beveiligingsbeleid dat wordt toegepast op de gegevens niet wordt geschonden?</p>



<h1 class="wp-block-heading">Eenvoudige opsporing<a name="_Ref173507674"></a><a name="_Toc182401063"></a></h1>



<p>Systemen om gegevensverlies of lekken te voorkomen (“<em>Data leakage prevention (DLP)</em>” of “<em>Data loss prevention (DLP)</em>”) analyseren de gegevensstromen en passen de <i>policy’s</i> toe om de gevoelige gegevens tijdens het gebruik (handelingen op terminals), in beweging (netwerkverkeer), en in rust (gegevensopslag) te vrijwaren. In 2015 promootten al meer dan een dozijn ondernemingen hun technische oplossingen. In 2023 toonden Chugh et al.&nbsp;<a href="#_ref1">[1]</a> er al een dertigtal. De selectie was niet gemakkelijk omdat, zoals Gygelmann et al.&nbsp;<a href="#_ref2">[2]</a> opmerkten, de betrokken ondernemingen terughoudend zijn om informatie te verspreiden over de werking van hun producten. De dreigingsmodellen zijn overigens niet altijd duidelijk omlijnd en variëren van de ene verkoper tot de andere.</p>



<p>We kunnen echter meerdere
 methodes voor gegevensanalyse&nbsp;<a href="#_ref3">[3]</a> aanhalen die vaak gebruikt worden:</p>



<ul class="wp-block-list">
<li><strong>Regels voor reguliere expressie</strong>: scenario&#8217;s die gebaseerd zijn op sterk gecontroleerde omgevingen (regels om onjuiste of onnodige e-mailontvangers te detecteren, regels om creditcardnummers, paspoortnummers, etc. te herkennen).</li>



<li><strong>Fingerprint detection</strong>: een zoekopdracht naar exacte overeenkomsten tussen elementen in een database die moet worden geïnspecteerd en elementen die zijn verstrekt voor analyse (trefwoorden, specifieke identificatienummers, enz.).</li>



<li><strong>Matching van bestanden</strong>: vergelijking van de cryptografische hashwaarden van de geanalyseerde bestanden met een bepaalde lijst.</li>



<li><strong>Statistische analyse</strong>: zie hieronder.</li>
</ul>



<h1 class="wp-block-heading">Statistische analyses</h1>



<p><a name="_Toc182401064"></a>De analyse blijkt complexer te zijn wanneer we volledige documenten overwegen en niet langer bepaalde elementen. Al in 2008 opperde Kassidy-Clark&nbsp;<a href="#_ref4">[4]</a> het idee om technieken voor machinaal leren te gebruiken om het proces van het toewijzen van de juiste bescherming aan gegevens op basis van hun gevoeligheid te automatiseren, met name om af te stappen van de beperkingen van handmatige classificatie op het gebied van snelheid en consistentie. In 2010 evalueerden Brown et al., met een meer praktische aanpak,&nbsp;<a href="#_ref5">[5]</a> de effectiviteit van statistische natuurlijke taalverwerking en machinelearning-technieken voor het automatisch toekennen van een vertrouwelijkheidsclassificatie aan een ongestructureerd document. Met behulp van een traditionele machinelearning-benadering waren de auteurs in staat om een classificatienauwkeurigheid van 80% te bereiken.</p>



<p>Kongsgård et al.&nbsp;<a href="#_ref6">[6]</a> hebben een kader voorgesteld om het labelen van gegevens te beveiligen en te automatiseren om een balans te vinden tussen de nauwkeurigheid van vertrouwelijkheidslabels en de flexibiliteit van het systeem. Het idee is om een groot aantal attributen<a name="_ftnref3" title="" href="#_ftn3"><sup>3</sup></a> af te leiden uit het object zelf, de omstandigheden van de <i>labeling</i>, het subject voor wie het object gelabeld is en de omgeving waaruit het object afkomstig is. Deze attributen worden vervolgens gebruikt om te bepalen welk vertrouwelijkheidslabel moet worden toegepast volgens een bepaald beleid. Dit kader kan ook worden gebruikt om aan een gebruiker voor te stellen welke labels toe te passen.</p>



<p>In 2017 stelden
 onderzoekers van het NAVO <i>Communications and Information Agency</i> een
 geautomatiseerd proces voor dat een aanzienlijke ondersteuning zou kunnen
 bieden voor het handmatig beoordelen van documenten&nbsp;<a href="#_ref7">[7]</a>. Het bestaat uit een geautomatiseerde <i>pre-labeling</i>
 van documenten, met een evaluatie van de betrouwbaarheidsniveaus van de
 geïdentificeerde labels vóór een handmatige controle door een operator. Na
 evaluatie van verschillende tools die in het publieke domein beschikbaar zijn,
 concluderen de auteurs dat zelfs als de resultaten van automatische
 classificatie niet voldoende accuraat zijn (ver onder 100% accuraatheid) voor
 NATO-documenten het gebruik ervan een aanzienlijke ondersteuning biedt aan het
 betrokken personeel.</p>



<p>In hetzelfde jaar gebruikten Alzhrani et al. <a href="#_ref8">[8]</a> <a href="https://wikileaks.org/cablegate.html">diplomatieke telegrammen die beschikbaar zijn op WikiLeaks</a> (waarvan het gevoeligheidsniveau bekend is) om de automatische classificatiealgoritmes aan te maken en kwaadwillige gedragingen van werknemers op te sporen. Classificatie wordt uitgevoerd op paragraafniveau van elk document. In feite wijzen de auteurs erop dat een paar weinig voorkomende kenmerken een invloed kunnen hebben op de classificatie van een volledig document naar een hoger classificatieniveau, en dat het verkeerd is om aan te nemen dat alle delen van hetzelfde document tot hetzelfde beveiligingsniveau behoren.</p>



<p>Tot slot bevestigen Frayling et al.&nbsp;<a href="#_ref9">[9]</a> dat het automatisch classificeren van teksten op basis van hun gevoeligheid moeilijk is. Gevoeligheid is vaak het gevolg van een goede contextuele kennis die uit de tekst moet worden afgeleid. Ze geven het voorbeeld van de eenvoudige naam van een entiteit die op zichzelf misschien niet gevoelig is, maar dat wel wordt als de rol van de entiteit bekend is (bv. “Jan Peeters” en “spion”). Een menselijke expert kan latente gevoeligheden afleiden op basis van zijn kennis van het domein in kwestie, maar automatische tekstclassificeerders (al dan niet getraind op gecontextualiseerde gegevens) hebben aanzienlijke beperkingen.</p>



<p>Ondanks aanzienlijke
 vooruitgang zijn statistische methoden voor het automatisch bepalen van het
 gevoeligheidsniveau van een data-object nog niet voldoende betrouwbaar, maar
 dit belet niet dat ze kunnen worden gebruikt in de vorm van aanbevelingen. Dit
 is bijvoorbeeld wat een van de toonaangevende bedrijven op dit gebied
 voorstelt.</p>



<h1 class="wp-block-heading">Voorbeeld van praktische toepassing<a name="_Ref173154379"></a></h1>



<p>Het Duitse bedrijf Infodas is onlangs overgenomen door Airbus<a name="_ftnref4" title="" href="#_ftn4"><sup>4</sup></a> en is geaccrediteerd door de Europese Unie, de Duitse overheid en de NAVO wat betreft “secrecy”.&nbsp;De familie hardwarebeveiligingsapparaten ervan, genaamd <em>Secure Domain Transition</em> (SDoT), maakt het mogelijk om systemen met verschillende classificatieniveaus met elkaar te verbinden. Alleen gegevens die een domein met een hoog classificeringsniveau mogen verlaten, kunnen dat doen. SDoT-producten gebruiken filters (bv. reguliere expressies) voor gestructureerde gegevens of vertrouwelijkheidslabels die cryptografisch gekoppeld zijn aan elk data-object.</p>



<p>De <em>SDoT Labelling Service</em><a name="_ftnref5" title="" href="#_ftn5"><i><b><sup>5</sup></b></i></a> ondersteunt met name de classificatie van gevoelige gegevens en de verificatie van labels (XML-tags die cryptografisch zijn gekoppeld aan beschermde objecten). De <i>labeling-service</i>, beschikbaar als virtuele machine of als <i>appliance</i>, maakt het mogelijk om gegevens te labelen, is compatibel met de NAVO-standaardisatieovereenkomsten STANAG 4774 en 4778 (zie <a href="/vertrouwelijkheidslabels-om-gevoelige-gegevens-beter-te-beschermen/">vorig artikel</a>) en kan worden geïntegreerd in standaard kantoorautomatiseringstoepassingen. Het labelen, dat kan worden toegepast op alle tekstdocumenten en gescande papieren documenten, gebeurt niet automatisch, maar er worden suggesties gedaan aan een operator die de uiteindelijke beslissing neemt.</p>



<h1 class="wp-block-heading">Conclusies</h1>



<p>Het beschermen van gegevens met een goed omlijnd gevoeligheidsniveau is een relatief goed begrepen probleem waarvoor gestandaardiseerde technieken effectieve oplossingen bieden. Ondanks de aanzienlijke vooruitgang in het voorkomen van datalekken, is de automatische evaluatie van de expliciete of latente gevoeligheid van gegevens nog steeds beperkt. Wetenschappelijk onderzoek is nog niet zover gevorderd en de meeste tools bieden mechanismen op basis van reguliere expressieregels. Sommige voegen statistische methoden toe – <i>machine learning</i> of zelfs “artificiële intelligentie” – om de taak van de medewerkers die verantwoordelijk zijn voor de classificatie te vergemakkelijken, maar de oefening blijft grotendeels handmatig.</p>



<h1 class="wp-block-heading">Bibliografische referenties</h1>



<p><a name="_ref1">[1]</a>&nbsp;&nbsp; R. Chugh en A. Bales, ‘Market guide for data
 loss prevention’, Gartner, G00776480, sep. 2023.</p>



<p><a name="_ref2">[2]</a>&nbsp;&nbsp; D. Gugelmann, P.
 Studerus, V. Lenders, en B. Ager, ‘Can content-based data loss prevention
 solutions prevent data leakage in Web traffic?’, 2015.</p>



<p><a name="_ref3">[3]</a>&nbsp;&nbsp; R. Mogull,
 ‘Understanding and selecting a data loss prevention solution’, SANS Institute,
 2007.</p>



<p><a name="_ref4">[4]</a>&nbsp;&nbsp; K. P. Clark,
 ‘Automated security classification’, Vrije Universiteit, Amsterdam, 2008.</p>



<p><a name="_ref5">[5]</a>&nbsp;&nbsp; J. D. Brown en D.
 Charlebois, ‘Security Classification Using Automated Learning (SCALE):
 Optimizing Statistical Natural Language Processing Techniques to Assign
 Security Labels to Unstructured Text’, Defence R&amp;D Canada, Technical
 Memorandum TM 2010-215, dec. 2010.</p>



<p><a name="_ref6">[6]</a>&nbsp;&nbsp; K. W. Kongsgård,
 N. A. Nordbotten, en S. Fauskanger, ‘Policy-based labelling: A flexible
 framework for trusted data labelling’, in <i>2015 International Conference on
 Military Communications and Information Systems (ICMCIS)</i>, Cracow, Poland:
 IEEE, mei 2015, pp. 1-10. doi: <a href="https://doi.org/10.1109/ICMCIS.2015.7158708" target="_blank" rel="noopnener noopener">10.1109/ICMCIS.2015.7158708</a></p>



<p><a name="_ref7">[7]</a>&nbsp;&nbsp; M. Richter en K.
 Wrona, ‘Devil in the details: Assessing automated conﬁdentiality
 classiﬁers in context of NATO documents’, in <i>Proceedings
 of the First Italian Conference on Cybersecurity (ITASEC17)</i>, Venice, Italy,
 jan. 2017.</p>



<p><a name="_ref8">[8]</a>&nbsp;&nbsp; K. Alzhrani, E.
 M. Rudd, C. E. Chow, en T. E. Boult, ‘Automated U.S. diplomatic cables security
 classification: Topic model pruning vs. classification based on clusters’, 7
 maart 2017, <i>arXiv</i>: arXiv:1703.02248. Geraadpleegd: 2 augustus 2024.
 [Online]. Beschikbaar op: <a href="https://arxiv.org/abs/1703.02248" target="_blank" rel="noopnener noopener">http://arxiv.org/abs/1703.02248</a></p>



<p><a name="_ref9">[9]</a>&nbsp;&nbsp; E. Frayling, C.
 Macdonald, G. McDonald, en I. Ounis, ‘Using entities in knowledge graph
 hierarchies to classify sensitive information’, in <i>Experimental IR Meets
 Multilinguality, Multimodality, and Interaction</i>, A. Barrón-Cedeño, G. Da
 San Martino, M. Degli Esposti, F. Sebastiani, C. Macdonald, G. Pasi, A.
 Hanbury, M. Potthast, G. Faggioli, en N. Ferro, Red., in Lecture Notes in
 Computer Science, vol. 13390. Bologna,
 Italy: Springer International Publishing, sep. 2022, pp. 125-132. doi: <a href="https://doi.org/
 10.1007/978-3-031-13643-6_10" target="_blank" rel="noopnener noopener">
 10.1007/978-3-031-13643-6_10</a></p>



<h1 class="wp-block-heading">&nbsp;Noten</h1>



<p><a href="#_ftnref1" name="_ftn1" title=""><sup>1</sup></a> &nbsp; Dat is in het bijzonder het geval wanneer de huidige platformen (bv.
 Windows) frequent gebruikt worden.</p>



<p><a href="#_ftnref2" name="_ftn2" title=""><sup>2</sup></a> &nbsp; Aangezien de hoeveelheid te labelen objecten groot kan zijn (bijv.
 sensorgegevens) en het formaat van deze objecten incompatibel kan zijn met
 menselijke controle, is het onrealistisch om te verwachten dat elk label door
 een gebruiker kan worden gecontroleerd.</p>



<p><a href="#_ftnref3" name="_ftn3" title=""><sup>3</sup></a> In hun systeem hebben modules voor attributenverzameling toegang in <i>read-only-modus</i>
 tot het object en tot attributen die al door andere modules zijn teruggestuurd.
 Deze modules kunnen de inhoud controleren voor bepaalde sleutelwoorden,
 attributen verstrekken over het onderwerp dat om toegang vraagt, enz.</p>



<p><a href="#_ftnref4" name="_ftn4" title=""><sup>4</sup></a> &nbsp; <a href="https://www.airbus.com/en/newsroom/press-releases/2024-03-airbus-to-acquire-infodas-and-strengthen-its-cybersecurity" target="_blank" rel="noopener">https://www.airbus.com/en/newsroom/press-releases/2024-03-airbus-to-acquire-infodas-and-strengthen-its-cybersecurity</a></p>



<p><a href="#_ftnref5" name="_ftn5" title=""><sup>5</sup></a> &nbsp; <a href="https://www.infodas.com/en/products/sdot_cross_domain_solutions/labelling-service-data-classification/" target="_blank" rel="noopener">https://www.infodas.com/en/products/sdot_cross_domain_solutions/labelling-service-data-classification/</a></p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<p><em>Dit is een ingezonden bijdrage van Fabien A. P. Petitcolas, IT-beveiligingsspecialist bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.</em></p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
