L’évolution phénoménale des techniques d’apprentissage automatique (« machine learning (ML) ») et, plus généralement « d’intelligence » artificielle (IA) [1], semble avoir atteint son acmé au cours des dernières années avec l’arrivée en force de l’IA générative (« Generative AI (GenAI) ») et l’emblématique « ChatGPT1. » Nonobstant les nombreuses limites de ces techniques et les risques qu’elles posent [2], [3], il existe des applications positives dans de nombreux domaines (p. ex. moteurs de recherche, traduction automatique, annotation automatique d’images, etc.), et l’on peut se demander quel pourrait-être l’apport de ces techniques en cybersécurité.
En fait, les experts en cybersécurité n’ont pas attendu la venue de l’IA générative pour utiliser des techniques d’IA. Mais dans le domaine de la cybersécurité, comme c’est souvent le cas avec d’autres techniques, l’application de l’IA est souvent considérée comme une arme à double tranchant dans la mesure où elle peut être utilisée pour l’attaque aussi bien que pour la défense : d’un côté l’IA permet de mettre au point des attaques de plus en plus sophistiquées, et de l’autre, d’apporter des réponses plus efficaces aux attaques, comme l’amélioration de la détection de menaces et d’anomalies et le soutien opérationnel des analystes en sécurité [4].
L’introduction d’attaques informatiques aidées par l’IA pourrait même ouvrir, selon Renault et al. [5], une nouvelle ère dans la course sécuritaire avec des transformations connues et inconnues des vecteurs d’attaques. Mais bien qu’il ne fasse aucun doute que les adversaires utiliseront ou ont commencé à utiliser l’IA générative, afin de créer des courriels d’hameçonnage plus réalistes et efficaces ou encore pour se faire passer pour d’autres utilisateurs, il n’est pas du tout évident qu’ils pourront utiliser l’IA générative pour lancer des attaques plus sophistiquées ou même créer de nouvelles classes d’attaques.
Quoi qu’il en soit, malgré des améliorations possibles, la prolifération d’annonces concernant l’IA dans le domaine de la cybersécurité (par exemple Crowdstrike2, Google3, Microsoft4, et SentinelOne5 ont récemment annoncé l’emploi d’IA générative dans leurs produits de sécurité) pourrait conduire à de fortes déceptions. Ces déceptions pourraient être accentuées par le fait que la performance ou la précision des systèmes de cybersécurité n’est pas normalisée dans son ensemble, ce qui rend difficile la comparaison de différents systèmes et soulève des questions comme : « Quelle est la meilleure façon d’évaluer, de configurer ou de comparer différents systèmes de cybersécurité ? » ou « Disposons-nous d’une méthodologie universelle pour évaluer la robustesse et la performance dans tous les scénarios ou dans des scénarios différents ? » [6] ou encore « Un système performant sur les données du fabriquant, le sera-t-il autant sur mes propres données ? » Plus prosaïquement, que se cache-t-il réellement derrière le terme d’intelligence artificielle, lorsqu’il est adossé à des produits de cybersécurité ?
La réponse à cette dernière question est loin d’être évidente étant donné le nombre important de techniques très différentes entrant dans le domaine de l’IA. Dans la suite de cet article nous décrivons brièvement ce qui se cache derrière le terme « d’intelligence artificielle » en décrivant quelques techniques de base utilisées en cybersécurité. Dans les articles suivants nous passerons en revue l’utilisation possible de ces techniques pour l’attaque comme pour la défense dans le contexte de la cybersécurité.
Principales techniques d’apprentissage automatique
Au cours de la dernière décennie, l’apprentissage automatique a permis des avancées importantes dans différents domaines, d’abord avec des modèles dit supervisés (on indique à la machine la classe des éléments à apprendre, par exemple telle transaction est frauduleuse ou bénigne), puis non-supervisé (la machine doit découvrir elle-même les différentes classes en fonction des données), l’apprentissage par renforcement (la machine reçoit une forme de récompense lorsqu’elle classifie correctement des informations). La Figure 1 montre les principaux algorithmes d’apprentissage automatique utilisés en cybersécurité.
Apprentissage supervisé
Les modèles d’apprentissage supervisé sont formés à partir de données étiquetées, c’est-à-dire qu’une catégorie est fournie pour chaque élément du jeu de données d’apprentissage. Une catégorie peut être binaire (p. ex. « attaque » ou « bénin ») ou multiple (p. ex. type d’attaque). Cela suppose en amont, un travail manuel coûteux de catégorisation des données. Pour un système de cybersécurité cela implique par exemple que les analystes catégorisent chacune des données qu’ils ont analysées, avec la difficulté supplémentaire qu’il y a en général peu d’exemples d’attaques par rapport aux autres exemples.
L’apprentissage consiste alors à découvrir, à partir des données étiquetées, les caractéristiques liées à chaque catégorie et à construire un modèle pouvant établir avec une certaine probabilité à quelle catégorie appartient un nouvel élément jamais vu lors de l’apprentissage.
Cependant ces systèmes supervisés ne peuvent pas être utilisés pour détecter des types d’attaques qui ne leur sont pas déjà connus. De plus, bien que l’apprentissage supervisé fonctionne particulièrement bien pour la reconnaissance d’objets dans les images, la détection de menaces de cybersécurité présente des difficultés particulières. En effet, comme le font remarquer Apruzzese et al. [8], un échantillon étiqueté comme malicieux dans un certain contexte peut être bénin dans un autre, un échantillon peut être créé spécialement pour ressembler à un échantillon bénin, ou encore un échantillon étiqueté bénin aujourd’hui, peut s’avérer dangereux demain.
Les exemples d’algorithmes d’apprentissage supervisé incluent : les arbres de décision (« decision trees (DT) »), les forêts d’arbres décisionnels (« random forests (RF) »), la classification naïve bayésienne6, les réseaux de neurones artificiels (« neural networks (NN) »)7, les machines à vecteurs de support (« support vector machines (SVM) »), etc.
Apprentissage non-supervisé
Les algorithmes d’apprentissage non-supervisés quant à eux, apprennent les informations et créent des groupes sur la base de l’ensemble des données d’apprentissage, sans connaître la catégorie de chaque donnée. La différence entre l’apprentissage supervisé et l’apprentissage non-supervisé est donc que ce dernier n’a pas d’étiquettes de catégories dans ses données d’apprentissage.
Des exemples d’algorithmes d’apprentissage non-supervisés sont ceux qui tentent de grouper ensemble les échantillons d’un même type, comme le partitionnement en k-moyennes (« k-means ») et la méthode des k plus proches voisins (« k-nearest neighbours (k-NN) »). En dehors du regroupement, l’utilisation plus récente d’auto-encodeurs est une technique assez populaire pour la détection d’anomalies et en particulier d’intrusions (p. ex. [9]).
Un auto-encodeur est composé d’une couche d’entrée (codeur), de plusieurs couches cachées et d’une couche de sortie (décodeur). L’objectif est d’apprendre une représentation comprimée de certaines données d’entrée. Le codeur est utilisé pour mettre en correspondance les données d’entrée dans une représentation cachée, le décodeur est destiné à reconstruire les données d’entrée à partir d’une telle représentation. Un encodeur peut être entraîné avec des données bénignes afin d’apprendre une représentation normale du trafic sur un réseau. Ensuite, pendant la phase de détection, un échantillon est considéré comme anormal si, après son encodage, l’erreur de reconstruction est supérieure à un certain niveau.
Apprentissage semi-supervisé
L’apprentissage semi-supervisé est basé à la fois sur des données étiquetées et des données non étiquetées. Il permet de fournir des classificateurs efficaces qui nécessitent de petites quantités de données étiquetées en exploitant les informations obtenues à partir de grands ensembles de données non étiquetées. De nombreux chercheurs ont constaté que les données non étiquetées, lorsqu’elles sont utilisées en conjonction avec une petite quantité de données étiquetées, peuvent améliorer considérablement la précision de l’apprentissage par rapport à l’apprentissage non supervisé, mais sans le temps et les coûts nécessaires à l’apprentissage supervisé.
Dans l’apprentissage actif [10] par exemple, un algorithme de classification initialement entraîné sur un petit ensemble de données étiquetées (p. ex. « normal, » « rootkit, » « teardrop »8) peut être utilisé pour analyser un grand ensemble de données brutes, puis « suggérer » les échantillons les plus avantageux à étiqueter. Ces échantillons sont sélectionnés grâce à un algorithme non supervisé de détection d’anomalies. Un expert est ensuite consulté pour étiqueter les échantillons présentés et le modèle est mis à jour.
Plusieurs travaux ont proposé des solutions d’apprentissage semi-supervisé dans différents domaines de cybersécurité, que ce soit la détection de logiciels malveillants (p. ex. [12]) ou la détection d’intrusions (p. ex. [13]). Beaucoup de méthodes s’inspirent de la méthode populaire de co-apprentissage [14] proposée à la fin des années 1990.
Apprentissage par renforcement
L’apprentissage par renforcement (« reinforcement learning (RL) »), est basé sur l’essai et l’erreur : un agent autonome apprend à prendre des décisions dans un environnement donné. L’environnement offre une récompense ou pas à l’agent après chaque décisions prise. Les données d’apprentissage dans l’apprentissage par renforcement sont un mélange d’approches supervisées et non-supervisées : au lieu de fournir des données avec l’étiquette correcte, l’algorithme explore les actions jusqu’à ce qu’elles soient correctes.
Malgré l’avantage de l’apprentissage par renforcement qui sait s’adapter à des changements dans l’environnement, il reste une difficulté limitant son utilisation dans la cybersécurité : la définition de la fonction de récompense en particulier dans le domaine de la détection d’intrusions [15], [16].
Apprentissage automatique fédéré
Introduit par McMahan et al. [17], l’apprentissage automatique fédéré (« federated learning ») est une manière distribuée et collaborative de faire de l’apprentissage automatique. Les machines participant à l’apprentissage ne sont pas obligées de partager leurs données et se contentent d’envoyer des modèles appris sur leurs données afin de contribuer à un modèle global qui est le résultat de la combinaison de l’ensemble des modèles locaux9.
D’après Hernández-Ramos et al. [18] l’apprentissage fédéré pourrait jouer un rôle important dans le domaine de la cybersécurité car il pourrait permettre à des organisations distinctes de partager des informations sur les menaces et les attaques de sécurité sans avoir besoin de partager10 leurs données réelles et potentiellement sensibles11. Dans leur analyse, les auteurs soulignent que l’utilisation de l’apprentissage automatique fédéré dans le domaine de la détection d’intrusions a proliféré au cours des dernières années12. Malgré leur coût et leurs limites, les méthodes fédérées supervisées restent les plus couramment étudiées par rapport aux méthodes fédérées non-supervisées.
Modèles massifs de langage
Les modèles massifs de langage (« Large Language Models (LLM) ») sont obtenus par un apprentissage non-supervisé de réseaux de neurones profonds13 entraînés sur de très grandes quantités de textes non étiquetés. On trouve parmi eux les transformeurs14 [20], [21] génératifs pré-entrainés (« generative pre-trained transformers (GPT) ») dont la fonction principale est de prédire de manière statistique le mot suivant dans un passage de texte15. Une description plus détaillée de ces modèles peut être trouvée dans [22].
Les applications de ces modèles à la cybersécurité sont encore limitées car peu d’entre elles utilisent du texte et des données dans un langage naturel. Cependant, un aspect intriguant de ces modèles massifs de langage est l’hypothèse contestée selon laquelle ils exhiberaient des capacités émergentes, qui « ne sont pas présentes dans les modèles à plus petite échelle, mais qui sont présentes dans les modèles à grande échelle » [23], [24]. On peut donc se poser la question si ces capacités émergentes pourraient inclure la cybersécurité.
Une approche permettant de bénéficier des architectures des LLM est d’utiliser des transformeurs et d’autres aspects architecturaux des LLM, et de pré-entraîner le modèle sur des données de sécurité. Bien que les transformeurs soient surtout connus pour leur résultat dans le traitement des langages naturels, ils peuvent également être considérés pour la détection d’intrusions (p. ex. [25]).
Étant donné les avancées récentes des modèles génératifs, il est très probable qu’ils seront beaucoup étudiés dans les années qui viennent pour le développement de détection d’intrusions.
Conclusions
L’intérêt pour les techniques d’IA dans le domaine de la sécurité est évident, ne serait-ce qu’au vu du nombre important de publications, des articles de revue de littérature sur le sujet et des produits de cybersécurité se targuant de leur emploi.
Cependant, s’il ne fait aucun doute que l’IA est utile pour analyser des données existantes, les résultats donnés sont, comme nous l’avons vu, par construction, basés sur les données déjà observées. Par conséquent, même si les progrès impressionnants de l’IA peuvent le laisser imaginer, il reste encore à prouver que l’IA a des capacités créatrices suffisantes lui permettant de détecter des nouveaux vecteurs d’attaques sans requérir à l’expertise et l’intuition humaine. De plus, l’évaluation d’un risque dépend de nombreux facteurs parfois difficilement quantifiables comme le contexte géopolitique ou socio-économique.
L’IA doit donc être considérée comme une étape dans l’évolution de la sécurité, plutôt que comme une révolution complète. Comme nous le verrons dans un prochain article, elle joue un rôle dans l’amélioration des pratiques de sécurité, mais ne doit pas remplacer entièrement l’intervention humaine et la prise de décision.
Références
[1] N. Fatès, « Que faire de l’expression intelligence artificielle ? », Alliage : Culture-Science-Technique, nov. 2023, [En ligne]. Disponible sur: https://inria.hal.science/hal-04282291/document
[2] M. Brundage et al., « The malicious use of artificial intelligence: forecasting, prevention and mitigation », févr. 2018.
[3] C. Villani, « Donner un sens à l’intelligence artificielle – Pour une stratégie nationale et européenne », mars 2018. [En ligne]. Disponible sur: https://www.vie-publique.fr/rapport/37225-donner-un-sens-lintelligence-artificielle-pour-une-strategie-nation
[4] M. Taddeo, T. McCutcheon, et L. Floridi, « Trusting artificial intelligence in cybersecurity is a double-edged sword », Nat Mach Intell, vol. 1, no 12, p. 557‑560, nov. 2019, doi: 10.1038/s42256-019-0109-1.
[5] K. Renaud, M. Warkentin, et G. Westerman, « From ChatGPT to HackGPT: Meeting the cybersecurity threat of generative AI », MIT Sloan Management Review, 18 avril 2023.
[6] D. Dasgupta, Z. Akhtar, et S. Sen, « Machine learning in cybersecurity: a comprehensive survey », Journal of Defense Modeling & Simulation, vol. 19, no 1, p. 57‑106, janv. 2022, doi: 10.1177/1548512920951275.
[7] G. Apruzzese et al., « The role of machine learning in cybersecurity », Digital Threats, vol. 4, no 1, p. 1‑38, mars 2023, doi: 10.1145/3545574.
[8] G. Apruzzese, P. Laskov, et A. Tastemirova, « SoK: The impact of unlabelled data in cyberthreat detection », in 2022 IEEE 7th European Symposium on Security and Privacy (EuroS&P), juin 2022, p. 20‑42. doi: 10.1109/EuroSP53844.2022.00010.
[9] Y. Mirsky, T. Doitshman, Y. Elovici, et A. Shabtai, « Kitsune: An ensemble of autoencoders for online network intrusion detection ». arXiv, 27 mai 2018. Consulté le: 26 octobre 2023. [En ligne]. Disponible sur: http://arxiv.org/abs/1802.09089
[10] K. Yang, J. Ren, Y. Zhu, et W. Zhang, « Active learning for wireless IoT intrusion detection », IEEE Wireless Commun., vol. 25, no 6, p. 19‑25, déc. 2018, doi: 10.1109/MWC.2017.1800079.
[11] « KDD Cup 1999 Data ». Consulté le: 8 décembre 2023. [En ligne]. Disponible sur: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
[12] J. Koza, M. Krčál, et M. Holeňa, « Two semi-supervised approaches to malware detection with neural networks », présenté à Information technologies – Applications and theory (ITAT), 2020.
[13] L. Sun, Y. Zhou, Y. Wang, C. Zhu, et W. Zhang, « The effective methods for intrusion detection with limited network attack data: multi-task learning and oversampling », IEEE Access, vol. 8, p. 185384‑185398, 2020, doi: 10.1109/ACCESS.2020.3029100.
[14] A. Blum et T. Mitchell, « Combining labeled and unlabeled data with co-training », in Proceedings of the eleventh annual conference on Computational learning theory, Madison Wisconsin USA: ACM, juill. 1998, p. 92‑100. doi: 10.1145/279943.279962.
[15] E. Bertino, M. Kantarcioglu, C. G. Akcora, S. Samtani, S. Mittal, et M. Gupta, « AI for security and security for AI », in Proceedings of the Eleventh ACM Conference on Data and Application Security and Privacy, Virtual Event USA: ACM, avr. 2021, p. 333‑334. doi: 10.1145/3422337.3450357.
[16] M. Lopez-Martin, B. Carro, et A. Sanchez-Esguevillas, « Application of deep reinforcement learning to intrusion detection for supervised problems », Expert Systems with Applications, vol. 141, p. 112963, mars 2020, doi: 10.1016/j.eswa.2019.112963.
[17] H. B. McMahan, E. Moore, D. Ramage, et S. Hampson, « Communication-efficient learning of deep networks from decentralized data », Proceedings of machine learning research, p. 1273‑1282, avr. 2017.
[18] J. L. Hernández-Ramos et al., « Intrusion detection based on federated learning: a systematic review ». arXiv, 18 août 2023. Consulté le: 17 octobre 2023. [En ligne]. Disponible sur: http://arxiv.org/abs/2308.09522
[19] E.-M. El-Mhamdi et al., « On the impossible safety of large AI models ». arXiv, 9 mai 2023. Consulté le: 17 octobre 2023. [En ligne]. Disponible sur: http://arxiv.org/abs/2209.15259
[20] A. Vaswani et al., « Attention is all you need », Advances in neural information processing systems, vol. 30, 2017.
[21] T. Lin, Y. Wang, X. Liu, et X. Qiu, « A survey of transformers », AI Open, vol. 3, p. 111‑132, 2022, doi: 10.1016/j.aiopen.2022.10.001.
[22] B. Vanhalst, « Un propre système de questions/réponses basé sur des modèles de langue | Smals Research », Smals Research Blog. Consulté le: 17 octobre 2023. [En ligne]. Disponible sur: https://www.smalsresearch.be/un-propre-systeme-de-questions-reponses-base-sur-des-modeles-de-langue/[23] J. Wei et al., « Emergent abilities of large language models ». arXiv, 26 octobre 2022. Consulté le: 9 novembre 2023. [En ligne]. Disponible sur: http://arxiv.org/abs/2206.07682
[24] R. Schaeffer, B. Miranda, et S. Koyejo, « Are Emergent Abilities of Large Language Models a Mirage? » arXiv, 22 mai 2023. Consulté le: 9 novembre 2023. [En ligne]. Disponible sur: http://arxiv.org/abs/2304.15004
[25] Z. Wu, H. Zhang, P. Wang, et Z. Sun, « RTIDS: A Robust Transformer-Based Approach for Intrusion Detection System », IEEE Access, vol. 10, p. 64375‑64387, 2022, doi: 10.1109/ACCESS.2022.3182333.
Notes
1 https://www.smalsresearch.be/1-an-chatgpt/
2 https://www.crowdstrike.com/blog/crowdstrike-introduces-charlotte-ai-to-deliver-generative-ai-powered-cybersecurity/
3 https://cloud.google.com/blog/products/identity-security/rsa-introducing-ai-powered-investigation-chronicle-security-operations
4 https://www.microsoft.com/en-us/security/business/ai-machine-learning/microsoft-security-copilot
5 https://www.sentinelone.com/blog/purple-ai-empowering-cybersecurity-analysts-with-ai-driven-threat-hunting-analysis-response/
6 Le terme naïf est lié au fait que la méthode suppose une forte indépendance des caractéristiques utilisées.
7 Il existe beaucoup de types de réseaux de neurones artificiels, notamment les réseaux à propagation avant (FFNN) – dont le fameux perceptron multicouche – les réseaux convolutifs (CNN), et les réseaux récurrents (RNN).
8 Ces étiquettes et plusieurs autres sont utilisées dans le jeu de données KDD-99 [11], très populaire dans la recherche sur la détection d’intrusions.
9 Bien que les types de modèles locaux puissent être différents chez chaque participant, peu de travaux considèrent cette possibilité. De plus, la plupart des travaux utilisent une moyenne pondérée pour la mise à jour du modèle central, et ne peuvent prendre en compte correctement l’hétérogénéité des données et des appareils.
10 Cette incitation au partage va dans le sens de la réglementation européenne en matière de cybersécurité qui rend obligatoire le signalement des incidents de cybersécurité.
11 Soulignons néanmoins que la sécurité de ces modèles fédérés est contestée [19].
12 Le nombre de publications sur le sujet est passé de moins de 5 en 2018 à plus de 150 en 2022.
13 C’est-à-dire un réseau de neurones avec au moins deux couches successives de neurones.
14 Bien que le terme ne soit pas repris dans les dictionnaires de français, il est utilisé dans la littérature scientifique francophone.
15 On constate que, si le modèle est suffisamment grand, non seulement la grammaire des langues humaines peut être apprise, mais aussi le sens des mots, la connaissance commune et la logique primitive. Et si l’on donne par exemple le fragment de phrase « Le chat de mon voisin est » à un modèle, il y a beaucoup plus de chance qu’il prédise « gris » ou « maigre » que « néerlandophone, » bien que ces trois mots soient des adjectifs. De même, en fournissant une phrase complète on peut s’attendre à ce que le modèle prédise une phrase cohérente pour la suivre.
_________________________
Ce post est une contribution individuelle de Fabien A. P. Petitcolas, spécialisé en sécurité informatique chez Smals Research. Cet article est écrit en son nom propre et n’impacte en rien le point de vue de Smals.
Leave a Reply