Document

4.1 MiB
673 Downloads
Details
Fake it till you make it - an introduction to synthetic data

Slides van de webinar voor Smals Academy op 01/12/2022 (texte français : voir ci-dessous)

Een synthetische dataset is een fictieve dataset die de kenmerken van een echte dataset zo goed mogelijk nabootst. Een correct samengestelde synthetische dataset kan, omdat het om louter fictieve gegevens gaat, probleemloos gedeeld, hergebruikt of gepubliceerd worden. Zo kan de toegang tot de echte, gevoelige gegevens, tot een minimum herleid worden. Maar in welke mate is zo’n fictieve dataset nog representatief voor de echte data? En wat kan je ermee doen?

In dit webinar gaan we dieper in op het concept van synthetische data en op de praktische bekommernissen die komen kijken bij het aanmaken ervan. We leggen daarbij de focus op tabulaire gegevens zoals we ze kunnen terugvinden in de meeste klassieke databases. Mogelijke toepassingsgebieden voor de overheid zullen worden toegelicht. We leren daarbij dat er geen “1-druk-op-de-knop” oplossing bestaat en dat het vaak nodig is om allerlei extra randvoorwaarden op te leggen, afhankelijk van het type gegevens dat we behandelen en waarvoor we de data willen gebruiken.

Op basis van een experiment met open source componenten en een open dataset, kunnen we aanbevelingen geven om de aanmaak van een synthetische dataset stelselmatig te verbeteren. We gaan in op de afwegingen die daarbij gemaakt moeten worden en we gaan na in welke mate analyses op synthetische data nog representatief zijn voor de onderliggende echte data. Tot slot belichten we kort de commerciële markt, die erg snel evolueert onder invloed van de ontwikkelingen in artificiële intelligentie.


Un ensemble de données synthétiques est un ensemble de données fictives qui reproduit le plus fidèlement possible les caractéristiques d'un ensemble de données réelles. Un ensemble de données synthétiques correctement constitué peut, comme il s'agit de données purement fictives, être librement partagé, réutilisé ou publié. L'accès aux données sensibles, réelles peut ainsi être limité à un minimum. Mais dans quelle mesure un tel ensemble de données fictives est-il encore représentatif des données réelles ? Et que pouvez-vous en faire ?

Lors de ce webinaire, nous nous pencherons sur le concept de données synthétiques ainsi que sur les préoccupations pratiques qui interviennent dans leur création. Nous nous concentrerons sur les données tabulaires telles qu'elles se trouvent dans la plupart des bases de données classiques.
Nous présenterons les domaines d'application possibles pour le gouvernement. Nous verrons ainsi qu'il n'existe pas de solution miracle et qu'il s'agit souvent de poser diverses conditions préalables supplémentaires, selon le type de données que nous traitons et l'usage que nous voulons en faire.

Sur la base d'une expérience menée avec des composants open source et un lot de données ouvert, nous pourrons émettre des recommandations pour améliorer systématiquement la création d'un ensemble de données synthétiques. Nous aborderons les éléments à considérer dans ce processus et verrons dans quelle mesure les analyses basées sur des données synthétiques sont représentatives des données réelles sous-jacentes. Enfin, nous présenterons brièvement le marché commercial, qui évolue à une vitesse vertigineuse sous l'influence des développements de l'intelligence artificielle.

Languages:English
Author:Joachim Ganseman
Category:Presentation
Date:2022/12
Platforms:Windows
License:CC Attribution-NonCommercial-ShareAlike
Keywords:Synthetic Data, Artificial Intelligence, Analytics
Download:Download