(NL) Een synthetische dataset is een fictieve dataset die de kenmerken van een echte dataset zo goed mogelijk nabootst. Een correct samengestelde synthetische dataset kan, omdat het om louter fictieve gegevens gaat, probleemloos gedeeld, hergebruikt of gepubliceerd worden. Zo kan de toegang tot de echte, gevoelige gegevens, tot een minimum herleid worden. Maar in welke mate is zo’n fictieve dataset nog representatief voor de echte data? En wat kan je ermee doen?
In dit webinar gaan we dieper in op het concept van synthetische data en op de praktische bekommernissen die komen kijken bij het aanmaken ervan. We leggen daarbij de focus op tabulaire gegevens zoals we ze kunnen terugvinden in de meeste klassieke databases. Mogelijke toepassingsgebieden voor de overheid zullen worden toegelicht. We leren daarbij dat er geen “1-druk-op-de-knop” oplossing bestaat en dat het vaak nodig is om allerlei extra randvoorwaarden op te leggen, afhankelijk van het type gegevens dat we behandelen en waarvoor we de data willen gebruiken.
Op basis van een experiment met open source componenten en een open dataset, kunnen we aanbevelingen geven om de aanmaak van een synthetische dataset stelselmatig te verbeteren. We gaan in op de afwegingen die daarbij gemaakt moeten worden en we gaan na in welke mate analyses op synthetische data nog representatief zijn voor de onderliggende echte data. Tot slot belichten we kort de commerciële markt, die erg snel evolueert onder invloed van de ontwikkelingen in artificiële intelligentie.
(FR) Un ensemble de données synthétiques est un ensemble de données fictives qui reproduit le plus fidèlement possible les caractéristiques d’un ensemble de données réelles. Un ensemble de données synthétiques correctement constitué peut, comme il s’agit de données purement fictives, être librement partagé, réutilisé ou publié. L’accès aux données sensibles, réelles peut ainsi être limité à un minimum. Mais dans quelle mesure un tel ensemble de données fictives est-il encore représentatif des données réelles ? Et que pouvez-vous en faire ?
Lors de ce webinaire, nous nous pencherons sur le concept de données synthétiques ainsi que sur les préoccupations pratiques qui interviennent dans leur création. Nous nous concentrerons sur les données tabulaires telles qu’elles se trouvent dans la plupart des bases de données classiques.