« Synthetic Data » - Webinar by Smals Research (december 01,2022)

“Fake it till you make it” : une introduction aux données synthétiques


(Nederlandstalige tekst : zie onder)

Un ensemble de données synthétiques est un ensemble de données fictives qui reproduit le plus fidèlement possible les caractéristiques d'un ensemble de données réelles. Un ensemble de données synthétiques correctement constitué peut, comme il s'agit de données purement fictives, être librement partagé, réutilisé ou publié. L'accès aux données sensibles, réelles peut ainsi être limité à un minimum. Mais dans quelle mesure un tel ensemble de données fictives est-il encore représentatif des données réelles ? Et que pouvez-vous en faire ?
 
Lors de ce webinaire, nous nous pencherons sur le concept de données synthétiques ainsi que sur les préoccupations pratiques qui interviennent dans leur création. Nous nous concentrerons sur les données tabulaires telles qu'elles se trouvent dans la plupart des bases de données classiques.
Nous présenterons les domaines d'application possibles pour le gouvernement. Nous verrons ainsi qu'il n'existe pas de solution miracle et qu'il s'agit souvent de poser diverses conditions préalables supplémentaires, selon le type de données que nous traitons et l'usage que nous voulons en faire.
 
Sur la base d'une expérience menée avec des composants open source et un lot de données ouvert, nous pourrons émettre des recommandations pour améliorer systématiquement la création d'un ensemble de données synthétiques. Nous aborderons les éléments à considérer dans ce processus et verrons dans quelle mesure les analyses basées sur des données synthétiques sont représentatives des données réelles sous-jacentes. Enfin, nous présenterons brièvement le marché commercial, qui évolue à une vitesse vertigineuse sous l'influence des développements de l'intelligence artificielle.
 

Slides et recording

Les slides et l’enregistrement du webinaire sont désormais disponibles :

 
Les webinaires de Smals Research sont gratuits et destinés aux collaborateurs de Smals et du secteur public. L'intention est de présenter les résultats du travail de Smals Research sur l'utilisation des nouvelles technologies dans le secteur public.  Abonnez-vous à la liste de diffusion Smals Research Newsletter & Webinars via le site web smalsresearch.be.

“Fake it till you make it”: een introductie tot synthetische data

Een synthetische dataset is een fictieve dataset die de kenmerken van een echte dataset zo goed mogelijk nabootst. Een correct samengestelde synthetische dataset kan, omdat het om louter fictieve gegevens gaat, probleemloos gedeeld, hergebruikt of gepubliceerd worden. Zo kan de toegang tot de echte, gevoelige gegevens, tot een minimum herleid worden. Maar in welke mate is zo’n fictieve dataset nog representatief voor de echte data? En wat kan je ermee doen?
 
In dit webinar gaan we dieper in op het concept van synthetische data en op de praktische bekommernissen die komen kijken bij het aanmaken ervan. We leggen daarbij de focus op tabulaire gegevens zoals we ze kunnen terugvinden in de meeste klassieke databases. Mogelijke toepassingsgebieden voor de overheid zullen worden toegelicht. We leren daarbij dat er geen “1-druk-op-de-knop” oplossing bestaat en dat het vaak nodig is om allerlei extra randvoorwaarden op te leggen, afhankelijk van het type gegevens dat we behandelen en waarvoor we de data willen gebruiken.
 
Op basis van een experiment met open source componenten en een open dataset, kunnen we aanbevelingen geven om de aanmaak van een synthetische dataset stelselmatig te verbeteren. We gaan in op de afwegingen die daarbij gemaakt moeten worden en we gaan na in welke mate analyses op synthetische data nog representatief zijn voor de onderliggende echte data. Tot slot belichten we kort de commerciële markt, die erg snel evolueert onder invloed van de ontwikkelingen in artificiële intelligentie.
 

Slides en recording

Slides en recording van de webinar zijn nu beschikbaar:

 
De webinars van Smals Research zijn gratis en bestemd voor medewerkers van de publieke sector en Smals. Bedoeling is de onderzoeksresultaten van Smals Research naar het gebruik van nieuwe en recente technologieën in de publieke sector kenbaar te maken.  Inschrijven in de distributielijst Smals Research Nieuwsbrief & Webinars, kan via smalsresearch.be.


.

Leave a Reply

Your email address will not be published. Required fields are marked *