Data scrambling: synthetische data in de praktijk

In dit artikel kijken we naar de praktische bekommernissen als we tools voor synthetische data inzetten: wat komt een data professional die hiermee aan de slag moet zoal tegen? Continue reading
In dit artikel kijken we naar de praktische bekommernissen als we tools voor synthetische data inzetten: wat komt een data professional die hiermee aan de slag moet zoal tegen? Continue reading
Isabelle Boydens(*), Isabelle Corbesier(**) et Gani Hamiti(**) (*) Data Quality Expert, Research Team (**) Data Quality Analyst, Databases Team La problématique de la qualité des données (ou “fitness for use“, adéquation aux usages) est maintenant reconnue au plan international comme … Continue reading
Isabelle Boydens(*), Gani Hamiti(**), Rudy Van Eeckhout(***) (*) Data Quality Expert, Research Team (**) Data Quality Analyst, Databases Team (***) Databases R&D, Databases Team En 2019, nous annoncions un Proof of Concept relatif à la mise en place ultérieure d’un … Continue reading
Dans notre article précédent, nous présentions les difficultés que nous avons rencontrées dans notre tentative de géocoder (convertir une adresse en coordonnées géographiques, et standardiser cette adresse) avec Nominatim, le géocodeur d’OpenStreetMap. Nous avons aussi évoqué qu’en modifiant légèrement les … Continue reading
Pour divers clients, nous avons été à la recherche d’une solution permettant de nettoyer (standardiser) des adresses postales, principalement en Belgique. Nous avions besoin d’une solution « on-premise », idéalement en Open-Source. Nous avons voulu construire une solution basée sur … Continue reading
E-discovery is een algemene term voor technieken en software waarmee men informatie wil ontdekken in grote hoeveelheden heterogene documenten. Typische contexten waarin e-discovery wordt toegepast zijn gerechtelijke onderzoeken, onderzoeksjournalistiek, audits, of aanvragen in het kader van wetten op openbaarheid van bestuur. Continue reading
Dans notre article précédent, nous présentons une méthode permettant de mesurer et visualiser l’importance des valeurs rares dans une liste de données où l’on s’attend à une grande redondance, souvent signes d’un problème de qualité. La méthode en question se … Continue reading
Des données, à partir du moment où elles vivent et sont alimentées, souffrent presque systématiquement de problèmes de qualité. Le domaine de la Qualité des données (Data Quality) est vaste, très actif tant dans le monde académique qu’industriel. Il y … Continue reading
Cet article de blog a pour objet d’introduire le concept d’ATMS (Anomalies & Transactions Management System) : après en avoir montré l’importance fondamentale dans le cadre du « back tracking » récemment évoqué dans un article de blog de mai 2018, nous en … Continue reading
« Data is the New Gold » : voici une citation que l’on a maintes fois vue et entendue quand il s’agit de parler de science des données ou d’intelligence artificielle. Ce blog se concentre sur les données non structurées et textuelles et … Continue reading