Typologie des anomalies, un cadre pour l’action : le cas du machine learning

La qualité d’une donnée désigne son adéquation aux usages et objectifs visés (« fitness for use ») (Boydens, 1999, Boydens 2014). Dans cet article nous allons voir comment une typologie rigoureuse des anomalies offre un cadre pour l’amélioration de la qualité des données, dans de nombreux domaines, dont le machine learning. Continue reading

Honey, I scraped the kids – over taalmodellen en privacy

Through the looking glass

De datasets die ten grondslag liggen van enorme taalmodellen zijn zonder veel poespas gescraped van het internet. Een korte zoektocht naar persoonsgebonden gegevens hierin, brengt al snel heel wat boven water. Continue reading

Machine Learning : data quality challenges in the scope of a “fitness for use” (ULB, 18/05/22, 14h, on line)

La prochaine journée FNRS “Analyse critique et amélioration de la qualité de l’information numérique” aura lieu le 18 mai de 14h à 15h30 en mode on line.    Le thème cette année, « Apprentissage automatique (ML) : les challenges de la qualité … Continue reading

E-discovery to the rescue

E-discovery is een algemene term voor technieken en software waarmee men informatie wil ontdekken in grote hoeveelheden heterogene documenten. Typische contexten waarin e-discovery wordt toegepast zijn gerechtelijke onderzoeken, onderzoeksjournalistiek, audits, of aanvragen in het kader van wetten op openbaarheid van bestuur. Continue reading

AI en desinformatie

brain wash cartoon

Het (private) onderzoekslab OpenAI publiceerde kort geleden een van hun laatste resultaten: ze zijn er in geslaagd om relatief realistisch uitziende teksten te genereren van enkele paragrafen lang, gegeven een eerste zin. Ze namen tegelijk de opmerkelijke beslissing hun code … Continue reading