<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>bias &#8211; Smals Research</title>
	<atom:link href="https://www.smalsresearch.be/tag/bias/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.smalsresearch.be</link>
	<description></description>
	<lastBuildDate>Thu, 09 Apr 2026 12:23:17 +0000</lastBuildDate>
	<language>en-GB</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://www.smalsresearch.be/wp-content/uploads/2026/01/cropped-cropped-Smals_Research-32x32.png</url>
	<title>bias &#8211; Smals Research</title>
	<link>https://www.smalsresearch.be</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>AI en desinformatie</title>
		<link>https://www.smalsresearch.be/ai-en-desinformatie/</link>
		
		<dc:creator><![CDATA[Joachim Ganseman]]></dc:creator>
		<pubDate>Mon, 18 Mar 2019 10:22:33 +0000</pubDate>
				<category><![CDATA[[NL]]]></category>
		<category><![CDATA[Blog post]]></category>
		<category><![CDATA[Artificial intelligence]]></category>
		<category><![CDATA[bias]]></category>
		<category><![CDATA[big data]]></category>
		<category><![CDATA[Machine Learning]]></category>
		<category><![CDATA[Open Source]]></category>
		<category><![CDATA[Security]]></category>
		<category><![CDATA[Society]]></category>
		<guid isPermaLink="false">/?p=12788</guid>

					<description><![CDATA[Het (private) onderzoekslab OpenAI publiceerde kort geleden een van hun laatste resultaten: ze zijn er in geslaagd om relatief realistisch uitziende teksten te genereren van enkele paragrafen lang, gegeven een eerste zin. Ze namen tegelijk de opmerkelijke beslissing hun code en model niet openbaar te maken, omdat die dan te gemakkelijk en te snel te [&#8230;]]]></description>
										<content:encoded><![CDATA[
<p>Het (private) onderzoekslab OpenAI publiceerde kort geleden <a href="https://blog.openai.com/better-language-models/">een van hun laatste resultaten</a>: ze zijn er in geslaagd om relatief realistisch uitziende teksten te genereren van enkele paragrafen lang, gegeven een eerste zin. Ze namen tegelijk de opmerkelijke beslissing hun code en model niet openbaar te maken, omdat die dan te gemakkelijk en te snel te misbruiken zou zijn. Zowel <a href="https://www.fast.ai/2019/02/15/openai-gp2/">experten</a> als <a href="https://www.theverge.com/2019/2/14/18224704/ai-machine-learning-language-models-read-write-openai-gpt2">media</a> hebben daar uitvoerig over bericht. Dat is immers ongebruikelijk: de AI-onderzoekswereld heeft een zodanig lange geschiedenis van hoogdravende claims die achteraf gebaseerd bleken op selectieve data, fouten in de code of <em>wishful thinking</em>, dat het openlijk publiceren van code en data omwille van de reproduceerbaarheid de norm is. </p>



<p>Met AI wordt al langer geprobeerd om realistische dingen te produceren die nauwelijks van de echte te onderscheiden zijn. Denk aan het genereren van de speelomgevingen in videospellen, of het maken van realistische uitziende landschappen in fantasy-films. Daarmee blijven we nog in een context waarvan iedereen weet dat ze virtueel is. Je mag je echter gerust ongemakkelijk beginnen voelen bij deze: iedere keer dat je naar <a href="https://thispersondoesnotexist.com/">thispersondoesnotexist.com</a> surft, krijg je een volledig AI-gegenereerd fotorealistisch gezicht te zien. Het fenomeen van “deepfakes”, waarbij iemands hoofd in een video kan worden vervangen, is een uitloper in dezelfde zin.</p>



<div class="wp-block-image"><figure class="aligncenter"><img fetchpriority="high" decoding="async" width="558" height="325" src="/wp-content/uploads/2019/03/Nicholas-cage-deepfake.gif" alt="" class="wp-image-12798"/><figcaption>Voorbeeld van een &#8220;deepfake&#8221;: een ander gezicht zo goed als naadloos op een stukje film gemonteerd.</figcaption></figure></div>



<p>Genereren van realistische teksten en foto’s: je beseft onmiddellijk dat dit een handige tool kan zijn voor scammers, die met betere valse profielen en berichten gemakkelijker iemand kunnen oplichten. Plots moet je al goed gaan opletten om er niet in te trappen. The Verge beëindigde <a href="https://www.theverge.com/tldr/2019/2/15/18226005/ai-generated-fake-people-portraits-thispersondoesnotexist-stylegan">hun artikel daarover</a> onheilspellend: “dit is slechts de beleefde introductie tot wat ons nog te wachten staat…”. Een objectievere risico-analyse wordt gegeven in <a href="https://maliciousaireport.com/">dit lijvige rapport van enkele universiteiten.</a></p>



<p>Maar laat ons vooral zelf eens in detail kijken naar zo’n stukje gegenereerde tekst van OpenAI:</p>



<blockquote class="wp-block-quote is-layout-flow wp-block-quote-is-layout-flow"><p>Gimli was a tall and powerful man, and he had a beard and a moustache. He was also a dwarf, and he had a strong build, and he was covered in tattoos. He was not a man who looked like a hobbit.</p></blockquote>



<p>Daaruit blijkt:<br></p>



<ul class="wp-block-list"><li>De grammatica is nagenoeg perfect.</li><li>De thematiek blijft behouden over de zinnen heen.</li><li>De inhoud van de zinnen is echter niet altijd onderling consistent.</li><li>Stilistisch is het wat slordig: veel in herhaling vallen.</li></ul>



<p>Tekstgeneratoren bestaan al langer, van bijvoorbeeld <a href="https://pdos.csail.mit.edu/archive/scigen/">academische papers</a> of <a href="https://sebpearce.com/bullshit/">new-age bullshit</a> . Waar de teksten die daar uit komen nog eerder samenraapsels zijn van jargon, vraagt de output van het OpenAI-model toch al een aandachtiger lezing om te beseffen dat er iets niet klopt. Er is ook al langer een merkelijke<a href="https://tweakers.net/nieuws/134907/internetfraude-nam-in-2017-met-vijftig-procent-toe-in-belgie.html"> stijging in het aantal mensen dat zich laat vangen</a> door oplichters die er in slagen steeds realistischer, soms sterk gepersonaliseerde, berichten te sturen. Ook complottheorieën en kwakzalverij vinden steeds meer weerklank. En hoewel <a href="https://www.icfj.org/sites/default/files/2018-07/A%20Short%20Guide%20to%20History%20of%20Fake%20News%20and%20Disinformation_ICFJ%20Final.pdf">hoaxes van alle tijden&nbsp;zijn</a>, staat desinformatie met politieke doeleinden de laatste jaren in het middelpunt van de aandacht onder de noemer <em>fake news.</em></p>



<div class="wp-block-image"><figure class="aligncenter is-resized"><img decoding="async" src="/wp-content/uploads/2019/03/scam-fedex-cropped_anonymized.jpg" alt="" class="wp-image-12803" width="580" height="438" srcset="https://www.smalsresearch.be/wp-content/uploads/2019/03/scam-fedex-cropped_anonymized.jpg 660w, https://www.smalsresearch.be/wp-content/uploads/2019/03/scam-fedex-cropped_anonymized-300x227.jpg 300w" sizes="(max-width: 580px) 100vw, 580px" /><figcaption>Steeds realistischer uitgevoerde of gepersonaliseerde phishing mails dragen bij aan de stijging van het aantal oplichtingen via internet. </figcaption></figure></div>



<p>Daarom is het nuttig om eens te reflecteren over wat dit kan betekenen in de nabije toekomst. Is normale kritische zin binnenkort nog wel voldoende om echt van vals te onderscheiden? En wat is daarbij rol van de grote gratis online platformen, <a href="https://gizmodo.com/i-cut-the-big-five-tech-giants-from-my-life-it-was-hel-1831304194">die ons online leven beheersen?</a></p>



<h2 class="wp-block-heading">Spear phishing</h2>



<p><em>Spear phishing</em> is een gepersonaliseerde vorm van phishing waarbij de aanvaller een welbepaald doelwit viseert en zijn aanval personaliseert voor dat doelwit. Het heeft weinig zin om te proberen paswoorden te achterhalen via een Belfius-phishingmail als het doelwit klant is bij Axa. Traditioneel gebeurt <em>spear phishing</em> op kleine schaal en worden vooral mensen in belangrijke posities geviseerd (bvb <a href="https://www.trustwave.com/en-us/resources/blogs/trustwave-blog/here-is-an-email-thread-of-an-actual-ceo-fraud-attack/">CEO fraude</a>). Het is immers nodig om zoveel mogelijk gegevens te verzamelen over het slachtoffer om de aanval te doen lukken, en dat was vooralsnog langdurig manueel werk.</p>



<p>De grootschalige adoptie van sociale media maakt het mogelijk om zulke gepersonaliseerde aanvallen op grotere schaal uit te voeren. Iemands profiel en berichten van Twitter, Facebook, LinkedIn, Instagram, &#8230; downloaden en analyseren op thematiek, plaatsnamen, likes etc. kan allemaal volautomatisch. Exact dezelfde technologie wordt al lang gebruikt om je gepersonaliseerde advertenties voor te schotelen op allerlei websites. Een scammer hoeft hetzelfde concept maar toe te passen op phishing mails &#8211; wat de geloofwaardigheid dusdanig zou kunnen verhogen dat het soms al <a href="https://www.techrepublic.com/article/why-phishing-remains-a-critical-cyber-attack-vector/">laser phishing</a> wordt genoemd.</p>



<div class="wp-block-image"><figure class="aligncenter"><img decoding="async" width="600" height="365" src="/wp-content/uploads/2019/03/fake-profiles-9.png" alt="" class="wp-image-12894" srcset="https://www.smalsresearch.be/wp-content/uploads/2019/03/fake-profiles-9.png 600w, https://www.smalsresearch.be/wp-content/uploads/2019/03/fake-profiles-9-300x183.png 300w" sizes="(max-width: 600px) 100vw, 600px" /><figcaption>Een verzameling valse profielen, compleet met profielfoto, biografie en foto&#8217;s. Afbeelding (c)  https://heimdalsecurity.com/blog/fake-facebook-scams/ </figcaption></figure></div>



<p>Een lichtpunt is wel dat spamfilters en scamdetectoren ook van AI gebruik kunnen maken om dit alles te gaan bestrijden. In die zin spelen we nog altijd een spelletje spammer vs. spamfilter waarbij beide partijen met gelijke wapens strijden. Enkel, met AI gebeurt dat vandaag wel allemaal op een hoger niveau.</p>



<h2 class="wp-block-heading">Desinformatie</h2>



<p>Bij discussies over desinformatie, al dan niet in relatie tot vrije meningsuiting, hanteert men best een strikte definitie en wijkt men daar niet van af. Voor het gemak adopteer ik die van het <a href="https://ec.europa.eu/commission/publications/action-plan-disinformation-commission-contribution-european-council-13-14-december-2018_en">actieplan tegen desinformatie van de Europese Commissie</a>: desinformatie is <em>verifieerbaar foute info</em>, met als <em>doel om te misleiden of te profiteren, ten koste van de gemeenschap</em>. Afwijkende of extreme meningen over politiek, wetenschap, ethiek of moraal vallen daar niet onder, evenmin als opiniestukken, satire, parodie, lobbying, campagnevoeren, het selectief presenteren van informatie, of religie.</p>



<p>Waar moeten we op voorbereid zijn als daar AI aan toegevoegd wordt? Niet noodzakelijk de automatische creatie van fake news zelf – voor de beste resultaten komt daar vooralsnog <a href="https://www.bbc.co.uk/news/resources/idt-sh/the_godfather_of_fake_news">manueel werk bij kijken</a> – maar eerder de verspreiding of het automatisch kunnen “hypen” van fake news eens dat gecreëerd is. <a href="https://en.wikipedia.org/wiki/Astroturfing">Astroturfing,</a> het opzetten van valse grassrootsbewegingen, waar vroeger nog mensen voor werden ingezet (clickfarms in lageloonlanden), kan nu goedkoper en gemakkelijker met een legertje bots.</p>



<div class="wp-block-image"><figure class="alignleft is-resized"><img loading="lazy" decoding="async" src="/wp-content/uploads/2019/03/brain_Wash_cartoon.png" alt="brain wash cartoon" class="wp-image-12898" width="199" height="254" srcset="https://www.smalsresearch.be/wp-content/uploads/2019/03/brain_Wash_cartoon.png 535w, https://www.smalsresearch.be/wp-content/uploads/2019/03/brain_Wash_cartoon-235x300.png 235w" sizes="auto, (max-width: 199px) 100vw, 199px" /><figcaption>Als foute info maar vaak genoeg herhaald wordt&#8230;</figcaption></figure></div>



<p>Stel dat iemand tienduizend artikeltjes kan genereren over een bepaalde stelling, en die publiceert op duizenden blogs en (realistisch uitziende) socialemedia-accounts. Dan zijn er misschien maar enkele die coherent en realistisch genoeg lijken, maar dat is op zich genoeg om opgepikt en gedeeld te worden door andere gebruikers, eventueel de mainstream media te halen, en zo uiteindelijk een<a href="https://comprop.oii.ox.ac.uk/"> plaats te veroveren in de publieke opinie</a>. Zo dreigt de verspreiding van moeizaam bekomen echte feiten bedolven te worden onder lawines van gefabriceerde berichtgeving waarvan de inhoud en de bron nauwelijks te verifiëren zijn.</p>



<p>In de strijd voor de aandacht van de consument en de burger is er bewijs dat zulke tactieken in opmars zijn. Naar aanleiding van de <a href="https://rationalwiki.org/wiki/RT">Russische desinformatiecampagnes</a> met betrekking tot de <a href="https://www.europarl.europa.eu/RegData/etudes/BRIE/2015/571339/EPRS_BRI%282015%29571339_EN.pdf">Oekraïnecrisis</a> of de <a href="https://academic.oup.com/ia/article/94/5/975/5092080">crash van vlucht MH17</a> richtte de EU al in 2015 een <a href="https://euvsdisinfo.eu/">observatorium voor desinformatie</a> op. Het is geweten dat sommige <a href="https://theconversation.com/whatsapp-skewed-brazilian-election-proving-social-medias-danger-to-democracy-106476">verkiezingen </a>of <a href="https://www.telegraph.co.uk/technology/2018/10/17/russian-iranian-twitter-trolls-sent-10-million-tweets-fake-news/">referenda </a>op die manier beïnvloed worden, door binnenlandse en buitenlandse actoren.</p>



<h2 class="wp-block-heading">Amplificatie door selectie en aanbeveling</h2>



<p>Een versterkende factor is daarbij dat de selectie van de nieuwsberichten en persartikels die we zien, al jarenlang grotendeels aangestuurd wordt door AI. Net zoals de aanbevelingen op Youtube, Netflix en Spotify, zit er een<a href="https://en.wikipedia.org/wiki/Recommender_system"> </a><em><a href="https://en.wikipedia.org/wiki/Recommender_system">recommender system</a></em> achter vele nieuwswebsites, met als hoogste doel: je zo lang mogelijk op de website houden, zodat je zoveel mogelijk reclame-inkomsten opbrengt. Het bieden van een divers aanbod past niet bij die doelstelling: Spotify zal je geen klassieke muziek voorschotelen als je al een half uur naar rock aan het luisteren bent “voor een gezonde afwisseling”, integendeel, ze geven je meer van hetzelfde opdat je zeker zou blijven luisteren.</p>



<div class="wp-block-image"><figure class="alignright is-resized"><img loading="lazy" decoding="async" src="/wp-content/uploads/2019/03/jpmorgan-titanic.png" alt="" class="wp-image-12897" width="281" height="157" srcset="https://www.smalsresearch.be/wp-content/uploads/2019/03/jpmorgan-titanic.png 640w, https://www.smalsresearch.be/wp-content/uploads/2019/03/jpmorgan-titanic-300x169.png 300w" sizes="auto, (max-width: 281px) 100vw, 281px" /><figcaption>Gekke samenzweringstheoriën zitten bij de eerste resultaten die gebruikers zien bij zoekopdrachten over bvb de nationale bank.</figcaption></figure></div>



<p>Zeker in het geval van Youtube is <a href="https://www.nytimes.com/2018/03/10/opinion/sunday/youtube-politics-radical.html">herhaaldelijk </a><a href="https://www.theatlantic.com/politics/archive/2018/03/youtube-extremism-and-the-long-tail/555350/">aangetoond </a>hoe hun algoritme je binnen de kortste keren samenzweringsvideo’s serveert, en zo <a href="https://www.nbcnews.com/think/opinion/forget-facebook-youtube-videos-are-radicalizing-millions-young-people-company-ncna916341">radicalisering </a>of <a href="https://www.buzzfeednews.com/article/carolineodonovan/down-youtubes-recommendation-rabbithole">desinformatiecampagnes </a>in de hand werkt en zelfs promoot. Iemand die er info opzoekt over de nationale bank, <a href="https://twitter.com/chrislhayes/status/1037831503101579264">hoort sneller over illuminati</a> dan over het bruto binnenlands product. Ook kinderen die op zoek zijn naar <a href="https://www.businessinsider.com/youtube-suggested-conspiracy-videos-to-children-using-its-kids-app-2018-3?op=1&amp;r=US&amp;IR=T">achtergrondinfo voor hun huiswerk</a>, zijn daar niet tegen beschermd.</p>



<p>Herinner je dat het objectief van sociale media is om je op hun site te houden. Objectieve of nuttige inhoud helpen daarbij niet; opruiende, provocerende of sensationele inhoud des te meer. Die laatsten worden dan ook proportioneel meer weergegeven en eindigen uiteindelijk hoger in de zoekresultaten waardoor ze nog gemakkelijker aanbevolen worden: een zichzelf versterkend feedbacksysteem dat er voor zorgt dat uiteindelijk het extreme mainstream wordt. Een van de duidelijkste voorbeelden van<a href="https://ajph.aphapublications.org/doi/10.2105/AJPH.2018.304567"> deze dynamiek</a> is misschien wel het <a href="https://edition.cnn.com/2019/02/16/health/anti-vaccine-movement-history-pushback-intl/index.html">huidige succes</a> van de <a href="https://www.politico.eu/article/how-anti-vax-went-viral/">antivaccinatielobby</a>.  </p>



<p>Vorig jaar werd er nog gesteld dat fake news weliswaar <a href="https://www.nytimes.com/2018/01/02/health/fake-news-conservative-liberal.html">wijdverspreid was, maar relatief weinig impact</a> had. Met systemen die geloofwaardiger teksten en argumenten kunnen genereren voor foutieve stellingen, in combinatie met aanbevelingsalgoritmes die de extremen bevoordelen, zou die impact wel eens sterk kunnen vergroten. De grote platformen zetten slechts na grote publieke druk <a href="https://www.theverge.com/2019/1/25/18197301/youtube-algorithm-conspiracy-theories-misinformation">nu pas de eerste stapjes</a> in het tegengaan van deze dynamiek.</p>



<h2 class="wp-block-heading">Verweer tegen de zwarte kunsten</h2>



<h3 class="wp-block-heading">Voor techies en AI-bedrijven</h3>



<p>Aan de technische kant groeit de aandacht voor <em>governance</em>, vrij vertaald als &#8220;goed beheer&#8221;, waarbij vaak het acronym FATE gehanteerd wordt, voor Fairness, Accountability, Transparency and Ethics. Doel is om ontwikkeling, uitrol en beheer van AI-systemen te toetsen op deze kwaliteiten. De laatste jaren worden <a href="https://fatconference.org/">specifieke conferenties</a> ingericht over het onderwerp, wat goede fora zijn om over de laatste nieuwe voorstellen of best practices te leren. De grote spelers geven er alvast aandacht aan: o.a. <a href="https://aif360.mybluemix.net/">IBM </a>en <a href="https://ai.google/research/teams/brain/pair">Google </a>werken aan tools om bvb. oneerlijke bias in datasets te detecteren. Die laatste heeft ook <a href="https://ai.google/static/documents/perspectives-on-issues-in-ai-governance.pdf">richtlijnen ontwikkeld</a> rond AI governance. Voor alle AI-ontwikkelaars is dat ongetwijfeld een goede oefening om te herhalen.</p>



<p>Wat betreft accountability is <a href="https://en.wikipedia.org/wiki/Explainable_artificial_intelligence">Explainable AI</a> een belangrijk onderwerp. Met name bij <em>deep learning</em> is het moeilijk om te achterhalen waarom een AI-system een bepaalde conclusie heeft bereikt: het aantal parameters en het trainingsproces is gewoon te groot om nog overzichtelijk te zijn. Nu AI steeds meer ingang vindt in het dagelijks leven en vragen rond <a href="https://weaponsofmathdestructionbook.com/">rechtvaardigheid </a> en <a href="https://www.theatlantic.com/technology/archive/2018/03/can-you-sue-a-robocar/556007/">aansprakelijkheid </a>zich beginnen stellen, wordt de &#8220;waarom&#8221;-vraag plots belangrijk. Pasklare oplossingen zijn er echter nog niet en het veld en de beschikbare tools staan nog in hun kinderschoenen.</p>



<p>De strijd tegen desinformatie gebeurt momenteel vooral manueel, bvb. met <a href="https://www.snopes.com/">fact-checking websites</a> of het inhuren van <a href="https://www.poynter.org/fact-checking/2018/facebook-expands-fact-checkers%C2%92-ability-to-debunk-false-photos-and-videos/">moderatoren</a>. De (gedeeltelijke) automatisering van dit proces is nog niet ver gevorderd: pogingen om fake news met AI te detecteren geven <a href="https://www.forbes.com/sites/charlestowersclark/2018/10/04/can-ai-put-an-end-to-fake-news-dont-be-so-sure">gemengde </a><a href="https://www.technologyreview.com/s/612236/even-the-best-ai-for-spotting-fake-news-is-still-terrible/">resultaten</a>. Hier zijn dus nog opportuniteiten voor wie nog een nuttig AI-project zoekt, en ook meer analyses naar de <a href="https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4761868/">reikwijdte en impact</a> zijn zeker welkom.</p>



<h3 class="wp-block-heading">Voor burger en consument</h3>



<div class="wp-block-image"><figure class="alignleft is-resized"><img loading="lazy" decoding="async" src="/wp-content/uploads/2019/03/weaponsmath-r4-6-06-683x1024.jpg" alt="Een aan te raden boek voor wie meer wil weten over de risico's van slecht beheerde AI" class="wp-image-12917" width="220" height="330" srcset="https://www.smalsresearch.be/wp-content/uploads/2019/03/weaponsmath-r4-6-06-683x1024.jpg 683w, https://www.smalsresearch.be/wp-content/uploads/2019/03/weaponsmath-r4-6-06-200x300.jpg 200w, https://www.smalsresearch.be/wp-content/uploads/2019/03/weaponsmath-r4-6-06-768x1152.jpg 768w, https://www.smalsresearch.be/wp-content/uploads/2019/03/weaponsmath-r4-6-06.jpg 800w" sizes="auto, (max-width: 220px) 100vw, 220px" /><figcaption>Een aan te raden boek voor wie meer wil weten over de risico&#8217;s van slecht beheerde AI</figcaption></figure></div>



<p>Profiling bestaat en is zelfs courant. Wie bij de bank om een lening vraagt zal sowieso allerlei gegevens moeten opgeven die de bank zal gebruiken om een risico-analyse te maken voordat ze een kredietvoorstel doet. Maar niets houdt de bank echter tegen om daarnaast ook eens stiekem te kijken naar de publieke inhoud van je sociale media. Wees je er van bewust dat <strong>alles wat je daarop zet kan gebruikt worden door vriend én vijand</strong>. Een dure hobby, vaak ziek, of problemen op het werk? Een bank zou het uit je sociale media kunnen afleiden en dat gebruiken om je een hogere rente aan te rekenen. (Dit is een fictief voorbeeld, ik weet ook niet of het legaal zou zijn, maar het is alleszins technisch wel mogelijk.)</p>



<p>(Sociale) media bepalen ook wat je te zien krijgt op basis van dat profiel, qua advertenties en/of inhoud. <strong>Wat jij ziet online is niet wat iemand anders ziet.</strong> De gepersonaliseerde aanbevelingen van webwinkels zoals Amazon zijn daarvan een goede illustratie. Op die manier zit iedereen op zulke platformen in zijn eigen <a href="https://en.wikipedia.org/wiki/Echo_chamber_(media)"><em>filter bubble</em></a>, maar dat wordt niet zo aan je voorgesteld. Hou in het achterhoofd dat jouw doel om juiste, relevante, objectieve informatie te vinden, fundamenteel verschilt van het doel van een internetplatform, namelijk winst maken.</p>



<p>Hoe bescherm je jezelf tegen valse informatie, scams of manipulatie? Ten eerste, <strong>bronnen checken</strong> en voorrang geven aan de kwalitatieve variant, gaande van goede journalistiek tot peer-reviewed wetenschap. Die zijn ook niet perfect, maar zijn gemiddeld genomen alleszins veel betrouwbaarder dan een willekeurige blogger of influencer op Twitter of Instagram. Ten tweede, het cultiveren van een attitude van<strong> </strong><a href="https://alumni.berkeley.edu/california-magazine/just-in/2017-10-19/antidote-fake-news-investigations-lab-teaches-digital"><strong>Digitaal Skepticisme</strong></a> t.o.v. alles was je leest en ziet op het internet, zelfs als het afkomstig is van vrienden of familie. Paranoia is niet nodig, maar je wil waarschijnlijk wel vermijden om als &#8220;nuttige idioot&#8221; <a href="https://www.vrt.be/vrtnws/nl/2019/02/26/neen-hanne-decoutere-is-niet-ontslagen-dit-is-akelig-fake-news/">mee te werken aan verspreiding van foute informatie.</a></p>



<h3 class="wp-block-heading">Voor beleidsmakers en overheid</h3>



<p>Besef is ook voor politici en beleidsmakers belangrijk. Als mensen met beslissingsbevoegdheid zijn zij bij de eersten die geviseerd worden door actoren met slechte bedoelingen. Ook zij zijn vatbaar voor selectieve informatie, en kunnen te maken krijgen met gerichte manipulatie of grootschalige (geautomatiseerde) <a href="https://www.ft.com/content/af4f8d28-0489-11e9-99df-6183d3002ee1">desinformatiecampagnes</a>. De reikwijdte van sociale media is hen waarschijnlijk welbekend, maar de verschillende manieren waarop de <em>informatieoorlog</em> gevoerd kan worden misschien nog niet. In dat licht is het <a href="https://www.diplomatie.gouv.fr/en/french-foreign-policy/manipulation-of-information/article/joint-report-by-the-caps-irsem-information-manipulation-a-challenge-for-our">rapport van het Franse ministerie van defensie</a> over het onderwerp verplichte lectuur.</p>



<p><a href="https://ec.europa.eu/digital-single-market/en/news/european-artificial-intelligence-landscape">Verschillende landen</a> kwamen al met strategische plannen voor AI over de brug, ook in <a href="https://www.ai4belgium.be/">België zijn&nbsp;er&nbsp;initiatieven</a>. De impact daarvan zal wel beperkt blijven als de aanbevelingen niet gepaard gaan met de nodige investeringen. We moeten daarbij breder denken dan investeringen in de technologie, en ook onderzoek naar de maatschappelijke impact financieren. Het <a href="https://www.vrt.be/vrtnws/nl/2018/05/01/tom-van-de-weghe-naar-stanford/">steunen van kwalitatieve (onderzoeks)journalistiek</a>, kennisopbouw over AI in de eigen regio, en het aanmoedigen en faciliteren van permanent leren horen daar ook bij. </p>



<p>Met de Europese verkiezingen in aantocht begint men ook op dat niveau wat nattigheid te voelen. Begin 2018 kwam een door de Europese Commissie samengestelde <a href="https://ec.europa.eu/digital-single-market/en/news/final-report-high-level-expert-group-fake-news-and-online-disinformation"><em>High Level Expert Group</em></a> van AI-experts tot een reeks aanbevelingen, waaronder de nood aan transparantie bij online nieuws. Daaruit volgde de <a href="https://ec.europa.eu/digital-single-market/en/news/code-practice-disinformation">EU code of practice on disinformation</a>, een document getekend door o.a. Google, Facebook, Twitter en Mozilla, waarin die allen beloven stappen te ondernemen om de verspreiding van desinformatie via hun platformen tegen te gaan. Dit is een duidelijke keuze om te trachten de industrie zichzelf te laten reguleren in plaats van van bovenaf maatregelen op te leggen. Mogelijk speelde de korte tijd die er nog rest tot de Europese verkiezingen een rol in de beslissing om dat zo aan te pakken. Dat werd dan snel gevolgd door een <a href="https://ec.europa.eu/commission/publications/action-plan-disinformation-commission-contribution-european-council-13-14-december-2018_en">actieplan tegen desinformatie</a>, die de adoptie van de<em> code of practice</em> <a href="https://europa.eu/rapid/press-release_STATEMENT-19-1757_en.htm">moet opvolgen</a>. De toekomst zal uitwijzen of dat telt als eerste stappen in de goede richting, of als &#8220;too little, too late&#8221;.</p>



<p>______________________</p>



<p><em>Dit is een ingezonden bijdrage van Joachim Ganseman, IT consultant bij Smals Research. &nbsp;Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.</em></p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Enkele valkuilen in AI</title>
		<link>https://www.smalsresearch.be/enkele-valkuilen-in-ai/</link>
		
		<dc:creator><![CDATA[Joachim Ganseman]]></dc:creator>
		<pubDate>Tue, 23 Jan 2018 15:00:29 +0000</pubDate>
				<category><![CDATA[[NL]]]></category>
		<category><![CDATA[Blog post]]></category>
		<category><![CDATA[Artificial intelligence]]></category>
		<category><![CDATA[bias]]></category>
		<category><![CDATA[big data]]></category>
		<category><![CDATA[chatbot]]></category>
		<category><![CDATA[Machine Learning]]></category>
		<category><![CDATA[Open Source]]></category>
		<category><![CDATA[Security]]></category>
		<category><![CDATA[Society]]></category>
		<category><![CDATA[statistics]]></category>
		<guid isPermaLink="false">/?p=11288</guid>

					<description><![CDATA[Artificiële intelligentie (AI) maakt de laatste jaren grote sprongen. Het vakgebied is duidelijk ‘hot’. Dat blijkt uit de explosieve groei van de belangrijkste academische conferenties en uit de nieuwsberichten over universiteiten die worden leeggeplukt door bedrijven. De beschikbare rekenkracht is de laatste tijd erg toegenomen, net als de beschikbare datasets om de AI te trainen, en [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><figure id="attachment_11296" aria-describedby="caption-attachment-11296" style="width: 765px" class="wp-caption aligncenter"><a href="/wp-content/uploads/2018/01/imagenet_8.png"><img loading="lazy" decoding="async" class="wp-image-11296 size-full" src="/wp-content/uploads/2018/01/imagenet_8.png" alt="Adversarial examples kunnen een AI om de tuin leiden: enkele afbeeldingen en hoe een AI ze met hoge zekerheid klassificeert. Illustratie (c) Nguyen A, Yosinski J, Clune J.: Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images. In Computer Vision and Pattern Recognition (CVPR '15), IEEE, 2015." width="765" height="452" srcset="https://www.smalsresearch.be/wp-content/uploads/2018/01/imagenet_8.png 765w, https://www.smalsresearch.be/wp-content/uploads/2018/01/imagenet_8-300x177.png 300w" sizes="auto, (max-width: 765px) 100vw, 765px" /></a><figcaption id="caption-attachment-11296" class="wp-caption-text">Adversarial examples kunnen een AI om de tuin leiden: enkele afbeeldingen en hoe een AI ze met hoge zekerheid klassificeert. Illustratie (c) Nguyen A, Yosinski J, Clune J.: Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images. In Computer Vision and Pattern Recognition (CVPR &#8217;15), IEEE, 2015.</figcaption></figure></p>
<p>Artificiële intelligentie (AI) maakt de laatste jaren grote sprongen. Het vakgebied is duidelijk ‘hot’. Dat blijkt uit de <a href="https://ruder.io/highlights-nips-2016/">explosieve</a> <a href="https://signalprocessingsociety.org/get-involved/speech-and-language-processing/newsletter/brief-review-nips-2015">groei</a> van de belangrijkste academische conferenties en uit de nieuwsberichten over <a href="https://www.theguardian.com/science/2017/nov/02/big-tech-firms-google-ai-hiring-frenzy-brain-drain-uk-universities">universiteiten die worden leeggeplukt</a> door bedrijven.</p>
<p>De beschikbare rekenkracht is de laatste tijd erg toegenomen, net als de <a href="https://cloud.google.com/bigquery/public-data/">beschikbare datasets</a> om de AI te trainen, en de keus aan achterliggende modellen (<a href="https://en.wikipedia.org/wiki/Convolutional_neural_network">CNN</a>, <a href="https://en.wikipedia.org/wiki/Recurrent_neural_network">RNN</a>, <a href="https://en.wikipedia.org/wiki/Long_short-term_memory">LSTM</a>, <a href="https://en.wikipedia.org/wiki/Generative_adversarial_network">GAN</a>, …). De grootste spelers op het veld bieden kant-en-klaar open-source AI-platformen aan (<a href="https://www.tensorflow.org/">Tensorflow</a>, <a href="https://caffe.berkeleyvision.org/">Caffe</a>, <a href="https://deeplearning.net/software/theano/">Theano</a>, <a href="https://keras.io/">Keras</a>, &#8230;). Onderzoekers maken hun code steeds vaker publiek beschikbaar, voorzien van een uitgebreidere readme (o.a. <a href="https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks">Jupyter Notebooks</a> is <a href="https://github.com/fchollet/deep-learning-with-python-notebooks">populair</a>). Zo kunnen ze <a href="https://sites.google.com/view/icml-reproducibility-workshop/home">reproduceerbaarheid</a> claimen &#8211; en dat je zo gemakkelijker geciteerd wordt is handig meegenomen. Wie wat vertrouwd is met de terminologie en de onderliggende technologieën, kan vrij snel zelf experimentjes beginnen uitvoeren.</p>
<p>De resultaten zijn de laatste tijd dan ook significant. <a href="https://www.technologyreview.com/s/609450/autonomous-vehicles-are-you-ready-for-the-new-ride/">Zelfrijdend vervoer</a>,<a href="https://venturebeat.com/2017/10/30/ai-is-transforming-medical-diagnosis-prosthetics-and-vision-aids/"> geautomatiseerde diagnoses of medische hulp</a>, <a href="https://techcrunch.com/2017/10/04/googles-airpods-competitor-do-real-time-language-translation/">real-time vertaling</a>, zijn toepassingen die 20 jaar geleden vooral tot het domein van Star Trek hoorden maar vandaag al zeer dicht bij <a href="https://news.voyage.auto/self-driving-cars-in-a-city-like-no-other-c9b38807a9a6">uitrol in het dagelijkse leven</a> staan.</p>
<p>Hoewel de term AI een grootse claim tot ‘intelligentie’ insinueert, en media of goeroes allerhande de <a href="https://www.kurzweilai.net/">superlatieven</a> niet schuwen: in essentie is artificiële intelligentie nog steeds gewoon een geavanceerde vorm van <a href="https://svds.com/machine-learning-vs-statistics/">toegepaste statistiek</a>. “Lies, damned lies and statistics” indachtig, kan je daar dus creatief mee omspringen &#8211; en inderdaad blijken veel AI’s verbazend gemakkelijk <a href="https://www.evolvingai.org/fooling">voor de gek te houden</a>.</p>
<p>Een AI-systeem wordt meestal opgezet voor een duidelijk afgebakende usecase: <a href="https://en.wikipedia.org/wiki/Statistical_classification">classificatie</a> (bvb beeld-analyse), <a href="https://en.wikipedia.org/wiki/Recommender_system">suggesties geven</a> (bvb bij online winkelen), <a href="https://www.infoworld.com/article/3243288/artificial-intelligence/generative-ai-the-new-power-tools-for-creative-pros.html">gegevens genereren</a> die voldoen aan bepaalde eigenschappen, … Een AI wordt daarvoor getraind op een bepaalde dataset. Iedere beslissing die een getrainde AI daarop neemt is in essentie een “beredeneerde gok”. Die gebeurt op basis van de tot dan geziene data: van enige domeinkennis of begrip van de ruimere omgeving is geen sprake, als die er niet eerst expliciet <a href="https://en.wikipedia.org/wiki/Knowledge_representation_and_reasoning">in werd gestoken</a>.</p>
<p>Ook hier geldt ‘<a href="https://www.theatlantic.com/technology/archive/2013/01/ibms-watson-memorized-the-entire-urban-dictionary-then-his-overlords-had-to-delete-it/267047/">garbage in, garbage out</a>’. De manier waarop een AI getraind is of blijft trainen, is erg bepalend voor de toekomstige output. In deze blogpost bekijken we (niet exhaustief) enkele belangrijke aandachtspunten.</p>
<h2>Onvolledige / vooringenomen trainingsdata</h2>
<p>Onvolledige of onevenwichtige trainingsdata zorgt onder andere voor ‘false negatives’: de AI kan iets niet herkennen dat hij wel had moeten herkennen. In de praktijk, als een AI een klasse aan objecten moet herkennen, wordt die idealiter getraind op een verzameling voorbeelden die deze klasse <a href="https://en.wikipedia.org/wiki/Independent_and_identically_distributed_random_variables">volledig en gelijkmatig</a> dekt. Vaak is het aantal variabelen achter de schermen zo onoverzichtelijk groot (&#8216;<a href="https://en.wikipedia.org/wiki/Curse_of_dimensionality">curse of dimensionality</a>&#8216;), dat het zo goed als onmogelijk is om een dataset van voldoende omvang te verzamelen. Data verzamelen en verwerken is ook erg tijdrovend dus duur, en tenzij je hoort tot de grote spelers die kunnen crowdsourcen op ongeziene schaal (al wordt dat ook <a href="https://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist">best actief gecontroleerd</a>), is op een bepaald moment het geld op.</p>
<p>Dat gebeurt niet altijd op een goed moment. Spraakmakende missers op dat vlak gebeurden dan ook al <a href="https://edition.cnn.com/2009/TECH/12/22/hp.webcams/index.html">enkele keren</a> bij <a href="https://www.recode.net/2017/1/18/14304964/data-facial-recognition-trouble-recognizing-black-white-faces-diversity">gezichtsherkenning</a>. De bias die op deze manier in een systeem ingebouwd kan raken, kan bovendien <a href="https://www.theatlantic.com/technology/archive/2016/04/the-underlying-bias-of-facial-recognition-systems/476991/">verstrekkende gevolgen</a> hebben.</p>
<p>Als men er zich niet van bewust is, kan de bias in een dataset lang verborgen blijven. Pas na een jaar of twaalf, toen iemand de moeite nam om eens <a href="https://highnoongmt.wordpress.com/2014/12/17/are-deep-neural-networks-really-learning-relevant-features/">naar de volledige dataset te luisteren</a>, werd ontdekt dat een belangrijke dataset voor detectie van muziekgenres wel erg veel overhelde naar bepaalde artiesten en verschillende duplicaten bevatte. Plots bleek het grootste deel van de systemen die gedurende die 12 jaar gebouwd waren op/met deze dataset, <a href="https://highnoongmt.wordpress.com/2015/07/02/i-am-known-as-that-guy-but-really-i-am-that-other-guy/">op erg los zand te staan</a>.</p>
<p>&#8220;Always look at your data&#8221; blijft daarom een belangrijke leidraad. Het gevaar schuilt erin dat dat steeds minder haalbaar dreigt te worden <a href="https://time.com/4477557/big-data-biases/">in de context van het &#8216;big data&#8217; gebeuren</a>.</p>
<h2>Confounding factoren</h2>
<p>Wanneer we een classifier trainen, zoekt de AI naar eigenschappen op basis waarvan het onderscheid tussen de verschillende klassen met de grootste zekerheid gemaakt kan worden. Dat kunnen vrij abstracte gegevens zijn die niet noodzakelijk betekenisvol verband houden met die klassen, maar toevallig wel correleren met de beschikbare voorbeelden in de training set. We zijn ons niet altijd bewust van deze ‘<a href="https://en.wikipedia.org/wiki/Confounding">confounding factoren</a>’. Als de AI dan een ongerelateerd object krijgt voorgeschoteld en die correlerende eigenschap toch opmerkt, wordt die tot een verkeerde klasse gerekend en krijgen we een ‘false positive’.</p>
<p>Terug naar ons audio-voorbeeld: het blijkt vrij gemakkelijk om een systeem te bouwen dat klassieke muziek kan onderscheiden van andere genres. De accuraatheid <a href="https://media.aau.dk/null_space_pursuits/2012/03/what-is-the-difference.html">gaat vlot voorbij 95%</a>! Totdat men gaat kijken wat de beslissende factor is geworden: dan wordt bvb enkel berekend hoe luid het gemiddeld volume is &#8211; en klassiek wordt nu eenmaal zachter opgenomen. Resultaat: het lijkt alsof goed onderscheid wordt gemaakt tussen klassiek en pop, maar in de praktijk wordt enkel naar het volume gekeken en is er geen enkele kennis verworven over de eigenlijke inhoud van de muziek.</p>
<p>Minder onschuldig is een vrij recente misser in medische beeldvorming, waar een dataset van rontgenfoto&#8217;s van longen beschikbaar is, die o.a. kan gebruikt worden voor ontwikkeling van diagnostische hulpsoftware. Deze <a href="https://lukeoakdenrayner.wordpress.com/2017/12/18/the-chestxray14-dataset-problems/">dataset bleek na onderzoek</a> (ook hier: pas nadat iemand de moeite nam eens naar de duizenden afbeeldingen te kijken) deels verkeerd geannoteerd te zijn, en deels te bestaan uit foto’s van patiënten in behandeling &#8211; en zo dreigden bepaalde ziektebeelden niet herkend te worden als de behandelingsapparatuur niet op de foto te zien was.</p>
<p>Er blijken dus onverwacht grote <a href="https://en.wikipedia.org/wiki/Semantic_gap">semantische kloven</a> te kunnen zijn tussen de formele interne representaties in AI-systemen en de algemenere, vagere concepten die wij als mensen hanteren en zouden willen aanleren aan deze systemen. Bij veel ingewikkelde vormen van AI, zoals deep learning, blijft het vaak een open vraagstuk <a href="https://www.technologyreview.com/s/604087/the-dark-secret-at-the-heart-of-ai/">wat deze systemen nu eigenlijk leren of berekenen</a>. Omdat we ook steeds vaker kritische beslissingen in handen laten van AI-systemen, is er daarom een beweging rond &#8216;<a href="https://en.wikipedia.org/wiki/Explainable_Artificial_Intelligence">explainable AI</a>&#8216; op gang gekomen.</p>
<h2>Adversarial Examples</h2>
<p>Een sterk groeiende tak in de onderzoekswereld rond AI maakt er haast een sport van om te proberen <a href="https://blog.openai.com/adversarial-example-research/">getrainde AI systemen voor de gek te houden</a>. De mogelijkheid daartoe zorgt immers voor problemen bij o.a. <a href="https://research.google.com/pubs/pub45471.html">biometrische beveiliging</a>. Het blijkt dat de transformatie benodigd om een AI-systeem uit zijn lood te slaan soms minimaal is: <a href="https://arxiv.org/abs/1710.08864">1</a> <a href="https://www.bbc.com/news/technology-41845878">pixel wijzigen</a> kan genoeg zijn. Zo kan een zelf-rijdende auto plots moeite hebben met het herkennen van <a href="https://bair.berkeley.edu/blog/2017/12/30/yolo-attack/">verkeersborden waar stickers op plakken</a>.</p>
<p>Hier is het probleem dat de resultaten van de training niet veralgemeend kunnen worden naar toekomstige onbekende data, zonder enkele vrij zware aannames: dat het systeem statisch is in de tijd, dat alle mogelijke input volledig gedekt wordt door de trainingsset, dat er geen confounding factoren meespelen,… Er schijnt nog geen pasklaar antwoord te zijn: zodra een adversarial example in de trainingset wordt opgenomen, duikt elders wel een andere manier op om de nieuwe AI toch nog voor de gek te houden.</p>
<p>In combinatie met een vorm van <a href="https://en.wikipedia.org/wiki/Reinforcement_learning">reinforcement learning</a>, kunnen we trachten deze adversarial examples te genereren &#8211; wat aanleiding geeft tot <a href="https://github.com/nightrome/really-awesome-gan">Generative Adversarial Networks</a> (<a href="https://arxiv.org/abs/1701.00160">GAN</a>). Die zijn <a href="https://blog.waya.ai/introduction-to-gans-a-boxing-match-b-w-neural-nets-b4e5319cc935">moeilijk stabiel te krijgen</a>, maar als dat lukt, kunnen ze met succes worden gebruikt om realistisch lijkende gegevens (<a href="https://www.theverge.com/2017/10/30/16569402/ai-generate-fake-faces-celebs-nvidia-gan">foto</a>, <a href="https://carlvondrick.com/tinyvideo/">video</a>, &#8230;) te genereren. Ook met andere generatieve AI-modellen kan al erg realistische data gegenereerd worden (van <a href="https://deepmind.com/blog/wavenet-generative-model-raw-audio/">spraak</a> tot <a href="https://blog.floydhub.com/turning-design-mockups-into-code-with-deep-learning/">webdesign</a>).</p>
<p>Dit is goed nieuws voor wie in een creatieve industrie werkt, <span style="font-weight: 300;">maar voor wie inzit met de beveiliging van AI-systemen een groot probleem. Die laatsten blijken immers plots nogal fragiel te kunnen zijn buiten hun trainingsomgeving. Zo wordt ook robuustheid ongetwijfeld een </span><a style="font-weight: 300;" href="https://www.cleverhans.io/security/privacy/ml/2017/06/14/verification.html">belangrijk aandachtspunt</a><span style="font-weight: 300;"> in de komende jaren.</span></p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
