Lieven Desmet – Smals Research

De wetten van de Onwaarschijnlijkheid

Lieven Desmet — Tue, 03 May 2016 14:42:26 +0000

In vele toepassingen van data science is men op zoek naar “onverwachte patronen”, die kunnen wijzen op één of ander fenomeen. Om dit op een oordeelkundige manier te interpreteren kan men zich best beroepen op formele statistische methoden, zo deze van toepassing zijn. Gezond verstand (hopelijk) en intuïtie (onvermijdelijk) spelen ook vaak een belangrijke rol in de manier waarop wij conclusies trekken uit data. Toch kan deze intuïtie ons al eens op een verkeerd been zetten. In deze blog bekijken we een aantal fenomenen die intuïtief als zeer onwaarschijnlijk overkomen terwijl ze eigenlijk toch frequent voorkomen en worden logische verklaringen gegeven waarom dit zo is. Laten we beginnen met een kleine anecdote …

Gelukkige verjaardag !

Enkele jaren geleden, op de dag van mijn verjaardag, trof ik aan de deur van mijn bureau een ballon en snoepgoed aan. We deelden dat bureau toen met vier en er lagen eigenlijk twee sets ballonnen en snoep. Omdat ik echter grote twijfels had of ik zelf wel op de verjaardagskalender stond en bovendien de verjaardagen van mijn nieuwe collega’s niet kende leek een klein onderzoek aangewezen. Dit bracht aan het licht dat 3 van de 4 bureaugenoten op dezelfde dag verjaren.

Hoe zeldzaam is dát ?

Wel, een kleine berekening levert dat de kans dat dit zich voordoet ongeveer 1 op 20000 bedraagt. Inderdaad niet heel waarschijnlijk, maar dan ook weer niet zó onwaarschijnlijk dat het verantwoord zou zijn er een enorme inzet op te vergokken. Dit voorbeeld is een meer ingewikkelde versie van de verjaardagenparadox waar de paradox zich voordoet omdat we de neiging hebben te vergeten dat het samenvallen van verjaardagen waarschijnlijker wordt door het feit dat dit zich niet noodzakelijk op een vaste kalenderdag moet voordoen maar dat er eigenlijk 365 (of zo) dagen zijn waarop dit kan gebeuren.

Het Onwaarschijnlijkheidsbeginsel als raamwerk

David Hand, op wiens werk deze blog in grote mate gebaseerd is bedacht een raamwerk, gebaseerd op 5 grote principes die toelaten onwaarschijnlijke fenomenen te verklaren op een informele maar toch systematische manier. Deze principes zijn geïllustreerd en toegelicht in een prachtig boek en een aantal lezingen die de emeritus Professor gaf, onder meer ter gelegenheid van de 180ste verjaardag van de eerbiedwaardige Royal Society of Statistics. Ik verwijs graag naar de inhoud van deze documenten maar probeer tegelijk de link te leggen met een aantal nieuwe voorbeelden.

De Onvermijdelijkheidswet

Dit principe zegt dat met zekerheid minstens één van alle mogelijke uitkomsten van een toevalsexperiment zich zal voordoen.

Zo bijvoorbeeld zal de waarde van het Google aandeel aan het einde van volgende beursdag gestegen zijn of niet gestegen zijn ten opzichte van het huidig niveau. Eén van beide scenarios moet zich voordoen.

Dit simpel principe kan aanleiding geven tot fascinerende constructies. Zo bijvoorbeeld kan een zelfverklaarde beursgoeroe aan een groep van 64 beleggers vertellen dat hij een stijging verwacht en aan een andere groep van 64 dat hij geen stijging verwacht. Eén van beide uitkomsten zal zich voordoen en dit betekent dat hij zeker een groep van 64 personen blij zal maken. Als hij deze werkwijze blijft herhalen, in nog 6 opeenvolgende stappen, zal hij voor één belegger op 7 opeenvolgende keren perfect de beweging van de beurs voorspeld hebben…. en grof geld kunnen vragen voor verder beleggersadvies aan deze persoon.

Een andere spectaculaire toepassing van het principe is het idee dat je met zekerheid de hoofdprijs van een loterij kan winnen mits je alle biljetten verwerft (indien de trekking gebaseerd is op het geheel van de verkochte biljetten). Dit idee klinkt gekker dan het is en is zelfs al een paar keer in de praktijk gebracht door verenigingen die geld ophaalden van investeerders om op grote schaal biljetten te verwerven, zie bijvoorbeeld het verhaal van de Virginia State Lottery jackpot in 1992. Uiteraard is een dergelijke onderneming vaak een logistieke krachttoer en niet zonder risico.

De Wet van de werkelijk grote aantallen en het Tweeling drama

Indien een experiment vaak genoeg herhaald wordt kan men verwachten dat een onwaarschijnlijke uitkomst zich toch zal voordoen, ook al is de kans op succes in één experiment nog zo klein.

De kans dat je in een reeks van 10 worpen met een eerlijke dobbelsteen systematisch een “3” bekomt is kleiner dan 1 in 10 miljoen, maar als het aantal worpen onbeperkt is en je dus lang genoeg wacht zal het fenomeen van 10 of meer opeenvolgende “3”-en zich zeker voordoen. Zo bijvoorbeeld volstonden 7617266 worpen in een simulatie experiment met de computer (dus zonder risico op fysieke letsels).

Ook is de kans dat je morgen zelf getuige zal zijn van een auto ongeval gelukkig bijzonder klein, maar is de kans dat iemand die je kent dit overkomt al groter, en als je kijkt naar een langere periode, bijvoorbeeld het hele volgende jaar, nog véél groter.

David Hand illustreert het principe aan de hand van the Twin tragedy (zie figuur).

De Wet van Selectie

Deze is in zekere zin verwant met de vorige maar dan vanuit een ander standpunt. Ná de feiten heeft de mens de neiging te focussen op een beperkt aantal toevalligheden terwijl het grote geheel verwaarloosd wordt. Concreet betekent dit dat men een aantal overeenkomsten selecteert en niet stil staat bij het quasi oneindige universum van eigenschappen die niet overeenkomen. Hand illustreert dit met de overeenkomsten tussen twee voormalige presidenten van de Verenigde Staten: Abraham Lincoln en John F. Kennedy.

Beide werden vermoord. op een vrijdag. Telkens door een nekschot, van in de rug, én in het bijzijn van hun echtgenote. Lincoln in Ford’s Theatre en Kennedy in een wagen van het gelijknamige merk. Beiden hadden tijdens hun presidentschap een zoon verloren. Lincoln had een persoonlijke secretaris die John heette en Kennedy had er één die Lincoln heette. Er liggen 100 jaar tussen het aanvangsjaar van hun respectievelijke ambten, beiden hadden ze een opvolger genaamd Johnson en deze hadden ook 100 jaar verschil tussen hun geboortejaar en hadden beiden 4 kinderen.

En zo kunnen we doorgaan met het opsporen van gelijkenissen terwijl we met een wijde boog om de verschillen lopen zo bijvoorbeeld is JFK geboren in Massachussets en Lincoln in Kentucky.

De wet van de Hefboom

Zegt dat kleine wijzigingen de waarschijnlijkheid zó kunnen opdrijven dat onwaarschijnlijke gebeurtenissen redelijkerwijze kunnen verwacht worden.

Zo is de kans dat je door de bliksem getroffen wordt praktisch nul als je bij onweer kan schuilen in een modern gebouw met de gebruikelijke beveiligingen,
maar loop je een veel groter risico als je bewust op zoek gaat naar het open veld of schuilt onder een boom

Zo’n 10 jaar geleden waren sommige analysten er vrij gerust in dat extreme financiële verliezen, zoals diegene die eind 2008 een aantal grote banken hebben doen omvallen, zich slechts zeer uitzonderlijk zouden voordoen. Zó uitzonderlijk, dat ze in de praktijk uitgesloten zijn. Men sprak van een six-sigma event, omdat de verschuiving correspondeert met maar liefst 6 standaardafwijkingen onder een normale verdeling, wat zich minder vaak dan 1 in 100 miljoen keer voordoet (grofweg één keer om de 300000 jaar). De keuze van een normaal model voor een financieel proces was allicht ingegeven door het feit dat dit nu eenmaal een bekende verdeling is die vaak optreedt in natuurlijke processen, maar deze is natuurlijk niet noodzakelijk geldig in de econometrie. Het aanvaarden van meer realistische verdelingen, die erg lijken op de normale, maar de extreme gebeurtenissen beter modelleren heeft als gevolg dat de kans op zo’n “six-sigma-event” plots veel groter wordt.

De wet van Bijna Hetzelfde

Hoeveel mensen hebben een nacht doorgebracht in hetzelfde hotel als Elvis Presley (maar niet op hetzelfde moment) ? Dit principe is eigenlijk ook verbonden met reeds gegeven voorbeelden, waar we hebben opgemerkt dat we de neiging hebben de overeenkomsten te selecteren en in de verf te zetten en die aspecten te verwaarlozen die verschillend zijn (maar die wel maken dat er enorm veel manieren zijn om een buitengewone gebeurtenis te creëren).

Tot besluit

Waarschijnlijk komen spontaan nog voorbeelden bij u op. Het is een leuke oefening om te toetsen of hier één of meerdere van bovengenoemde wetten aan het werk is.

Uitdagingen voor Analytics: Causaliteit en co.

Lieven Desmet — Tue, 09 Feb 2016 10:02:05 +0000

Aanleiding van deze blog is een mail die ik ontving betreffende de moeilijkheid in analytics om causaliteit, en niet louter correlatie, tussen twee fenomenen vast te stellen.

De suggestie dat dit met klassieke statistiek ook niet zou kunnen, en er dus eigenlijk geen probleem is, is betwistbaar. Wél staat vast dat causaliteit vaak een moeilijke kwestie is. Waar gaat het precies over?

Correlatie en causaliteit

Een positieve correlatie tussen twee grootheden (variabelen) X en Y betekent dat wanneer de ene grote (resp. kleine) waarden aanneemt, de andere de neiging heeft dat ook te doen. Een negatieve correlatie betekent dat wanneer de ene grote (resp. kleine) waarden aanneemt, de andere de neiging heeft het tegengestelde te doen.

In onderstaande figuur werden data gesimuleerd volgens een tweedimensionele normale verdeling met een correlatiecoëfficiënt van 0.9 (links) en -0.3 (rechts). Algemeen kan men zeggen dat hoe sterker de correlatie is, hoe duidelijker de bovengenoemde relatie en hoe meer informatie je hebt over de grootte van de ene variabele als je de andere variabele kent.

(.pdf generated with R-software)

Causaliteit (oorzakelijkheid) is een sterker begrip, dat weergeeft dat een fenomeen X de oorzaak is van een fenomeen Y. Bijgevolg zal het zich voordoen van fenomeen X het zich voordoen van fenomeen Y beïnvloeden en aldus kan men verwachten dat er een correlatie optreedt tussen X en Y. Causaliteit is sterker omdat je aangeeft dat er een soort van mechanisme is en bovendien heb je daar niet de symmetrie tussen X en Y die je bij een correlatie wél hebt. De gevolgen zijn ook veel zwaarder. Zo men bijvoorbeeld besluit dat de incidentie van longkanker het gevolg is van roken dringen maatregelen zich op om de volksgezondheid te vrijwaren. Vaak is een causaliteitsbesluit echter controversieel en moeilijk te bewijzen.

De bloemetjes en de bijtjes

(public domain picture at www.lifeofpix.com)

Een eenvoudig en ludiek voorbeeld gaat over volgende twee fenomenen:

X: het aantal ooievaarsnesten in een dorp;

Y: het aantal nieuwgeboren baby’s in dat dorp.

In dorpen in de Elzas is begin de 20^ste eeuw een correlatie vastgesteld tussen beide fenomenen, wat zou kunnen doen geloven dat de ooievaars effectief tussenkomen in het afleveren van de baby’s. De statisticus George Udny Yule gebruikt dit voorbeeld om aan te tonen dat de correlatie die gezien wordt tussen X en Y geen bewijs is van causaliteit. Uiteraard kennen we de echte causaliteitsverklaring achter de variabele Y, maar het is zeker interessant om even stil te staan bij de vraag waarom deze correlatie bestaat.

Namelijk, er is sprake van een tussenliggende variabele, zeg,

Z: de grootte van het dorp,

die beide X en Y positief beïnvloedt. Inderdaad, een groter dorp biedt meer schoorstenen en torens en heeft tegelijk uiteraard ook een grotere bevolking en dus een groter absoluut geboortecijfer.

Yule gebruikt dit voorbeeld om de lezer uit te leggen wat een confounder is: een externe variabele die met beide variabelen in kwestie gecorreleerd is. Het is geen toeval dat dit voorbeeld opduikt in een boek over statistiek, vanuit de toepassingen waarrond de statistiek zich heeft ontwikkeld is er altijd aandacht geweest voor het causaliteitsvraagstuk, ook al is dit soms erg moeilijk.

Een medicijn gebaseerd op correlatie of causaliteit ?

In het medisch onderzoek bijvoorbeeld staat de causaliteitsvraag vaak centraal. Immers, vooraleer men besluit een nieuw geneesmiddel als veilig en werkzaam te beschouwen voert men studies om zo goed mogelijk zicht te krijgen op de biologische en biochemische werking van een nieuwe molecule, en om er zich van te verzekeren dat de gunstige werking toe te schrijven is aan de therapie en niet aan andere factoren zoals verschillen tussen patiënten (geslacht, leeftijd, genetisch profiel etc). Eén van de mogelijkheden om confounders uit te schakelen is het opzetten van een experiment dat er rekening mee houdt, bijvoorbeeld door het selecteren van homogene groepen van proefpersonen.

Als de gezondheid op het spel staat zijn weinig mensen bereid roekeloze risico’s te nemen, en voor de grote farmaconcerns is de geschiktheid van een nieuw medicijn niet zo maar een vraag maar eerder een million (of billion) dollar question.

Correlaties in analytics

In wezen lijkt het doel van analytics en statistiek volledig hetzelfde, namelijk informatie halen en conclusies trekken uit gegevens. Gebruikers van beide methoden hebben overigens ook gemeen dat men vaak (te) hoge verwachtingen heeft over wat men redelijkerwijze uit de gegeven data kan besluiten. Toch is de werkwijze radicaal anders. Waar men in de statistiek gericht en gepland te werk gaat (of hoort dat te doen), probeert men in analytics vooral kracht te halen uit het combineren van grote hoeveelheden data en het doorrekenen van grote aantallen algoritmes. Waar bij statistische studies de methodologie centraal staat, lijkt het bij analytics vooral over het snelle resultaat te gaan, zonder veel oog voor methodologische problemen en valkuilen, zoals bijvoorbeeld data-quality problemen.

Het opgeven van het causaliteitsvraagstuk is dus in zekere zin inherent aan de manier van werken in analytics, en kan gezien worden als de prijs die betaald moet worden voor snelle en automatische resultaten.

Zin en onzin van correlaties

Websites met bloemlezingen van bedenkelijke, grappige of bizarre correlaties, vaak tussen tijdreeksen, zijn een groot succes op internet. Dit betekent niet dat correlaties per definitie zinloos zijn. Het hangt alleen af van de beoogde toepassing en vakgebied. Zo bijvoorbeeld zal het een marketeer worst wezen waarom precies doelgroep X interesse heeft in product Y. Het feit dat het zo is en dat hij of zij dit als eerste ontdekt werd kan al ruim voldoende zijn om de verkoopscijfers op te krikken.

Als het misgaat

Is uiteindelijk natuurlijk de gebruiker verantwoordelijk. De analytics tool, ook al wordt die voorgesteld als een soort elektronische Einstein, is niets meer dan een machine en het is de gebruiker die beslist welke gevolgen te geven aan één of andere uitkomst. Misschien is dat het openen van een extra verkooppunt om de doelgroep X te bedienen, maar misschien is dat de beslissing om één en ander verder te onderzoeken, op basis van een meer beproefde methodologie indien grote risico’s niet uit te sluiten zijn.

Tot besluit: analytics en statistiek

Als besluit moet zeker opgemerkt worden dat statistiek als vakgebied zich dank zij de computer heel snel heeft kunnen ontwikkelen. Vele statistische procedures steunen immers op rekenintensieve (iteratieve) algoritmen die met de hand praktisch onuitvoerbaar zouden zijn, om nog maar te zwijgen over de faciliteiten die de computer biedt om data te beheren. Evenzeer lijkt op te gaan dat de analytics approach kan vooruitgaan door de overwegingen van statistiek mee te nemen. De prijs die betaald moet worden is mogelijk een langere doorlooptijd en het opgeven van een volledig automatische verwerking maar voor sommige toepassingen is dat ongetwijfeld een goede, zelfs noodzakelijke, investering.

Watson, revisited

Lieven Desmet — Wed, 18 Nov 2015 14:25:05 +0000

In deze tweede blog over het Watson fenomeen gaan we dieper in op de systemen en tools die onder de noemer Watson Analytics beschikbaar zijn, hetzij in een test versie, hetzij in een commerciële versie. Gelet op het grote succes van de Watson computer die het kan opnemen tegen top concurrenten in de Quiz Jeopardy zijn de verwachtingen hoog gespannen, onder meer op het vlak van cognitive computing.

Meet the Watsons

Onder de noemer Watson is ondertussen een heel gamma systemen, tools en apps gelanceerd. Zo spreekt CIO magazine over niet minder dan 10 IBM Watson-powered Apps That Are Changing Our World en overlopen zij case-studies die zich afspelen in uiteenlopende maar zeer gespecialiseerde domeinen wat meteen duidelijk maakt dat er nog geen allesomvattend systeem bestaat die de verschillende functies verenigt. We pikken er een paar voorbeelden uit.

Interpretatie van een CT scan (GNU license – Stevenfruitsmaak)

In de oncologie … begeleidt Watson oncologen en huisartsen in het bepalen van de optimale therapeutische keuze. Dit is gebaseerd op het raadplegen van een omvangrijk corpus van richtlijnen, gepubliceerd onderzoek, gekende gevallen etc. en is dus een typisch expert systeem. De mate waarin deze informatie benaderd kan worden via vraagstelling in natural language lijkt minder relevant in deze setting en het is ook niet duidelijk in welke mate deze eigenschap aanwezig is in het systeem.

In het domein van de klinische studies… zou Watson kunnen ingezet kunnen worden voor het verzamelen en voorbereiden van de data. Dit is echter – terecht – een zeer strikt gereglementeerd domein waar uiterst hoge eisen gesteld worden zowel wat betreft de methodologie als de uitvoering van procedures. Bij twijfel over data-quality of de correcte uitvoering van een procedure komen typisch meerdere menselijke experten tussen om een oordeelkundige beslissing te nemen. Het lijkt me ondenkbaar dat een machine deze rol zou kunnen overnemen, maar het is anderzijds wel zo dat deze processen al in hoge mate door IT ondersteund zijn.

Watson als e-mail voorproever … een app die sentiment analyse doet op draft e-mail berichten die door de gebruiker ingetikt werden, welke gebruikt zou kunnen worden door wie onzeker is over de beoogde ondertoon van het bericht (buiten het lijstje van CIO magazine).

Maar wat is nu precies die cognitive computing aanpak waarmee Watson zich wil onderscheiden van traditionele technologieën ?

Cognitive computing

Het classificeren van bomen als cognitive taak

Bij IBM Research spreekt men over computer systemen die kunnen leren en op een natuurlijke manier interageren met de mens en aldus een aanvulling bieden op wat, hetzij de mens alleen, hetzij de machine alleen zouden kunnen doen. Dergelijke systemen helpen menselijke experten betere beslissingen te nemen dank zij de toegang tot Big Data. Onder de noemer op een natuurlijke manier interageren kan men natuurlijk meerdere dingen verstaan en dit hoeft dus niet per se te verwijzen naar een spraakgestuurd systeem.

Wikipedia maakt ons niet veel wijzer: cognitive computing maakt een nieuwe klasse van problemen berekenbaar, en richt zich op complexe situaties die gekenmerkt worden door ambiguïteit en onzekerheid; met andere woorden, het behandelt problemen van een “menselijke soort”. Het artikel werd gelabeld door de wikipedia gemeenschap in verband met multiple issues (persoonlijke opinie, belangenconflict) en er werd gesuggereerd dat het zou moeten vallen onder de term artificiële intelligentie.

“When it comes to neural networks, we don’t entirely know how they work…. And what’s amazing is that we’re starting to build systems we can’t fully understand … ”, aldus Jerome Pesenti (vice president of the Watson team at IBM) op The Platform.

Is het feit dat we niet volledig begrijpen hoe het system werkt dan een garantie dat het werkt ? Laten we eventjes terug de voeten op de grond zetten.

Watson Analytics

De best gekende Watson voor het grote publiek lijkt vooralsnog het Watson Analytics systeem te zijn dat gebruikers toelaat zijn eigen (op te laden) datasets of beschikbare voorbeeld datasets te analyseren in de cloud.

In de gratis trial versie van Watson zitten 4 modules, waarvan twee voor analytics (Explore en Predict), één voor eenvoudige transformaties op de data (Refine) en één voor reporting (Assemble). Met Explore kan men opgeladen datasets exploreren, hetzij door textuele vragen te stellen, hetzij door gebruik te maken van de voorstellen die Watson zelf doet. Het idee van cognitive computing is hier wel degelijk aanwezig. Met de module Predict kan men vragen een predictief model op te stellen om een op te geven target variabele te verklaren en dus bijvoorbeeld te weten te komen welke factoren een verkoopscijfer kunnen verklaren in een sales dataset.

The proof of the pudding is in the eating: Explore

Volgens de documentatie van IBM bevat de trial versie reeds de belangrijkste functionaliteiten (uitgenomen toegang tot Twitter data, uitgebreide connectiviteit en capaciteit voor grote datasets).

Een aantal ervaringen en bevindingen met de tool (zonder volledig te willen zijn):

Vragen voorgesteld of begrepen door Watson zijn noodzakelijk in het Engels en in een min of meer gestandardiseerd formaat, bijvoorbeeld What is the trend of Sales in Thousands over Week by Market Size ?
Watson valt dus terug op standaardconstructies zoals bijvoorbeeld een breakdown van aantallen over de categorieën van één of meerdere criteria, of bijvoorbeeld een trend van een grootheid over een tijdsdimensie. Mits een tijdsdimensie herkend werd…
Opdat Watson de betekenis van een gegeven goed zou kunnen interpreteren moet dit in het bronbestand zinvol (in het engels) gelabeld zijn, zoniet moet dat manueel gebeuren. Zo herkent Watson via de naam week een tijdsgegeven en interpreteert hij een naam sales als een volume. Men mag er echter niet van uit gaan dat dit altijd automatisch correct zal gebeuren.
Men mag niet blindelings vertrouwen op de voorstellen van Watson. Zo is het zinvol de som te maken van salesvolumes over de verschillende filialen van elke regio, maar moet men eerder het gemiddelde nemen als men bijvoorbeeld het inkomen van de inwoners van zo’n regio wil beschrijven.
Domeinkennis en zorgvuldige interpretatie zijn dus belangrijk.

De vraag stelt zich dan tot welk soort gebruiker men zich richt. De ervaren analyst zal zich allicht snel ergeren aan voorstellen die niet relevant zijn en snel uitgekeken zijn op de beperkte mogelijkheden qua visualisatie en modellering, terwijl een leek in data-analyse misschien niet kritisch genoeg staat ten overstaan van automatisch gegenereerde resultaten.

The proof of the pudding is in the eating: Predict

Om Predict te testen gebruiken we best gekende of gesimuleerde datasets waar een specifiek model in zit dat Watson er dan uit moet kunnen halen. In een eerste voorbeeld, rond werkloosheid, werden twee datasets voorbereid met als targetvariable het feit of een werkloze binnen een bepaalde tijd werk vindt of niet (uitstroom), samen met twee persoonskenmerken: regio en inkomen (in vorige betrekking). In dataset1 wordt de uitstroom puur toevallig bepaald, in dataset2 is er een systematisch verband tussen uitstroom en de twee verklarende variabelen volgens een logistische regressie. Enkele vaststellingen:

Bij het exploreren weigert Watson mijn vraag om uitstroom te modelleren en stelt hij voor om het aantal regio’s te tellen voor elk niveau van uitstroom wat veel minder relevant is.
Bij de eerste dataset worden geen predictors gevonden, bij de tweede vindt Watson slechts een zwak verband met inkomen. Hij vergeet dus de regio als predictor en het sterke verband. Eén van de problemen lijkt hier te zijn dat de gegevens over inkomen in klassen ingedeeld werden terwijl het model een eenvoudige continue modellering vereist.

Ook in een ander voorbeeld slaagde Watson er niet in een mooi lineair model met twee predictoren er uit te halen. Slechts één van beide werd gevonden. Het lijkt er dus op dat Watson niet sterk genoeg is om zelfs eenvoudige en duidelijke statistische modellen te ontdekken en teruggrijpt naar automatische maar rudimentaire technieken.

Screenshot van Watson Analytics (gesimuleerde dataset).

Conclusies

Het jongere broertje van de Watson machine lijkt nog niet volwassen. Dat is geen schande omdat de problemen die men wil aanpakken van een dergelijke complexiteit zijn dat de technologie er niet klaar voor is en men moet zich bovendien ook vragen stellen over de theoretische haalbaarheid. Watson kan ongetwijfeld wél een rol spelen als tool voor exploratie en visualisatie.

Mijn opinie is dat IBM moet opletten voor het creëren van te hoog gespannen verwachtingen en de daarmee gepaard gaande teleurstelling van de klanten.

Elementary, my dear Watson !

Lieven Desmet — Mon, 27 Jul 2015 14:45:49 +0000

Je hoeft geen Sherlock Holmes te zijn om te weten wie Watson is …

We hebben het hier echter over Watson van IBM. En wat daar precies achter zit is toch niet zo “Elementair, mijn beste Watson !”.

Vandaar deze blog als poging om één en ander te verduidelijken. Het zal blijken dat Watson zo’n beetje de rode draad is doorheen de geschiedenis van computergigant IBM. En dat één blog niet zal volstaan om één en ander uit te spitten.

Thomas J Watson

Thomas J Watson was general manager van computergigant – avant la lettre – IBM, van 1914 tot 1956, die in die periode uitgroeide van een bescheiden mechanografische onderneming met slechts 1300 werknemers tot een groep met meer dan 70000 werknemers (en tegelijk zijn omzet zag verhonderdvoudigen). Watson is er dus in geslaagd met zijn talenten als verkoper en diplomaat het bedrijf door de moeilijke periode van de crisis en de wereldoorlogen te loodsen. Tijdens de Tweede Wereldoorlog was het inzetten van mecanografie overigens een belangrijke factor voor het ondersteunen van de militaire (en politieke) operaties van zowel nazi Duitsland als de geallieerden.

Zonder meer mag duidelijk zijn dat Watson de aanzet heeft gegeven tot de verdere wereldwijde expansie van IBM als één van de meest successvolle en invloedrijke IT ondernemingen tot de dag van vandaag.

Naar de jaren 1980 … een business in verandering …

De IT business tot de jaren tachtig steunde voor een groot deel op het ontwikkelen, vervaardigen en aan de man brengen van de hardware infrastructuur.

Dit betreft zowel de mainframe systemen als de opkomende PC, beide vlaggenschepen van IBM.

In het licht van steeds versnellende technologische evoluties en de globalisering werd echter duidelijk dat dit business model voor IBM niet volstond om aan de top te blijven.

Men dacht dan ook aan gesofisticeerde toepassingen die veel verder gaan dan het uitvoeren van administratieve of berekeningsprocessen, en vroeg zich af of de machines een zekere vorm van intelligentie konden verkrijgen (die hen zou toelaten steeds meer taken van de mens over te nemen).

Eén van de eerste uitdagingen waar de onderzoekers van IBM hun tanden inzetten was het schaakprobleem. Zodra het virtuele schaakbord en de spelregels in het systeem ingevoerd zijn kan een computersysteem het gaan opnemen tegen een menselijke speler. Om beurten voeren de partijen hun zet in en beredeneren zij wat hun volgende zet zal zijn.

Schaak en mat

De schaakspelers in de wereldtop steunen hierbij op een jarenlange training en ervaring waarin zij leren uit scenario’s van vorige spelletjes en zich bekwamen in het vooruit denken en anticiperen van meerdere cycli van zetten en tegenzetten.

De succesvolle schaakmachine zal deze topspelers maar kunnen verslaan door het imiteren en perfectioneren van deze aanpak. Dit is een schoolvoorbeeld van een artificieel intelligentie probleem. In grote lijnen bestaat het denkproces uit de constructie van een zoekboom, vertrekkende vanuit een bepaalde startpositie, waarbij elke mogelijke zet van de machine of de opponent aanleiding geven tot een nieuwe tak. Een optimale zet kan dan bepaald worden mits alle mogelijke eindposities op een correcte manier geëvalueerd en vergeleken kunnen worden. De computer heeft hier het gigantisch voordeel van de capaciteit voor het opslaan, doorlopen en verwerken van deze zoekbomen, en kan aldus zo’n 20 zetten vooruitkijken.

IBM Deep Blue

Is een belangrijke etappe in de strijd van mens tegen machine op het schaakbord. Het was de IBM Deep Blue machine die er, in 1997, voor het eerst in slaagde de Wereldkampioen Gary Kasparov te verslaan. Dit gegeven is enigszins controversieel, maar het blijft wel een betekenisvol wapenfeit omdat definitief duidelijk werd dat de prestaties van de schaakmachines naar het hoogste niveau getild waren. Bijna 20 jaar later blijft dit de belangrijkste conclusie, met als bedenking dat geen enkele schaakcomputer onfeilbaar is en systematisch elk spelletje zou kunnen winnen. Sommige kenners beschouwen de speelstijl van de computers als weinig creatief, gebaseerd op brute force en het uitbuiten van de menselijke fouten van de tegenstander. Vanuit een theoretisch standpunt moet men ook erkennen dat er geen sluitend algoritme is om elk spelletje te winnen. Vooral de fase van het eindspel lijkt moeilijk onder controle te krijgen en vereist een aparte strategie gebaseerd op het analyseren van een enorme collectie gekende end games.

Hoe dan ook, het research team van IBM moest rond de milleniumwisseling op zoek naar een nieuwe uitdaging …

Jeopardy! (Waagstuk)

Jeopardy! is het bekende quiz programma waar 3 kandidaten een reeks vragen voorgeschoteld krijgen over algemene onderwerpen zoals actualiteit, geschiedenis, sport, kunst, literatuur, woordspelingen, en dergelijke. Deze vragen worden geformuleerd als een opgave (clue) en het antwoord moet geformuleerd worden als een vraag. Als voorbeeld één van de opgaven in de vlaamse versie van de quiz:

Opgave: Grote, grijze zoogdieren die onder andere in Afrika leven en toeteren met hun slurf.
- Juist antwoord kandidaat: Wat zijn olifanten?

Het recht om te antwoorden wordt verleend aan wie het snelst op de knop drukt (nadat de volledige opgave gelezen is door de quizmaster) en bij goed antwoord pakt de kandidaat de winst en mag hij het volgende thema (en prijskaartje kiezen), bij fout antwoord krijgt een andere kandidaat zijn kans. Kan een computer zich ook hier meten met een menselijke opponent ? IBM ontwikkelde hiervoor een “alwetende” machine genaamd Watson.

Een waagstuk voor Watson

De uitdaging voor de machine is hier van een andere orde dan bij het schaakspel en de vraagstelling is veel complexer. Zo is het universum van alle mogelijke clues en antwoorden praktisch onbegrensd en lenen deze zich ook veel minder tot een formele representatie met een vaste set van spelregels. Bovendien, als de machine zich wil meten als gelijke met de menselijke opponent moet deze ook in staat zijn de uitgesproken clues van de quizmaster te interpreteren (natural language processing), en een vocaal antwoord te genereren. In de praktijk heeft men wel een aantal faciliteiten voorzien voor Watson zoals het sturen van een elektronisch signaal i.p.v. een lichtsignaal zodra de kandidaten mogen antwoorden.

Gelukkig beschikt Watson over een enorme collectie van documenten (zo’n 200 miljoen pagina’s encyclopedieën, artikels, boeken, ..) en data, maar het volstaat uiteraard niet om de documenten op te diepen die qua keywords gerelateerd zijn. Watson moet een precies en relevant antwoord kunnen geven. De aanpak hiervoor is het gelijktijdig uitvoeren van tientallen (heuristische en statistical learning) algoritmen voor het analyseren van de clue als natural language, formuleren van hypotheses, en het evalueren en combineren van resultaten om tenslotte een lijst van mogelijke antwoorden voor te stellen. In de terminologie van artificiële intelligentie spreekt men over information retrieval (in tegenstelling tot zuiver document retrieval) en automated reasoning. Het probleem in zijn geheel behoort tot het domein van open domain question answering dat momenteel in volle ontwikkeling is.

Dat het IBM research team, in samenwerking met een aantal amerikaanse universiteiten er in geslaagd is deze uitdaging tot een goed einde te brengen mag blijken uit een aantal topprestaties waar Watson een spelletje Jeopardy! heeft gewonnen (zoals bijvoorbeeld in dit videofragment waar de tegenkandidaten de grootste moeite hebben om in het spel te komen), dit na een aantal jaren onderzoek in de periode 2005-2010. Zie ook het volledige verhaal over Watson op Wikipedia.

Kritiek op Watson

Het is niet evident de prestaties van Watson op hun juiste waarde te schatten. Zo moet men opmerken dat de machine er volledig op gericht was om te presteren in de gestandardiseerde omstandigheden van de Jeopardy! set. Hierbij heeft de machine toch een paar onbegrijpelijke steken laten vallen maar was de prestatie voor het overige op een uiterst hoog niveau.

Dit betekent niet dat Watson klaar staat om al het intellectuele denkwerk van de mens over te nemen. Zo is een weetjes vraag over amerikaanse presidenten toch nog altijd makkelijker dan een ingewikkelde medische diagnose, een complex juridisch dossier of een bewijs uit de wiskunde waar onderzoekers al jaren op werken. Het mag ook duidelijk zijn dat Watson niet in staat is tot emoties of empathie, en ook geen creatief gedrag vertoont, toch cruciale kwaliteiten als de machine wil wedijveren met de mens.

De grote filosoof en taalkundige Noam Chomsky omschreef in een interview het fenomeen Watson als een grotere pletwals (“a bigger steamroller”), daarmee doelend op het feit dat het succes van Watson steunt op een enorme rekenkracht en geheugen toegang (“dus brute force”) eerder dan op fijne redeneringen.

In een artikel in de New York Times geven de professoren Sean Dorrance Kelly en Hubert Dreyfus een gelijkaardige kritiek (“Watson does not come within a million miles of replicating the achievements of everyday human action and thought”) en analyseren zij één van de foutjes die Watson maakt om te besluiten dat Watson weliswaar vaak kan scoren met statistical learning maar niet altijd de relevantie van een gegeven correct kan inschatten.

Een geniale zet

Vriend en vijand zijn het er zeker wel over eens dat dank zij de prestaties van Watson de CEO, Watson de Jeopardy! kampioen en zijn broertje de schaakkampioen, Watson een uiterst sterk merk is. Bij uitstek geschikt als merknaam voor de Analytics producten en diensten van IBM. Misschien dacht u zelfs al spontaan aan Watson Analytics bij het lezen van de titel van deze blog ?

In een vervolg op deze blog gaan we meer uitvoerig in op Watson Analytics. Het mag duidelijk zijn dat IBM hiermee hoge verwachtingen creëert zowel op het vlak van de prestaties in de toepassingen als op zakelijk vlak.

RStudio Shiny – Visualisation and Web application framework for R

Lieven Desmet — Wed, 22 Jul 2015 07:37:50 +0000

Shiny is een extensie van R die toelaat interactieve (web-) applicaties te bouwen. Een basisversie is gratis te downloaden als R-package. Interactieve dashboards kunnen ontwikkeld worden onder Shiny en gemakkelijk lokaal ontplooid worden of gedeeld worden onder R gebruikers, maar kunnen ook gepubliceerd worden als webapplicatie mits het installeren van Shiny Server (beschikbaar in Open Source en in Professional versie).

Shiny est une extension de R qui permet la création d’applications (web) interactives. Une version de base est disponible gratuitement (package R). Des dashboards interactifs développés avec Shiny peuvent être déployés localement, partagés entre utilisateurs R ou publiés comme application web. Cette dernière utilisation demande l’installation de Shiny Server (Open Source ou version Professionelle).

QRShiny220715 Download

(bijna) 40 jaar R – Hype of succes verhaal ?

Lieven Desmet — Wed, 22 Apr 2015 09:00:38 +0000

In IT kringen is de programmeertaal C en zijn varianten al jaren een begrip. Wat weinig mensen weten is dat in de jaren 70 in hetzelfde Bell labs een andere programmeertaal het levenslicht zag. Deze taal was niet bedoeld als all-purpose programmeertaal maar eerder als interactieve toolkit voor statistische data-analyse, met nadrukkelijke aandacht voor grafische visualisatie naast een groot aantal specifiek ontworpen en gedocumenteerde functies voor statistische verwerking. In hoofdzaak ontwikkeld door John Chambers en S gedoopt kan deze taal gezien worden als een voorloper van R. Om precies te zijn, Chambers situeert de eerste gesprekken over S in mei 1976, zodat we nog ruim een jaar de tijd hebben voor de voorbereiding van 40 jaar R.

New S en S PLUS

De huidige versie van R is in grote lijnen gebaseerd op een gewijzigde versie van S die eind de jaren tachtig ingevoerd is. Belangrijke keuzes waren het gebruik van C in de plaats van FORTRAN als onderliggende taal, een consistent gebruik van functies en een meer uitgebreid object-georiënteerd model.

Begin de jaren 90 wordt S-PLUS gecommercialiseerd als statistische data analyse tool. Versies voor de belangrijke platformen worden ontwikkeld en de statistische toolkit werd sterk uitgebreid, in lijn met ontwikkelingen in het domein. De strategische keuze om een gratis studentenversie te lanceren (2002) zal zeker bijdragen tot de bekendheid van het systeem onder statistici.

En daar is R …

In 1993 komt een nieuwe groep rond John Chambers (Ross Ihaka en R Gentleman) met een open source versie van de new S programmeertaal. Verschillen tussen deze implementatie en de S-PLUS implementatie zijn beperkt zodat gebruikers van de ene gemakkelijk met de andere van start kunnen. Qua filosofie is er echter een wereld van verschil omdat R een GNU project is. Dit betekent dat de code open source is en dus vrij beschikbaar voor gebruikers om ze uit te breiden en te verbeteren. Bovendien zijn er geen beperkingen om R te verdelen onder het grote publiek. Deze filosofie is heel erg aangeslagen in de academische wereld waar het gebruikelijk is dat nieuwe ontwikkelingen gedeeld en gepubliceerd worden. Heel veel packages zijn het resultaat van wetenschappelijk onderzoek waar naast het publiceren van de theoretische resultaten nu ook de methoden meer en meer gepubliceerd worden als bijproduct. Men kan terecht spreken van een community, waar een deel van de gebruikers actief betrokken zijn bij het verder ontwikkelen en documenteren van het project. Tegelijk worden bijeenkomsten georganiseerd voor gebruikers, en zijn er ontzettend veel initiatieven om het gebruik van R te verbeteren via mailing lijsten en cursussen, zoals bijvoorbeeld Quick-R en het recente belgische initiatief Datacamp.

Hoewel het ontwikkelen van R packages zich vooral afspeelt in linux omgevingen en met C code zijn er versies voor alle operating systemen en in het bijzonder voor windows. In combinatie met R zijn er bovendien een aantal grafische omgevingen voor handen die gebruikersvriendelijker zijn dan de standaard console, zoals bijvoorbeeld de veel gebruikte RStudio die beschikbaar is in gratis standalone en server versies maar ook in betalende professionele versies met support. OpenAnalytics is een belgisch bedrijf dat onder meer een freeware server platform aanbiedt (Architect) en systemen die toelaten R verwerking te integreren in de business of labo-workflow (R service bus).

Van het labo naar het bedrijf

Ondertussen hebben meerdere generaties enthousiaste studenten hun weg gevonden naar bedrijven en instellingen. Zo is R beetje bij beetje geïntroduceerd in verschillende sectoren, waarvan de biomedische en financiële vooralsnog het meest prominent zijn.

Het feit dat R in een handomdraai gedownload en geïnstalleerd kan worden laat toe dat R gemakkelijk kan ingezet worden. Hoewel de focus van R nog altijd interactieve data-analyse is, worden de grafische mogelijkheden van R ook erg geapprecieerd. Door de ontwikkelingen in een aantal wetenschappelijke disciplines zoals de bio-informatica worden steeds zwaardere eisen gesteld aan de verwerkingscapaciteiten van het R systeem. R volgt dus de ontwikkelingen qua high performance computing op de voet, en heeft ondertussen ook alle functionaliteiten die nodig zijn voor data management.

Dit alles maakt R natuurlijk ook bijzonder interessant voor big data analytics.

Of toch een beetje gehyped ?

Voor vele R gebruikers van het eerste uur is het feit dat R gehyped zou zijn een nogal vreemd idee. Immers, zij gebruiken en ontwikkelen als specialisten een tool die precies gericht is op de problemen waar zij mee bezig zijn. De hype ontstaat dus als het grote publiek, dat niet noodzakelijk ervaring heeft met data-analyse, voorgespiegeld wordt dat met deze nieuwe tool een hele resem aan complexe problemen kunnen opgelost worden, zonder dat je daarvoor specialist hoeft te zijn.

Het feit dat nu meer gebruikersvriendelijke visuele omgevingen beschikbaar zijn verhult enigszins dat werken in R traditioneel neerkomt op code schrijven. Het feit dat een functie of voorbeeldscript bestaat voor wat je wil doen betekent nog niet dat je deze meteen op je data aan de praat krijgt. Uiteraard is documentatie beschikbaar maar deze kan al eens cryptisch zijn en is niet geschreven voor een groot publiek. Bovendien lijkt het moeilijk de gebruiker volledig af te schermen van technische aspecten van de installatie en object-georiënteerde modellen … en zit er vaak nog een grote performantie winst in het programmeren van C subroutines voor bepaalde intensieve deeltaken.

De steile leercurve kan natuurlijk altijd verzacht worden door het gebruik van visuele omgevingen (zo bijvoorbeeld RStudio’s Shiny voor het ontwikkelen van web applicaties) en het voorzien van de nodige omkadering voor support en coaching. De eindgebruiker zal dan ongetwijfeld ervaren dat investeren in R snel vruchten afwerpt (en hierbij wordt al eens vergeten dat het vertrouwd raken met software zoals Excel ook veel tijd gekost heeft).

Besluit

Op zijn bijna 40^ste is R springlevend en heeft het zeker zijn plaats verdiend naast de grote commerciële oplossingen voor statistiek en analytics. Men kan terecht spreken van een lingua franca programmeertaal voor data-analyse en statistical learning. Door het open source karakter zijn er geen beperkingen op de verspreiding van R maar de inzetbaarheid van R voor het grote publiek hangt af van het soort gebruik. De kracht van R en het voordeel van de packages zit vooral in het gevorderd gebruik maar mits de nodige coaching en omkadering kunnen minder gevorderde eindgebruikers ook met R aan de slag. In dat geval moeten bedrijven en instellingen rekening houden met kosten voor training en kunnen beschikken over specialisten die het systeem kunnen opzetten en onderhouden. In 2006 vermeldde John Chambers nog de integratie van R in andere systemen als één van de grote uitdagingen voor de toekomst. Ondertussen zien we R meer en meer opduiken als component in de geïntegreerde systemen voor analytics die vendors aanbieden.

Big Data Analytics … What’s in a name ?

Lieven Desmet — Mon, 03 Nov 2014 09:44:29 +0000

In deze bijdrage proberen we het fenomeen Big Data Analytics te definiëren en te omschrijven. Zonder volledig te willen zijn (zo zijn de ethische en privacy aspecten eigenlijk een discussie op zich) belichten we een aantal algemene aspecten.

Als u dit leest is de kans bijzonder klein dat u nog nooit van Big Data gehoord hebt. Sinds enkele jaren worden we immers zowat dagelijks met de term om de oren geslagen in de media. In een recent rapport besteld door Barack Obama wordt Big Data voorgesteld als niets minder dan een revolutie.

En toch, wie kan zeggen precies te weten wat ermee bedoeld wordt? Het blijkt dat er zeer uiteenlopende meningen bestaan en velen zien Big Data als een zoveelste buzz-woord, gebruikt om indruk te maken, maar inhoudelijk zeer vaag. Maar ook het internet, dat tegenwoordig gemeengoed is, werd aanvankelijk door sommigen gezien als een hype. Nu is het voor vele mensen dé informatiebron bij uitstek, en het googelen heeft terecht zijn plaats gevonden in de woordenboeken van de Nederlandse taal.

BIG DATA, BIG BUSINESS, BIG DEFINITIONS

Wat meteen opvalt bij dit googelen is dat het vooral de grote IT bedrijven zijn die naar boven komen in de zoekresultaten. Het fenomeen Big Data lijkt vooral geassocieerd met de IT Business, eerder dan met de academische wereld of de grote wereldleiders.

In de IT business wordt het marktonderzoeksbureau Gartner vaak geciteerd als de referentie voor investeerders die de technologische evoluties willen volgen. Het is dan ook Gartner’s 3V definitie in verband met Volume, Variety en Velocity waarnaar vaak verwezen wordt als de norm.

Terwijl de eerste V verwijst naar de reusachtige volumes aan data die worden gegenereerd door de huidige geautomatiseerde processen van bedrijven, overheid en in de sociale media (alsook het zogenaamde Internet of Things), benadrukt de tweede V dat die data van zeer uiteenlopende structuur en inhoud kunnen zijn, van zeer gestructureerd, zoals bijvoorbeeld databanken met officiële gegevens, tot ongestructureerd, zoals bijvoorbeeld het geheel van de posts op internetfora. De derde V verwijst naar de grote snelheid waarmee de data gegenereerd worden in het kader van mekaar snel opvolgende transacties, zoals bijvoorbeeld op de beursvloer, real-time metingen en uiteraard de vele interacties die zich afspelen op het internet. Deze drie dimensies samen kunnen er toe leiden dat de conventionele manieren van data-opslag en verwerking niet meer toereikend zijn.

Het onderliggend idee is dat Big Data een enorm potentieel aan waardevolle informatie bevatten. Het extraheren en exploiteren van die informatie kan een substantieel competitief voordeel opleveren.

“Frequently bought together” ANALYTICS toegepast op BIG DATA

De aankoopsuggesties die u krijgt bij de on-line aankoop van een boek zijn het resultaat van een analyse van het aankoopgedrag van alle klanten die ook in dat boek geïnteresseerd waren en de kans dat u overtuigd kan worden zo’n suggestie in uw winkelwagentje te laden is groter dan voor een willekeurig boek. Dit is een typisch voorbeeld van wat men Analytics noemt.

Analytics is echter een buzz-woord op zich dat hand-in-hand gaat met Big Data. Of liever, een hele familie van termen: predictive analytics, advanced analytics, business analytics, text analytics … Het algemene idee van het exploiteren van data om waardevolle inzichten en informatie te verwerven is zeker een werkbare definitie, maar de verwerking van de data die er achter schuil gaat is ook heel divers en kan gaan van low-level beschrijvende statistiek tot state-of-the-art complexe modelleringen door experten in een bepaald vakgebied.

Big Data is innovatie …

Enerzijds zorgen het (deels mobiele) internet, de automatisering en de informatisering voor steeds groter wordende datasets. Anderzijds zijn er een aantal reële technologische evoluties in de IT die het mogelijk maken effectief Big Data te verwerken. De recente evoluties op het gebied van de commodity hardware voor opslag en verwerking, in combinatie met nieuwe performante technologieën voor gedistribueerde database servers zijn zonder meer verbluffend.

In parallel hiermee is er een ongekende vooruitgang in het domein van de computerwetenschappen op het vlak van kunstmatige intelligentie en machine learning, gebaseerd op het feit dat computersystemen in zekere mate de menselijke intelligentie kunnen nabootsen en als het ware kunnen leren van de data. Het is precies deze combinatie van innovatieve technologie en algoritmes die aan de basis liggen van de Big Data Analytics succesverhalen in domeinen zoals bijvoorbeeld fraude-detectie en internet marketing.

Big Data Analytics op het terrein van de statistiek en de data-analyse

Toch moet men tegelijk ook opmerken dat het idee om informatie uit data af te leiden niet nieuw is, maar traditioneel toebehoort aan de domeinen van de statistiek en de data-analyse. Een groot aantal Big Data Analytics technieken zijn bovendien rechtstreeks ontleend aan de statistiek, hoewel dat slechts zelden expliciet zo gesteld wordt. Zo spreekt men bijvoorbeeld niet over de statisticus maar gebruikt men de term data scientist of data miner voor de persoon die de analyse uitvoert en interpreteert.

Om beter te begrijpen wat de verschillen zijn tussen de traditionele aanpak en de Big Data Analytics filosofie vermelden we een aantal impliciete aannames die vaak naar voor komen in Big Data Analytics voorbeelden en boeken over het onderwerp. Deze aannames zijn onder meer:

dat alle data voorhanden zijn (geen steekproef) en dat “verborgen” verbanden dank zij automatische maar rekenintensieve methoden naar boven komen,
dat een causaliteitsbewijs (oorzakelijk verband) niet altijd nodig is omdat correlaties vaak voldoende informatief zijn,
dat data-quality niet zo’n groot probleem is.

Over deze aannames bestaan echter meningsverschillen en er wordt druk gedebatteerd tussen verschillende scholen van Big Data Analytics. Toch blijkt er nu een grote consensus te komen dat data-quality wel degelijk cruciaal is. Zo wordt aan de definitie nu vaak de V van Veracity (betrouwbaarheid) toegevoegd.

De V van aVailability … ?

Dé cruciale aanname is uiteraard dat Big Data daadwerkelijk beschikbaar is voor diegene die een bepaald analytics project voor ogen heeft. Hier moet men echter rekening houden met ownership van de data (de bereidwilligheid (of prijs) van de eigenaar om de data ter beschikking te stellen), privacy aspecten en technische beperkingen. Deze factoren mogen er niet toe leiden dat de data die in de dataset komen niet diegene zijn die het meest relevant zijn voor het project, maar diegene die het gemakkelijkst beschikbaar zijn.

Back to Basics… het doel als vertrekpunt

Big Data Analytics legt de klemtoon op het laten spreken van de data, de zogenaamde data-driven benadering, maar hierbij mag men niet uit het oog verliezen wat het uiteindelijke doel is van de analyse oefening.

In een context van fraude bestrijding of voor een marketing campagne is het doel typisch het bereiken van een zo hoog mogelijke performantie in termen van detectie van de echte fraudegevallen of het bereiken van nieuwe klanten. In deze voorbeelden is een Big Data Analytics aanpak vaak aangewezen: meestal is de opdrachtgever ook eigenaar en beschikt die over de volledige data. Bovendien gaat het er niet om een bepaalde theorie te valideren en daardoor is er meer flexibiliteit qua modellering dan in de klassieke statistiek en data-analyse.

Anderzijds, in een wetenschappelijke studie is het vertrekpunt vaak een concrete en precieze onderzoeksvraag. De opgebouwde expertise en literatuur in een bepaald vakgebied suggereert dan welke de te volgen methodologie is, welke de relevante data en welke de pertinente analysetechnieken zijn. In de meeste gevallen passen de data netjes op één machine en daarom spreekt men tegenwoordig soms over …. Small Data.

Uiteraard kan de technologie en methodologie van Big Data Analytics bijkomende mogelijkheden en verdere inspiratie bieden voor wetenschappelijk onderzoek, maar de toegevoegde waarde is niet altijd gegarandeerd.

Besluit

Het is onmogelijk in een blog formaat een volledig overzicht te geven van Big Data Analytics, zelfs niet als we ons beperken tot de definities. De term Big Data Analytics verwijst enerzijds naar innovatieve technologieën en methodologieën die nieuwe baanbrekende toepassingen kennen maar is anderzijds te vaag om een zinvolle discussie mogelijk te maken (sommige sprekers vermijden bewust deze terminologie).

De hype heeft ongetwijfeld tot onrealistische verwachtingen en verwarring geleid bij het ruime publiek. Zo wordt soms de indruk gewekt dat het beschikken over een bepaalde technologie voldoende is, terwijl het verzamelen en voorbereiden van de data ook een hele klus kunnen zijn, om nog niet te spreken over de analyses die vaak slechts door experten kunnen uitgevoerd worden. Het is ook duidelijk dat Big Data Analytics niet zomaar alle vraagstukken kan oplossen.

Volgens de typologie van de hype cycle van Gartner stevenen we dan ook af op de zogenaamde trough of disillusionment, het stadium waar een deel van het publiek afhaakt omdat de hooggespannen verwachtingen niet worden waar gemaakt. Dit is een noodzakelijke fase die voorafgaat aan de duurzame maturiteit van elke technologie.

Op termijn kunnen we echter zeker verwachten dat een aantal technologieën hun plaats zullen vinden en dat er een grotere belangstelling zal komen van het publiek naar onderzoek gebaseerd op data en feiten. In die fase van maturiteit zal ook duidelijk worden welke de duurzame toepassingen zullen zijn van Big Data Analytics, welke technologieën geïntegreerd werden in bestaande vakgebieden en welke terminologie zal overblijven.