Jan Meskens – Smals Research

Sparklines: trends in tabellen

Jan Meskens — Mon, 22 Sep 2014 07:44:13 +0000

Om goede data-analyses te maken is het cruciaal dat men data op een goede, begrijpbare, manier voorstelt. Dit leidt tot betere inzichten en op termijn dus ook tot betere data-driven business beslissingen. In deze blogpost staan we stil bij het belang van het correct presenteren van data en bekijken we een populaire visualisatietechniek: de sparklines!

Data analyse & aggregaten

In de rol van data-analist (of data scientist) krijgt man vaak de vraag om data op een zodanige manier te manipuleren en transformeren zodat men een beter inzicht in de onderliggende gegevens verkrijgt. Om dit inzicht te verkrijgen gaat de data-analist vaak aggregaten bouwen op één of meerdere niveaus. Zo kan men bij het analyseren van klantengegevens een aggregaat bouwen op het niveau van bv. de individuele klant om inzicht te krijgen in de producten die elke klant koopt. Maar evengoed kan men een aggregaat bouwen op het niveau van de klant’s woonplaats om te weten welk productsegment populair is in welk gebied en hoeveel klanten terug te vinden zijn in elk geografisch gebied. Vaak worden de aggregaten iteratief verfijnd in samenwerking met de klanten/opdrachtgevers om zo de businessvraagstukken beter te begrijpen en het resultaat tijdig bij te sturen waar nodig.

Eens men een aggregaat van gegevens heeft gebouwd kan men dit door middel van verscheidene artefacten presenteren. De drie populairste vormen om aggregaten te presenteren zijn:

Visualisaties, waar men de bekomen data visueel gaat voorstellen door middel van een grafische component (histogram, trendlijn, …). Zo kan men op een snelle manier een globaal beeld krijgen van de onderliggende data. Het nadeel van visualisaties is dat men vaak de details over de onderliggende informatie niet meer ziet.
Tabellen, waar men textueel in verschillende kolommen weergeeft hoe de data zich gedraagt per rij. Dit geeft goed de details van de data weer, maar het is moeilijker om via een tabel een globaal zicht op de data te krijgen. Ook is het moeilijker om trends in een tabelstructuur weer te geven.
Interactieve dashboards, waar men door eenvoudige manipulaties doorheen data kan navigeren en parameters kan aanpassen. Dit is een sterke presentatietechniek, maar niet altijd even eenvoudig te bouwen (hoewel er de laatste jaren een enorme evolutie is ontstaan in de dashboarding tools).

Sparklines: een vernieuwde presentatievorm

Naast de drie traditionele vormen om aggregaten voor te stellen, is er de laatste jaren in de (academische) informatie visualisatie community gewerkt aan nieuwe – betere – voorstellingen van geaggregeerde data. Een van die nieuwe technieken is sparklines, een zeer kleine lijngrafiek zonder assen of coordinaten. Dit laat toe om op een heel kleine ruimte een verloop of trend aan te tonen. Zo kunnen sparklines perfect binnen een tabel of tekst geplaatst worden om het verloop van een parameter aan te geven. Onderstaand ziet men een voorbeeld van een sparkline die de aandelenkoers weergeeft (Bron: Wikipedia).

De democratisering van Sparklines: integratie in populaire data-analyse tools

De laatste tijd worden sparklines steeds populairder buiten het academische milieu. Een belangrijke drijfveer is hiervoor ongetwijfeld de integratie van sparklines in populaire analyse tools zoals onder andere Excel. Met enkele eenvoudige klikken kan je de rijen van je tabel uitbereiden met kleine lijn- of bargrafiekjes. Zo hebben wij in een project voor een klant onlangs sparklines gebruikt om trends aan te tonen voor bepaalde parameters (zie screenshot links). De klant was overigens zeer tevreden over deze presentatievorm.

Conclusie

Als data-scientist grijpen we vaak terug naar de traditionele methodes om data en bijhorende aggregaten voor te stellen. Toch blijft het belangrijk om ook de nieuwe visualisatietrends te volgen. Dit laat toe om data nog begrijpbaarder voor te stellen. Een voorbeeld hiervan is sparklines, dewelke de laatste jaren ook in de standaard analyse tools zijn ingebakken.

Wat is de volgende mobiele interactietechniek na touch?

Jan Meskens — Mon, 14 Apr 2014 09:46:34 +0000

Sinds de introductie van de IPhone is er een grote verschuiving geweest van mobiele devices met “hardware buttons” naar touch-screen devices. Een hele stroom van touch-screen devices werd sindsdien gelanceerd, zowel telefoons als tablets, met uiteenlopende hardware specificaties en besturingssystemen (voornamelijk Android en IOS). Intussen zijn we al een aantal jaren verder en zijn er allerlei smartphone prototypes in ontwikkeling – het ene al realistischer dan het andere – dewelke totaal nieuwe vormen van interactie kunnen ondersteunen. Het doel van deze blog is enkele van deze interactiemanieren te bekijken zodat we ons een beeld kunnen vormen over de toekomstige smartphone. Of misschien blijft het allemaal bij science fiction?

Vervormbare mobiele devices

De Paddle is een prototype van een “vervormbaar” mobiel device waarbij men kan interageren met het device door het fysiek te “vervormen”. Zo kan men door het device bladeren als een boek om door een agenda te navigeren. Door het device volledig open te klappen kan men dan weer een kaart bekijken op de maximale schermgrootte. Ook kan men het device als een “ring” plooien en het vervolgens rond draaien. Dit is een ideale interactiemanier om bv. door een lijst van items (zoals het weerbericht) te navigeren.

Het Paddle prototype werd ontwikkeld door het EDM (UHasselt), u kan het aan het werk zien op volgend filmpje.

Imaginary mobiele devices

De imaginary mobiele devices hebben een heel nieuwe benadering: devices zijn niet langer meer zichtbaar en men kan alle nodige interacties doen op ons eigen lichaam (bv. de handen). Zo kan je bv navigeren tussen je mail, en je telefoon door te ‘sliden’ overheen verscheidene denkbeeldige interactiepunten op je hand.

Imaginary mobiele devices is een project van het Hasso-Plattner instituut. Momenteel situeert dit project zich in de conceptuele fase en wordt bekeken of dergelijke interactiemanieren werkbaar zijn.

Het mobiele gesture tracking device

Gesture recognition heeft al geruime tijd naam gemaakt in de gaming wereld (denken we maar aan de Kinect en de Playstation 4). Deze gesture-based gaming oplossingen maken meestal gebruik van optische tracking, wat moeilijk realiseerbaar is op mobiele devices. Een heel andere benadering is de MYO gesture control armband, dewelke gebaren herkent door spierspanningen te meten. Dit is een enorm mobiele oplossing en zou het mogelijk kunnen maken om in de toekomst gesture tracking te gebruiken in combinatie met een mobiel device.

Brillen als mobiele devices

Een realistischer en bekender alternatief dan bovenstaande voorbeelden is de zogenaamde “interactieve bril”, waar een scherm vervat zit in de brilglazen en interactie gebeurt via spraak en/of een touchpad verwerkt in de brilmontuur. Het bekendste voorbeeld van deze technologie is de google glass. In zeer specifieke sectoren blijkt overigens dat een “mobiel bril device” een enorme meerwaarde kan bieden. Denken we maar aan medisch personeel, dewelke dan informatie over patienten kunnen opvragen via de bril ipv via een (mogelijk onhygiënisch) touchscreen of toetsenbord. De google glass is momenteel reeds op de markt en zou binnenkort wel eens enorm aan populariteit kunnen winnen.

Smart watches

Een andere hype naast de interactieve brillen zijn de smart watches, met als bekendste voorbeeld de Samsung Gear. Via een touchscreen ingebouwd in een polshorloge kan je dezelfde bewerkingen uitvoeren als met een klassieke smartphone: telefoons opnemen, fotos bekijken, door het nieuws bladeren, etc. De meeste smartwatches werken bovendien als een verlengstuk van je smartphone. Zo kan je zonder je telefoon uit je broekzak te nemen op je polshorloge reeds bekijken wie je aan het bellen is en desgevallend ook opnemen.

Besluit

De evolutie in mobiele devices en bijhorende interactietechnieken is bijzonder boeiend. Tot voor de introductie van van de IPhone leek een gebruiksvriendelijke touchscreen-based device nog science fiction en enkele jaren later heeft bijna iedereen een smartphone. Zijn de mobiele brillen (google glasses) een zelfde spectaculaire evolutie beschoren? Of stappen we binnenkort allemaal over op een smart-watch of een gesture-based oplossing? Op de langere termijn kunnen we zelfs al indenken dat we met een onzichtbaar of plooibaar device onze favoriete apps bedienen. Wij blijven het alvast met plezier volgen.

Analytics behind the scenes: humans and computers versus big data

Jan Meskens — Wed, 04 Sep 2013 12:15:58 +0000

“Analytics” is een term die in de data-analyse wereld vaak gebruikt wordt, maar waar weinig consensus over de inhoud van deze term bestaat. Zo beschrijft men analytics vaak als een manier om een antwoord te bieden aan vragen over de inhoud van de data (descriptive analytics) of over toekomstige ontwikkelingen die kunnen voorspeld worden op basis van de huidige data (predictive analytics). Daarnaast kan men analytics ook classifiseren volgens de methodes/technieken die gebruikt worden om een antwoord te bieden aan de voornoemde vraagstukken. In dit laatste geval spreken we dan vaak over methodes zoals statistische analyses, data mining, artificiele intelligentie, classificaties of machine learning.

Human versus computational analytics

In deze blogpost gaan we analytics op een andere manier indelen: volgens de actor die analytics uitvoert. Actors zijn diegenen die de analytics technieken uitvoeren en beoordelen, om vervolgens de nodige conclusies te trekken. Zo kunnen we spreken over twee soorten analytics:

Human analytics, wat alle technieken omvat waar men manueel op zoek gaat naar patronen, afwijkingen, … in de data. Dit zijn meestal technieken die gebaseerd zijn op visualisaties van bepaalde parameters. Deze technieken laten toe om de finesses van een bepaald soort data leren te kennen, de volledigheid in te schatten en te bepalen welke variabelen belangrijk zijn of niet. Een groot voordeel van deze techniek is dat hij kan ingezet worden voor heel veel verschillende types problemen en types van data. Een nadeel is dat men vaak slechts een beperkt aantal parameters kan visualiseren/interpreteren en dat men bij hele grote volumes data vaak met steekproeven dient te werken om een niet te cluttered beeld van de data te verkrijgen.
Computational analytics, zijn alle technieken waar de computer autonoom (i.e. volgens bepaalde regels en algoritmes) op zoek gaat naar patronen in de data. Dit zijn meestal methodes die gebaseerd zijn op artificiele intelligentie (neurale netwerken, support vector machines), machine learning (decision trees) of geavanceerde statistiek (verscheidene regressie analyse technieken). Een groot voordeel aan deze technieken is dat ze automatisch op regelmatige tijdstippen of ten gevolge van bepaalde events kunnen uitgevoerd worden en de nodige resultaten leveren. Computational analytics mogen we echter niet aanzien als een magische oplossing voor alle analyse problemen. Zo verwachten bijna al deze technieken een zeer strikt data-schema (de eerste normaalvorm), wat heel wat transformaties vooraf nodig maakt. Deze transformaties dienen door mensen bedacht en beschreven te worden, wat de nodige tijd kost. Voorts is niet elke techniek even geschikt voor elk probleem: soms is techniek één goed voor een binaire keuze uit een set numerieke variabelen daar waar techniek twee met heel veel verscheidene soorten variabelen en een ongebalanceerde data-verdeling overweg kan.

Het human-computational data-analyse proces

De opdeling uit de vorige sectie laat ons nu toe om een typisch data-analyse proces te beschrijven waar zowel human als computational analytics noodzakelijk zijn. De stappen die we in zo een typisch human-computational data-analyse proces nemen zijn de volgende:

We passen éérst human-analytics technieken toe om de data die relevant is voor een bepaald probleem te leren kennen. Zo kunnen we de impact van bepaalde variabelen inschatten en de links tussen bepaalde bronnen leren kennen. In deze eerste fase kunnen we de geproduceerde, human-readable, visualisaties gebruiken tijdens overleg met de klant om bepaalde keuzes beter af te wegen.
Nadat we tijdens de eerste fase de data hebben leren kennen kunnen we de nodige data-transformaties implementeren. Deze data-transformaties dienen gebouwd te worden om in de volgende fase de computational-analytics technieken van input te voorzien. Typische transformaties die hier gebouwd worden zijn: het discretiseren/omvormen van continue variabelen, het omzetten van netwerkdata naar een reeks van variabelen en het herkennen van features in multimedia data.
Nu we een reeks van variabelen gebouwd hebben dmv van data-transformaties kunnen we het computational-analytics algoritme van input voorzien. Dit gebeurt in twee stappen:

De trainingsfase, een subset van de data (de trainingsset) wordt door het algoritme geanalyseerd. Dit leidt tot een predictief model dat bepaalde beslissingen over de data kan nemen op basis van nieuwe inputdata.
De toepassingsfase, het predictief model wordt losgelaten op de nieuwe data, wat zal leiden tot een reeks van voorspellingen/schattingen over deze nieuwe data.

Bovenstaand proces toont aan dat de rol van de computer – computational analytics – slechts beperkt is in de hele data-analyse. Mensen – analisten – dienen eerst de data voldoende te begrijpen, de nodige transformaties te bouwen en het juiste algoritme te kiezen alvorens een computer de data op regelmatige basis kan analyseren. Bovendien is het belangrijk op te merken dat dit een iteratief proces is. Zo zal men initieel vaak transformaties maken op basis van de visualisaties, maar blijken deze niet significant voor het uiteindelijke predictief model. Dan dient men terug te grijpen naar nieuwe, meer gedetailleerdere visualisaties, om andere transformaties te maken die vervolgens het resultaat van het predictief model positief kunnen beinvloeden.

De uitdaging: “Big(ger) Data”

Door technieken als human en computational analytics te combineren kunnen we data via een vast stramien gaan analyseren en het resulterende model later op een structurele manier exploiteren. Toch schuilt er een addertje onder het gras: het volume aan data dat we analyseren heeft een grote invloed op de snelheid van het proces. Zo is het moeilijk om hele grote volumes aan data te visualiseren op een een begrijpbare, niet cluttered manier (er zijn immers slechts ~3 miljoen pixels die kunnen benut worden in een visualisatie). Dit zal leiden tot foute interpretaties, wat vervolgens de aanleiding kan zijn voor niet optimale transformaties en kwalitatief minder goeie input voor de predictieve modellen. Bovendien duurt het uitvoeren van de transformaties op grote hoeveelheden data ook veel langer en vraagt het bouwen van een visualisatie uit een grote data-set ook meer tijd.

Om om te gaan met de problematiek van “big(ger) data” zien we twee interessante ontwikkelingen:

krachtigere en gedistribueerde server-infrastructuren, die het mogelijk maken om bijzonder grote hoeveelheden informatie op een heel korte tijd te verwerken. We denken hier eenerzijds aan cluster of gedistribueerde infrastructuren die verscheidene servers in parallel gebruiken om queries uit te voeren. Anderzijds denken we aan data warehouse appliances die via een compleet getunede architectuur bijzonder snel analytics vraagstukken kunnen oplossen.
nieuwe visualisatietechnieken, die het mogelijk maken om ondanks een bijzonder grote hoeveelheid data toch door het bos de bomen nog te zien. Visualisatietechnieken die hierbij een belangrijke rol spelen zijn smoothing, aggregatie (binning) en interactie:
- Smoothing zal bepaalde lokale effecten uitvlakken (gebruik makende van bv. piecewise regression) om een globaal beeld op de data te werpen.
- Aggregatie deelt data op in bins met als maximum aantal bins het aantal pixels die beschikbaar zijn voor de visualisatie. Van elk van deze bins gaat men vervolgens een aantal summary statistics bouwen die men visualiseert op het scherm. Zo krijgt men een idee van welke data zich in elke bin bevindt.
- Via interactie-technieken kan men dan inzoomen op bepaalde bins om details over deze bins te bekijken, kan men bepaalde parameters interactief filteren, data op een andere manier voorstellen, … .

Besluit

Analytics is geen magische techniek die een arbitraire hoeveelheid data als input krijgt om vervolgens de nodige conclusies te trekken. Er is een belangrijke rol weggelegd voor de menselijke analist, die de data dient te analyseren en transformeren alvorens hij door een computer kan geinterpreteerd worden dmv computational analytics. Daarnaast worden analytics technieken enorm beinvloed door de hoeveelheid data die men wenst te analyseren. Om op een goede manier met grote volumes aan data om te gaan is de vooruitgang in processing power voor analytics en visualisatie- en interactietechnieken cruciaal.

Dynamisch rapporteren: analyseer, presenteer en reproduceer

Jan Meskens — Wed, 16 Jan 2013 10:35:38 +0000

Het maken van rapporten verloopt traditioneel in drie fases:

het exporteren van gegevens uit een databank;
het bewerken en analyseren van deze gegevens in een analyse-tool (Excel, R, Matlab);
het integreren en presenteren van de resultaten in een presentatie-tool (Word, Powerpoint, Website).

Deze aanpak is weinig flexibel en ondersteunt geen iteratief proces. Zo is het arbeidsintensief om bijkomende analyses uit te voeren: men moet hiervoor meestal nieuwe gegevens uit de databank halen en in de analyse-tool pompen, nieuwe analyses uitvoeren in deze analyse-tool en vervolgens de resultaten van deze analyses invoegen in de presentatie tool. Naast het uitvoeren van bijkomende analyses is het ook niet evident om na enkele maanden/jaren een analyse te reproduceren op nieuwe (vaak recentere) data en te presenteren in een nieuw rapport. Om consequente reproducties kunnen uit te voeren moet de nieuwe data terug geimporteerd worden in de analyse-tool, de bronbestanden van de analyses terug gebruikt worden om de analyses uit te voeren en de resultaten geintegreerd worden in een powerpoint-presentatie of rapport.

Dynamisch rapporteren is een andere manier van rapporteren die toelaat om flexibeler om te gaan met wijzigingen in de analyses en/of de bron-data. Het grote verschil met de traditionele manier van rapporteren is het samenvoegen van de analyse-fase en presentatie-fase. Door analyses direct uit te voeren in de presentatie-tool is het niet langer meer nodig om de resultaten van de analyse-tool te kopieren in de presentatie-tool. Dynamische rapporten laden ook zelfstandig data in, wat impliceert dat het afleveren van een nieuw databank-extract ook resulteert in een nieuw rapport.

Uiteraard behoort dynamisch rapporteren tot de core-functionaliteit van de meeste grote rapporterings en/of BI-suites. Er bestaan echter ook een aantal producten die toelaten om op kleinere schaal dynamisch te rapporteren zonder een complete BI-suite uit te rollen. Een open-source tool die door ons geschikt bevonden is om zulke dynamische rapporten te genereren is Knitr. Deze tool is gemaakt om rapporten te genereren op basis van analyses uitgevoerd in R, een statistisch analysepakket waar we het laatste jaar heel wat positieve ervaringen mee opgebouwd hebben. Met behulp van Knitr kunnen R-scripts verweven worden in rapporten die geschreven zijn in markup-talen zoals LaTeX, HTML of Markdown (vooral bekend als wiki-taal). Zo krijgt men dus één markup-file die zowel de layout en tekst van het rapport bevat als de scripts die de analyses uitvoeren. Deze markup-file kan vervolgens mdhv Knitr gecompileerd worden tot een PDF, website of presentatie.

In conclusie kunnen we stellen dat tools als Knitr het mogenlijk maken om dynamisch en flexibel rapporten op te stellen en te reproduceren. Een nadeel aan dit type tools is echter de hogere leercurve om er mee aan de slag te gaan. Zo heb je voor het opstellen van een Knitr rapport al snel kennis van R en een markup-taal als Markdown of LaTeX nodig om een degelijk rapport af te leveren. Op de langere termijn betaalt de investering in het leren van deze talen zichzelf echter terug omdat men sneller rapporten gaat kunnen afleveren, aanpassen, automatiseren en reproduceren.

OpenCPU: een platform om R-code als webservice te hergebruiken

Jan Meskens — Thu, 11 Oct 2012 10:50:22 +0000

Om (complexe) statistische en wiskundige berekeningen te implementeren is het vaak aangewezen om specifieke programmeertalen en bijhorende omgevingen te gebruiken zoals bv Matlab, R, SAS of Mathematica. Elk van deze omgeving laat toe om in een beperkt aantal lijnen code berekeningen uit te voeren die moeilijk te realiseren zouden zijn in meer generieke programmeertalen. Onze eigen ervaringen met verscheidene geavanceerde analyses in R – een open-source programmeertaal en software omgeving voor statistische berekeningen en grafieken – bevestigen dit.

Het gebruiken van specifieke programmeeromgevingen heeft echter ook enkele vervelende nadelen:

De output van de berekeningen uitgevoerd in deze programmeeromgevingen dienen vaak gebruikt te worden als input voor een nieuw programma, rapport, webapplicatie, … . Dit is vaak een complex gegeven waarbij heel wat configuratie en integratie komt kijken;
Analyses en berekeningen kunnen vaak nuttig zijn voor meerdere personen, instellingen, onderzoekers… Het is weinig flexibel om analyses te delen met de requirement om een hele software stack te installeren.

Om code afkomstig van specifieke programmeeromgevingen makkelijker te delen en te integreren introduceert doctoraatsonderzoeker Jeroen Ooms ‘OpenCPU‘. OpenCPU is een centraal platform waarop men R-scripts kan plaatsen. De scripts die men op OpenCPU plaatst worden vervolgens automatisch beschikbaar als REST-services. Deze services kan men makkelijk integreren in andere programmas/webapplicaties. Belangrijk is ook te vermelden dat OpenCPU een open-source platform is. Dit maakt het mogelijk om intern een eigen OpenCPU-server op te zetten (met de nodige beveiligingen) en indien nodig te koppelen aan interne achterliggende databases.

OpenCPU Tutorial

Bij wijze van proof-of-concept hebben we getest hoe men OpenCPU kan gebruiken om een bar-chart analyse te genereren in een web-applicatie. De stappen die we hierbij ondernomen hebben staan hieronder opgesomd.

Stap 1: Verzamel en upload de nodige data

In deze proof-of-concept analyseren we het klantenbestand van bedrijf X. Elke klant heeft een bepaalde Importance code van 1 tot 9 (1=een klant met weinig opbrengst, 9 een klant met heel veel opbrengst). Per klant houdt men ook bij of hij makkelijk beschikbaar is voor een telefonische enquete (Y=yes,N=no). Onderstaande tabel geeft deze twee dimensies weer, gekoppeld aan het aantal klanten (Frequency) die in deze categoriëen kunnen ondergebracht worden.

Importance	Available	Frequency
1	N	557238
2	N	53354
3	N	27857
4	N	18746
5	N	5575
6	N	2717
7	N	1702
8	N	547
9	N	504
1	Y	132551
2	Y	19218
3	Y	10332
4	Y	5881
5	Y	1469
6	Y	478
7	Y	142
8	Y	26
9	Y	5

Bovenstaande data kan men uploaden als CSV-file (of ander formaat) op de OpenCPU server via volgende link. Eens de data geupload is krijgt men een unieke ID terug waar de data te vinden is.

Stap 2: Creëer en save het R-script

In een volgende stap willen we een barchart genereren die per Importance-code weergeeft hoeveel klanten er zijn, en elke bar inkleurt in twee vlakken: een vlak makkelijk beschikbare klanten en een vlak met moeilijk beschikbare. Deze grafiek genereren we met de ggplot2 library. Onderstaande code omvat het complete R-script:

#Include ggplot 2 library
library("ggplot2"); 
#Haal de geuploade data op (zie stap1, de DATAID is dezelfde als uit deze stap) 
myTable <- read.csv("http://public.opencpu.org/R/tmp/DATAID/csv?");
#Plot en print te barchart
pl <- ggplot(myTable, aes(x = Importance, y = Frequency,fill=Available) ) + geom_bar(stat="identity");
print(pl);

Dit script zetten we op de OpenCPU-server via volgende link, we kiezen voor de optie ‘save to store’. Deze code krijgt ook een unieke ID, dewelke we later kunnen gebruiken om de code uit te voeren via een REST-service.

Stap 3: Maak de web-applicate met de REST service

De bar-chart die we gemaakt hebben in het R-script willen we nu tonen in een web-applicatie. Dit doen we via een eenvoudige Javascript applicatie die de OpenCPU-REST webservice aanroept. OpenCPU biedt verscheidene webservices aan om een plot te laden: als pdf, png, svg, R-file, … Wij hebben hier gekozen om de plot in te laten als SVG. Onderstaand is de source-code en een screenshot van de webapplicatie weergegeven (de status na het klikken op de “calculate graph” button).

Besluit

Specifieke softwarepakketten en programmeertalen zijn handig om in enkele lijnen code complexe berekeningen uit te voeren. Het is echter moeilijk om deze scripts te koppelen met bestaande code en te delen met verschillende mensen. Als oplossing voor dit probleem kunnen we OpenCPU gebruiken, een opensource server waar R-code op gepusht kan worden en vervolgens kan aangeroepen worden als REST-service. In een tutorial toonden we aan hoe deze aanpak werkt. Er zijn ook nog 2 blogposts die deze aanpak beschrijven: embedding a plot in your website en running a block of R-code in OpenCPU.

Putting predictive analytics to work: the role of open source software

Jan Meskens — Thu, 10 May 2012 08:00:26 +0000

Predictive analytics is een hot topic, vooral omdat er meer en meer toepassingen (of cases) opduiken die gebruik makende van deze technologie zeer goede resultaten halen. Zo werd er op Predictive Analytics World in Londen een heel gevarieerd programma aangeboden met cases die hun nut bewezen hebben in domeinen als healthcare, customer retention, financial services, supply chain management, etc.

Het inzetten van predictive analytics is echter niet triviaal, zoals we al aangehaald hebben in een vorige blogpost. Men moet zich namelijk bewust worden van de sterktes en zwaktes van de bestaande technieken alsook hoe men deze het best inzet. Hier komt meer bij kijken dan het aankopen van de juiste software. Zo moeten er ook voldoende analytics-skills aanwezig zijn en moet er een organisatie bestaan rond het afhandelen van analytics-vragen. Het gevaar bestaat ook, vaak na aankoop van de software, dat men predictive analytics gaat gebruiken voor problemen die beter opgelost kunnen worden met andere -eerder klassieke- technieken.

De ideale manier om bewust te worden van de mogelijkheden van predictive analytics is het uitvoeren van projecten met open-source analytics software. Op deze manier krijgt men een beter inzicht in welke taken/knelpunten er bij analytics projecten komen kijken, kan men een organisatie op poten zetten en verwerft men betere skills en inzichten in de onderliggende technieken. Zelf doorlopen wij op dit moment het open-source traject, meer bepaald het R software pakket. Een andere voorbeeld van open-source data analytics is de Zimmo analytics case, uitgevoerd door de bigdata.be community.

Naast ‘bewustwording’ heeft het gebruik maken van open-source analytics software ook een ander belangrijk voordeel. Uit een recente discussie op de R-datamining LinkedIn group onthouden we dat state-of-the-art analytics technieken bijna altijd eerst beschikbaar zijn in open-source software (zeker in het geval van R). Deze implementaties worden vaak gemaakt door universiteiten en dienen ter validatie van nieuwe technieken. Door gebruik te maken van open-source software heb je dus meestal een voorsprong op commerciële pakketten.

Als besluit kunnen we stellen dat open source analytics een logische stap is in het uitbouwen van een predictive analytics dienstverlening. Wanneer de organisatie en juiste kennis voorhanden is kan men (indien nodig) overstappen naar een commercieel ondersteunde tool. Het open-source voortraject laat ook toe beter inzicht op te bouwen in de eigen behoeftes en tegelijk de sterktes en zwaktes van commerciële spelers, zodat het kiezen van de juiste tool voor een bepaald probleem makkelijker wordt.

Predictive analytics

Jan Meskens — Sun, 25 Dec 2011 11:18:19 +0000

De meeste bedrijven en overheden hebben de voorbije jaren een enorme schat aan data verzameld. Deze data is echter vaak zo groot en divers dat het moeilijk wordt om ze te interpreteren en er iets uit te leren. Met behulp van data mining wordt het echter wel mogelijk om kennis uit grote en complexe datasets te halen. Data mining destilleert deze kennis uit data met behulp van technieken uit disciplines als machine learning, artificial intelligence en statistiek.

Data mining kan men op twee verschillende manieren aanwenden: om data uit het verleden te verklaren door middel van beschrijvende statistiek (descriptive analytics) of om toekomstige trends en evenementen te voorspellen (predictive analytics). In deze infosessie geven we een overzicht van predictive analytics technieken, hoe we deze kunnen toepassen alsook enkele praktische cases en tools.

Jan Meskens – Smals Research

Sparklines: trends in tabellen

Sparklines: een vernieuwde presentatievorm

De democratisering van Sparklines: integratie in populaire data-analyse tools

Wat is de volgende mobiele interactietechniek na touch?

Vervormbare mobiele devices

Imaginary mobiele devices

Het mobiele gesture tracking device

Brillen als mobiele devices

Smart watches

Besluit

Analytics behind the scenes: humans and computers versus big data

Human versus computational analytics

Het human-computational data-analyse proces

De uitdaging: “Big(ger) Data”

Besluit

Dynamisch rapporteren: analyseer, presenteer en reproduceer

OpenCPU: een platform om R-code als webservice te hergebruiken

Putting predictive analytics to work: the role of open source software

Predictive analytics

Presentation

Predictive analytics