Bob Lannoy – Smals Research

Er zit een hacker in mijn diepvries!

Bob Lannoy — Mon, 03 Mar 2014 09:00:29 +0000

Als er rond één term een hype was het laatste jaar, dan was het wel het “Internet of Things”, kortweg IoT. Dit “internet der dingen” uit zich in allerhande alledaagse en steeds meer persoonlijke toestellen die zich kunnen verbinden aan het internet of netwerk, en met elkaar kunnen praten. Endat is niet zonder risico.

Intelligente dingen

We kennen intussen allemaal wel een smartphone en smart-TV, maar er zijn een hele resem aan andere toestellen, groot en klein, die van intelligentie en een netwerkverbinding worden voorzien. Dat gaat van koelkasten tot lampen, van stappentellers tot electriciteitsmeters en allerlei sensoren. Alle grote IT-spelers zijn hiermee bezig, met als recentste voorbeeld de overname van Nest (intelligente thermostaat en rookmelder) door Google.

Het doel van deze genetwerkte “dingen” is de mogelijkheid scheppen om informatie van onze omgeving te capteren, kunnen verwerken en terug aan te bieden ter consumptie. Dit kan zijn door de eindgebruiker zelf (hoeveel melk staat er nog in de koelkast?) maar ook door andere toestellen die deze info gebruiken (de wasmachine en vaatwas spreken af wie wanneer stroom verbruikt) tot dienstverleners die deze info gebruiken, zoals de bedoeling is van intelligente electriciteitsmeters om de elektriciteitsvoorziening te optimaliseren.

Al deze toestellen en sensoren moeten uiteraard kunnen communiceren met hun omgeving. Afhankelijk van het soort toestel, zijn er diverse protocollen die hiervoor gebruikt kunnen worden. Een Smart-TV zal zich meer als een computer gedragen met de klassieke communicatieprotocollen (HTTP/S), waarbij een temperatuursensor eerder zal gebruik maken van MQTT.

Maar wat met de veiligheid?

Een eerste observatie is dat de gebruikte protocollen en functies van bij de start moeten voorzien worden van de nodige veiligheidsmechanismen. Zonder enige vorm van authenticatie, autorisatie en gegevensbeveiling ziet het er niet goed uit met de veiligheid van de miljoenen en miljoenen toestelletjes die communiceren met hun omgeving. Een voorbeeld uit een gerelateerd domein is GPS. De communicatie met GPS-satellieten is van bij het begin opgezet zonder beveiliging. Dit heeft nu als resultaat dat met behulp van een GPS-zender een toestel kan overtuigd worden dat het op een andere lokatie is of in een andere richting beweegt dan werkelijk het geval is.

Maar zelfs indien de communicatiedragers voldoende beveiligd zijn is er echter nog een ander probleem. Het inbouwen van intelligentie vereist een technisch platform of besturingssysteem voor deze objecten. Zoals we dit kennen in de computerwereld zijn informatiesystemen gevoelig voor veiligheidslekken en zijn frekwente updates noodzakelijk om niet onbeschermd het internet op te gaan. Een eenvoudige sensor zal hier wel minder gevoelig aan zijn dan een intelligente televisie, gezien de lage complexiteit.

De laatste maanden zijn er redelijk wat vermeldingen geweest in de pers rond veiligheidslekken in allerlei toestellen zoals Samsung Smart TV’s, internet routers van diverse merken, Android en heel recent het WeMo “Home Automation” systeem van Belkin.

De intelligentie in die toestellen zit vervat in de firmware. Om veiligheidsissues op te lossen moet die firmware vernieuwd worden. Het probleem bij veel huishoudtoestellen en consumentenelektronica is dat de release cyclussen voor nieuwe modellen redelijk kort zijn. Elke 6 tot 12 maand is er wel een nieuw model of een verbeterde versie. De firmware van de oudere toestellen wordt echter door leveranciers slechts gedurende een beperkte tijd onderhouden. Kijken we maar naar onze smartphones waar Android updates, afhankelijk van de telefoonleverancier, slechts beschikbaar zijn voor 18 maand.

Dit is uiteraard ideaal voor leveranciers om gebruikers naar nieuwere toestellen te brengen maar zeg nu zelf, ga je na 2 jaar een nieuwe interactieve koelkast of wasmachine kopen omdat er een veiligheidsprobleem is in de firmware?

Safety first

Leveranciers zullen dus moeten leren omgaan met langere levensduur van intelligente toestellen en mogelijkheden om deze nog te kunnen voorzien van de nodige veiligheidspatches. Ze zullen ook moeten zorgen voor de meest veilige standaardinstellingen van hun toestellen zodat de consument à priori maximaal wordt beschermd.

De consument zal zich ook bewust moeten zijn van de risico’s die verbonden zijn aan deze nieuwe genetwerkte wereld. Maar het moet hem wel zo gemakkelijk mogelijk gemaakt worden om toestellen af te schermen voor onbevoegden of bepaalde extra veiligheidsmaatregelen te treffen zonder hiervoor een uitgebreide technische opleiding te genieten.

Derde partijen zullen zich uiteraard ook wel mengen in het ecosysteem en de nodige apps en toestellen voorzien om de beveiliging op zich te nemen, net zoals we nu virusscanners en firewalls hebben voor onze PC’s.

Kortom, het internet der dingen belooft ons te introduceren in interessante tijden. De kinderziekten die het nu ondervindt, moeten toelaten om deze voldoende gewapend tegemoet te treden zonder te veel veiligheidsrisico’s.

Het quantum aan de macht? – deel 2

Bob Lannoy — Tue, 11 Jun 2013 09:00:42 +0000

Waar we in een vorige post hebben gezien waar de fundamenten van quantum computing liggen en wat de theoretische mogelijkheden zijn, dan gaan we nu eens kijken hoe het op het vlak van technische realisaties is gesteld.

Misschien toch nog eens kort het belangrijkste herhalen:

Qubits (quantum bits) zijn superpositie van twee toestanden. Ze stellen niet 0 of 1 voor, maar beide tegelijk.
Als je een qubit meet, dan krijg je één van de twee mogelijke toestanden. Je beïnvloedt het systeem door een meting. Dat betekent ook dat qubits heel gevoelig zijn aan externe verstoringen.
Qubits kunnen met elkaar verstrengeld worden (entanglement). Dit betekent dat hun toestanden gekoppeld zijn en als je de ene verstrengelde qubit meet, dan bepaal je ook de toestand van de andere.

Quantum Computer in de ALDI?

Het technologisch landschap van quantum computing kan je vergelijken met de begindagen van de computer waar men gebruik maakte van buislampen in plaats van transistors. Eén computer nam een zaal in beslag, zelfs science fiction schrijvers gingen uit van grote gebouwen die één enkele computer zou bevatten. De komst van de transistor en de miniaturisatie van alle electronicacomponenten hebben dit beeld grondig veranderd. We zitten voor quantum computers nog in het stadium waar men de eerste “buislampen” aan het testen is. Het gaat om de fundamentele component, namelijk de realisatie van één of meerdere qubits.

Ion trap – Innsbruck, Oostenrijk – M. Nolf

Er zijn verschillende strategieën om qubits te maken, je komt daar termen tegen zoals NMR, quantum dots, ion traps (waarvoor de nobelprijs in 2012 werd uitgereikt), SQUIDS (supergeleidende systemen) en Majorana-deeltjes. Een belangrijk probleem is dat van de levensduur van een qubit en de “entanglement” met andere qubits. Deze moet lang genoeg zijn om computationele bewerkingen uit te voeren. De omgeving kan een destructieve invloed hebben op hetgeen men de coherentie noemt van het quantumsysteem (resultaat is decoherentie). Je moet het systeem dus aan de ene kant voldoende afschermen om de qubits stabiel te houden en aan de andere kant moet je middelen hebben om de qubits uit te lezen. Daar komt momenteel heel wat materiaal bij kijken, zoals vacuümkamers, lasers en koelsystemen die het geheel afkoelen tot dicht tegen het absolute nulpunt (-273°C).

Met qubits alleen ben je natuurlijk niet veel, alle klassieke systemen errond zoals registers/geheugen en communicatiemiddelen heb je ook nodig om een volledig werkend systeem te hebben. Men heeft al concrete experimenten uitgevoerd met bijvoorbeeld de factorisatie van een getal, zij het een klein getal (21). De actuele proefopstellingen zijn systemen met slechts enkele qubits.

Recent waren er in de pers verschillende berichten over een quantum computer (met 512 qubits!) van D-Wave Systems met bijvoorbeeld Google, NASA en Lockheed Martin als klanten. Met de marketing die D-Wave de laatste jaren voert lijkt het alsof de eerste commerciële quantum computer een feit is. Er bestaat echter sedert het begin in 2007 heel wat discussie over het feit of ze er wel een echte quantumcomputer gemaakt hebben. Het is pas recent dat hun toestel van dichterbij bekeken kan worden door wetenschappers. De belangrijkste criticus van hun werk laat echter geen spaander heel van het quantum gedrag van hun systeem. De toekomst zal moeten uitwijzen wat er nu precies allemaal van aan is. Het is niet omdat de grote namen van de wereld veel geld pompen in een systeem dat het effectief werkt.

Het mag dus duidelijk zijn dat algemeen beschikbare quantum computers nog vele jaren weg zijn. Met regelmaat van de klok komen wetenschappers op de proppen met andere manieren om qubits te realiseren. De evolutie in dit domein gaat razendssnel. Het is ook nog maar de vraag of er men ooit zal kunnen bouwen met de kracht die men er theoretisch aan toekent. Dat zal pas duidelijk worden als men systemen heeft gebouwd met een voldoende aantal qubits.

Quantum cryptografie / Quantum Key Distribution

Dan rest ons nog een laatste “quantum”-onderwerp namelijk het gebruik van quantumeffecten in versleutelde communicatie. Dit is een domein waar er al reële implementaties zijn. Men spreekt soms van quantum cryptografie maar eigenlijk is dit “Quantum Key Distribution”.

In een cryptografische communicatie is het de bedoeling dat twee partijen (in voorbeelden zijn dit meestal Alice en Bob) een boodschap kunnen uitwisselen zonder dat een derde partij (Eve) deze communicatie onderschept en ontcijfert. Het belangrijkste element is de sleutel die wordt gebruikt om de communicatie te versleutelen. In klassieke cryptografie heb je symmetrische en asymmetrische versleuteling. In een symmetrisch systeem gebruiken zowel Alice als Bob dezelfde sleutel. Het grote probleem is dat je een veilige manier moet hebben om deze sleutel uit te wisselen vooraleer je aan de versleutelde communicatie begint. Daarom is een asymmetrisch systeem een betere optie. Hierbij zijn er twee gekoppelde sleutels per partij, namelijk een private en publieke sleutel. Als Bob een versleuteld bericht wil sturen naar Alice dan zal hij de boodschap versleutelen met de publieke sleutel van Alice. Enkel Alice kan dan met haar private sleutel het bericht ontcijferen. Het asymmetrische systeem is gebaseerd op sterke wiskundige principes, maar af en toe moet men toch overstappen naar nieuwere algoritmen of langere sleutels.

Met Quantum Key Distribution (QKD) kun je bij het symmetrische systeem blijven met de garantie dat de sleutel op een veilige manier verstuurd wordt. De basisidee is heel simpel: in quantum mechanica verstoor je een systeem door een meting uit te voeren. Dus als een tussenliggende partij de sleutel onderschept (en repliceert om ongezien te blijven), dan kunnen de twee eindpunten dit te weten komen.

De gebouwde systemen zijn momenteel gebaseerd op het versturen van fotonen (lichtdeeltjes) en het meten van hun polarisatie. Er zijn een aantal cryptografische protocols met namen zoals BB84 en E91, beiden vernoemd naar hun bedenkers en het jaartal. Het grootste verschil tussen beide is dat E91 gebruik maakt van verstrengelde fotonen en BB84 niet.

BB84 werkt in grote lijnen als volgt (vereenvoudigd voorgesteld in de figuur en meer uitgebreid in deze afbeelding)

Alice stuurt een reeks fotonen die zich in een bepaalde polarisatie bevinden.
Bob meet die deeltjes met willekeurige polarisatiefilters.
Ze vergelijken dan via een open/klassiek communicatie kanaal op welke manier de meting werd uitgevoerd (niet de resultaten van de meting) en op basis daarvan wordt de sleutel bepaald.
Als er een derde partij de deeltjes onderschept dan kunnen Bob en Alice bepalen dat dit gebeurd is door een deel van de sleutel te vergelijken.
Nadat de sleutel is vastgelegd, kan men via klassieke weg versleutelde berichten met elkaar uitwisselen.

Er zijn al commerciële systemen op de markt die QKD mogelijk maken, zoals dit van IDQuantique. Men gebruikt een optische vezel om de sleutel uit te wisselen. Met behulp van heel zwakke lichtbronnen (één foton per keer) verstuurt men de sleutels. Er is echter nog een beperking op de afstand die men kan overbruggen (ongeveer 200km), dit omdat men het lichtsignaal niet kan versterken zonder het systeem te verstoren. Men voert ook experimenten uit om dit via rechtstreekse verbindingen te doen door de lucht of dit te proberen realiseren in de ruimte. Recent was er ook het bericht over de het gebruik van een quantum-netwerk in de laboratoria van Los Alamos in de VS. Dat geeft aan dat men op het gebied van QKD al ver staat met systemen die klein genoeg zijn om commercieel volledig bruikbaar te worden.

Ondanks de garantie aan de hand van fysische principes dat de communicatie op een perfect veilige manier kan gebeuren, is de technische implementatie ervan niet evident. De realisatie van een dergelijk systeem is nog steeds gevoelig voor veiligheidsinbreuken, zij het dan in de systemen errond.

Zo zijn we bij het einde gekomen van de blogposts rond quantum computing en quantum key distribution. We staan nog aan het begin van de technologische ontwikkelingen in dit domein en kunnen de komende jaren nog veel horen over successen en mislukkingen in dit gebied.

Het quantum aan de macht?

Bob Lannoy — Tue, 14 May 2013 08:39:55 +0000

Af en toe lezen we in de pers iets over experimenten met ‘qubits’ en het gebruik van quantummechanica in het uitwisselen van cryptografische sleutels. Deze reeks blogposts heeft tot doel om de achterliggende concepten wat duidelijker te maken en vooral aan te geven wat je nu eigenlijk kan en niet kan met quantummechanica in de IT-wereld.

Quantum wat?

Om een aantal zaken wat in context te plaatsen maken we eerst een uitstapje naar wat fysica. Quantummechanica of Quantumfysica is een theoretisch raamwerk uit de fysica dat tot doel heeft de microscopische wereld te beschrijven, met name de wereld op de schaal van atomen en moleculen. Jullie herinneren zich misschien de wetten van Newton voor de beschrijving van onze alledaagse wereld. Hoe meer je echter de wereld uitvergroot, hoe sneller blijkt dat deze wetmatigheden de wetenschappelijke toets niet meer doorstaan. In de 19de en begin van de 20ste eeuw werden een aantal fysische experimenten uitgevoerd die dit duidelijk aantoonden. Er was nood aan een betere beschrijving van onze wereld op atomair niveau, dit werd onder andere de Quantummechanica.

Een belangrijke ontdekking was de zogenaamde golf-deeltje dualiteit. Kort gezegd kan je een klein deeltje zoals een elektron ook beschrijven als een golf. Dit heeft zeer eigenaardige effecten tot gevolg. Het bekendste experiment dat dit duidelijk weergeeft is het dubbelspleten experiment van Young. Dit illustreert al onmiddellijk het tegen-intuïtieve karakter van quantummechanica, wat het voor iedereen moeilijk maakt om deze theorie te aanvaarden (ook voor Einstein). Misschien heb je al ooit aan een waterpoel twee stenen in het water gegooid. Dat kan je vergelijken met één watergolf die door twee openingen wordt gestuurd. Je kan dan zien dat de golven als cirkels uitdeinen en waar de golven elkaar tegenkomen krijg je interferentie. Op bepaalde plaatsen verdwijnt een stuk van de golf (een piek van de ene golf compenseert het dal van een andere) en op andere plaatsen heb je dan weer een hogere golf (de pieken van beide golven versterken mekaar). Op de figuur wordt dit weergeven op het linkse schema. Als je dit experiment met licht uitvoert krijg een interferentiepatroon met donkere en lichte banden (zie a op de figuur).

Vreemd genoeg krijg je dit gedrag ook met kleine deeltjes zoals elektronen. Je zou verwachten dat elektronen zich gedragen als harde bolletjes die door de ene of andere opening vliegen. Niets is minder waar, je krijgt een verdeling in zones die net zoals bij golven mekaar opheffen of versterken. Zoals je kan zien in de figuur rechts van b tot e krijg je bij de detectie van de aparte elektronen (elke stipje is een gedetecteerd elektron) op de duur een interferentiepatroon met donkere en bleke banden. Het vreemde is dat dit één elektron per keer gebeurt, het is dus alsof het elektron door beide openingen tegelijk gaat en met zichzelf interfereert.

Wat je hiervan kan onthouden is dat het deeltje zich lijkt te bevinden in 2 toestanden tegelijk, namelijk het door de ene spleet gaan of de andere. Dat het zich in in twee verschillende toestanden tegelijk bevindt, heet een superpositie. En het heeft een zekere waarschijnlijkheid om zich in een bepaalde toestand te bevinden.

Dat brengt ons op een tweede speciaal element van Quantummechanica: het meten. Zolang je niet meet in welke toestand zich zo een deeltje bevindt, dan is het in een superpositie of combinatie van bijvoorbeeld 2 toestanden, voor de eenvoud 0 en 1. Het moment dat je meet, beïnvloed je het systeem zodanig dat het deeltje zich een welbepaalde toestand zal bevinden, zijnde 0 of 1 en geen combinatie van beide. De superpositie verdwijnt dus. Als we het experiment van hierboven terugnemen en aan elke spleet een detector plaatsen om te zien langswaar het deeltje passeert, dan heeft dit als gevolg dat het interferentiepatroon verdwijnt. Een meer grafische beschrijving maar daarom niet meer begrijpbare uitleg kan je vinden in de kat van Schrödinger.

Dan rest er ons nog een laatste ingrediënt: entanglement of verstrengeling. Je kan deeltjes of quantum systemen met elkaar verstrengelen zodat hun toestanden sterk van elkaar afhangen. Dit gaat zo ver dat als je het ene systeem meet, je de toestand van het andere systeem ook bepaalt en dit onafhankelijk van de afstand tussen beide systemen. Dit is wat Einstein ‘spooky action at a distance’ heette.

Ik hoor jullie al zeggen “wat heeft dit nu nu allemaal te maken met computerwetenschap?”. Dat kom je te weten in de volgende paragraaf. Onthou vooral drie zaken:

een deeltje of systeem bevindt zich in een combinatie van verschillende toestanden (superpositie)
van zodra je meet, komt het systeem terecht in één specifieke toestand
je kan systemen met elkaar verstrengelen zodat de toestand van het ene helemaal bepaald wordt door de andere (entanglement)

Quantum computing

Allereerst kan je in de huidige wereld niet omheen dat allerlei electronica kleiner en kleiner wordt en dus te maken heeft met quantum-effecten. Deze kunnen zowel voor problemen zorgen maar in sommige gevallen kan je echter gebruik maken van die speciale eigenschappen om heel kleine structuren te bouwen. Daar gaan we het hier niet over hebben.

In klassieke computers werken we met bits die een toestand 0 of 1 hebben. Het equivalent in de quantum wereld noemt met een qubit (quantum bit). Zoals hierboven besproken bevindt deze qubit zich niet in de toestand 0 of 1 maar in een combinatie van beide, tot we de toestand proberen te meten. Als we een systeem zouden bouwen met een aantal qubits dan kunnen we de toestand van het totale systeem beschrijven aan de hand van de combinaties van de onderlinge toestanden van de qubits. Een systeem van 2 qubits kan je beschrijven als een combinatie van 2×2 toestanden, een systeem van 3 qubits aan de hand van 2³=2x2x2=8 toestanden en zo verder. Moest je er in slagen een 300 qubits systeem te bouwen heb je dus een mengvorm van 2³⁰⁰ toestanden wat een aantal is dat groter is dan het aantal deeltjes in het universum. Verwar dit niet met een klassiek systeem met 300 bits waarin je een getal van de grootte 2³⁰⁰ kan opslaan. Een quantumsysteem van 300 qubits bevat alle 2³⁰⁰ getallen (toestanden) tegelijk.

Het lijkt er dus op dat het veel krachtiger is dan een klassieke 0/1 bit systeem van de computers zoals we ze kennen. Je zou denken dat het systeem de oplossingruimte voor een probleem veel sneller zou kunnen doorzoeken dan bij een klassiek computer. Er is echter een obstakel: als je het systeem meet krijg je een specifieke (willekeurige) toestand die niet noodzakelijk de toestand (of oplossing) is die je zoekt. Het zal er dus op aankomen om het systeem zo te beïnvloeden dat je zonder het te meten, het toch in de richting van de oplossing stuurt. Deze hulp komt uit de hoek van de superpositie. We kunnen de toestanden van de verschillende qubits met elkaar laten interfereren zodat de toestanden die niet overeenstemmen met de gezochte oplossing elkaar opheffen. Als we dan meten dan krijgen we een resultaat dat ons dichter bij de oplossing brengt.

In Quantum computing zijn er een aantal algoritmen ontwikkeld die bepaalde sets van problemen sneller kunnen oplossen dan op een klassieke manier. Eerst iets meer over klassieke computersystemen. Men spreekt over efficiënte algoritmen om problemen op te lossen als dit kan in een “polynomiale tijd”. Een mooi voorbeeld van polynomiale tijd is het vermenigvuldigen zoals we dit op school hebben geleerd maar dan toegepast op binaire getallen. Als je twee binaire getallen, elk van lengte n met elkaar vermenigvuldigt dan zijn het aantal stappen die je nodig hebt van de orde n². Als n=10 dan komt dit op een 100-tal stappen. Daarnaast heb je problemen zoals het factoriseren van een getal in priemgetallen, namelijk een getal opsplitsen in het product van enkel priemgetallen, zoals 15=3×5. Daarvoor heb je met klassieke algoritmen een “super-polynomiale tijd” nodig. Het aantal stappen stijgt (quasi) exponentieel met de lengte van het getal. Dat betekent voor een getal van 10 bits dat je eerder 2ⁿ stappen zal nodig hebben, of 1024 stappen. Deze priemfactorisatie is iets wat de basis vormt van private/publieke sleutel cryptografie, zoals bijvoorbeeld in het RSA-algoritme. Dit vind je terug in alledaagse cryptografische bescherming zoals SSL dat bij https wordt gebruikt. Je kan de sleutel enkel breken door een factorisatie uit te voeren. Gezien we al snel spreken van sleutellengtes groter dan 1024 bits, begrijp je dat de tijd die je nodig hebt om die factorisatie uit te voeren evenredig is met het doorlopen van de 2¹⁰²⁴ stappen, wat heel lang zou duren. Ter informatie, het factoriseren van een 768-bits getal werd in 2009 uitgevoerd in een effort van 2.5 jaar met honderden machines.

Quantum computing verandert de balans echter. Shor heeft in 1994 een quantumalgoritme uitgewerkt dat het factoriseren van getallen terugbrengt tot een probleem dat in polynomiale tijd kan berekend worden. Dat maakt het dus vrij eenvoudig om snel een dergelijk cryptografisch systeem te breken. Er is intussen al sprake van “post-quantum” crypto algoritmen die op andere technieken gebaseerd zijn.

Een ander bekend quantum algoritme is dat van Grover. Dit laat toe om heel snel een ongesorteerde database te doorzoeken. In tegenstelling tot de klassieke manier waar je alle elementen één per één zou moeten doorlopen en gemiddeld n/2 pogingen zou nodig hebben, wordt dit mogelijk in √n stappen.. Wat voor systemen met veel elementen (bijvoorbeeld 1.000.000) een veel snellere manier wordt, namelijk 1000 in plaats van 500.000 stappen.

Maar kan een quantum computer dan alle problemen in polynomiale tijd oplossen? Neen, jammer genoeg niet. Er zijn nog veel types van computationele problemen die zelfs met een quantum computer momenteel niet veel sneller kunnen opgelost worden dan met een klassieke computer. Een voorbeeld is dat van het inkleuren van een kaart met 3 of 4 kleuren waarbij aangrenzende landen niet dezelfde kleur mogen hebben. Quantum computers kunnen echter ingezet worden om heel wat problemen te modelleren en op te lossen zoals het simuleren van quantumfysica zelf. Dat kan leiden tot betere inzichten in domeinen zoals chemie en nanotechnologie.

In een volgende post gaan we kijken wanneer we een quantumcomputer in de Aldi kunnen gaan kopen en nog een andere toepassing van quantummechanica, namelijk quantumcryptografie.

Doorzoek je interne websites met Nutch

Bob Lannoy — Mon, 11 Mar 2013 09:16:53 +0000

In een grotere organisatie heb je wel meerdere teams die een eigen website/wiki hebben naast het klassieke intranet. Vaak is dit niet geïntegreerd, terwijl dit een interessante bron van informatie kan zijn. Zoekmachines zijn de methode bij uitstek om disparate bronnen samen te brengen en doorzoekbaar te maken zonder alle sites samen te brengen op één platform.

In de open source wereld zijn Apache Lucene en Solr de vaakst genoemde oplossingen om een zoekmachine te bouwen. Het probleem is dat deze geen ‘web crawler’ bevatten, namelijk een systeem dat webpagina’s opvraagt, de inhoud indexeert en de aanwezige links op hun beurt verwerkt, net zoals Google doet. Apache Nutch is een zusterproject van Lucene dat zich op dit terrein waagt, namelijk een “Google” voor intern gebruik. In deze post gaan we eens kijken hoe je Nutch opzet en gebruikt. Merk op dat dit een technische uitleg zal zijn.

Voorbereiding

Nutch bestaat al sinds 2005 als Apache project en bestaat momenteel in twee versies: 1.6 (de stabiele versie waar er nog releases op gebeuren) en 2.1 (een vernieuwde versie met ondersteuning voor NoSQL backends). Voor de tests heb ik gekozen voor de laatste versie (2.1). Het eerste wat opvalt is het gebrek aan goede documentatie voor de 2.x reeks. Er zijn wat startpunten (Nutch op HBase en op MySQL) maar vaak ben je toch aangewezen op forums en blogposts van anderen.

Al snel bleek dat het opzetten niet zo evident was aangezien de onderliggende database tijdens het crawlen crashte. Na pogingen met HBase, MySQL en Cassandra, is het uiteindelijk toch gelukt met HBase, nadat de onderliggende machine genoeg RAM geheugen had gekregen (6GB in dit geval). Let op dat je niet de laatste versie gebruikt van HBase maar een versie die compatibel is met Nutch, zoals de versie 0.90.6.

Nutch zal volgende stappen doorlopen bij een eerste crawl:

initiële URL’s worden aan Nutch gegeven, bijv. de lijst met websites die je wenst te indexeren (inject)
en dan doorloopt Nutch een aantal maal het proces (dit wordt de depth genoemd)

generatie van lijst van URLs die moet behandeld worden (generate)
pagina’s ophalen (fetch)
inhoud van de pagina’s verwerken (parse). Hierbij kunnen zowel gewone html pagina’s geïndexeerd worden als documenten (PDF, DOC, …)
de Nutch DB update (updatedb)
opslag van de resultaten in Solr (solrindex)

Hier kan je een voorbeeldscript vinden dat alle stappen samenbrengt. Je kan ook gebruiken maken van het ‘crawl’-commando dat de stappen combineert, maar dan heb je minder zicht op de verschillende stappen van het proces.

Nutch kan zowel websites crawlen (http(s)://) als filesystemen (file:// en ftp://). Bij websites waar een HTTP authenticatie vereist is kunnen de nodige credentials in een configuratiebestand opgenomen worden. Let natuurlijk wel op dat dit credentials zijn die geen beschermde of gevoelige inhoud kunnen beschikbaar maken omdat de zoekresultaten publiek beschikbaar zullen zijn.

Configuratie

De configuratie van Nutch gebeurt in nutch-site.xml waar je de standaardparameters uit nutch-default.xml kan aanpassen. De interessante parameters zijn daar:

http.agent.name : welke browser agent string wordt er door doelwebsites gezien zodat je op die sites een crawler kan toelaten en ook een verschil kan maken tussen crawler-traffiek en gewone traffiek.
parser.character.encoding.default : welke encoding er moet gebruikt worden als deze ontbreekt (bijv. utf-8).
storage.data.store.class : welke backend er wordt gebruikt, bijv. org.apache.gora.hbase.store.HBaseStore voor Hbase.
plugin.includes : Nutch heeft een plugin architectuur die het mogelijk maakt om bepaalde functionaliteit toe te voegen. Er zijn een aantal plugins die standaard geconfigureerd zijn. In het geval van de tests werden volgende plugins gebruikt

protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor|more)|urlnormalizer-(pass|regex|basic)|scoring-opic

db.ignore.external.links : geeft aan of de crawler buiten de initieel aangegeven websites links mag volgen.
file.content.limit & http.content.limit: hoe groot mogen de geïndexeerde bestanden of webpagina’s zijn. Dit moet overeenkomen met wat je als groottebeperking opgeeft in de onderliggende databank.

Backend

De HBase backend kan ook getuned worden maar dat is eigenlijk een topic op zich. Je kan hier en hier wat informatie vinden. Het belangrijkste is dat er genoeg geheugen beschikbaar is.

Plugins

Zoals gezegd zijn er verschillende plugins die het proces kunnen sturen. Je kan die plugins ook apart aanroepen om het effect van een bepaalde configuratie te testen, wat uitermate handig is.

De standaardplugins die mij goed van pas kwamen:

URLfilter-regex

Je kan URL’s filteren en bepalen welke URL’s in aanmerking komen en welke niet. In het configuratiebestand “regex-urlfilter.txt” kan je dit met behulp van reguliere expressies configureren. URL’s die voldoen aan de expressie kan je dan uitsluiten door er ‘-‘ voor te zetten of expliciet toevoegen door ‘+’. Zo zal de regel

-index.php/Help:.*

Wikimedia links met de hulppagina’s niet indexeren of kan je bijvoorbeeld instellen dat het url-pad niet dieper mag zijn dan 7 niveau’s:

"-.*/(?:[^/]+/){7,}

Je kan een regel toevoegen aan het bestand en dan testen met:

 /bin/nutch plugin urlfilter-regex org.apache.nutch.urlfilter.regex.RegexURLFilter

Je geeft dan een url in en krijgt dan het resultaat of deze al dan niet gefilterd wordt.

URLNormalizer-regex

De opgehaalde URL’s kan je normalizeren naar een bepaalde vorm. Dit is vooral handig als je bijvoorbeeld een site indexeert waarvan documenten op verschillende locaties terugkomen maar met een verschillend pad. Dit was in de tests het geval met een website gebaseerd op IBM Lotus Domino. De url naar een document hangt af van het pad langswaar je er naar toe gaat.

Eenzelfde document heeft bijvoorbeeld als urls (met zijn identifier als laatste parameter):

http://website/databank.nsf//?OpenDocument
http://website/databank.nsf//?OpenDocument

Als je dan weet dat er een URL bestaat om het document rechtstreeks op te vragen door

http://website/databank.nsf/View/

dan kan je de bovenstaande urls normalizeren met behulp van volgende expressies


 (\.nsf)/[^/]*/(.*OpenDocument$)
 $1/View/$2

index-more

Deze plugin indexeert onder andere ook het content-type van de gecrawlde inhoud. Dit kan je achteraf gebruiken om in de zoekmachine te kunnen vernauwen op bepaalde content types zoals een PDF.

Integratie met Solr

Nutch heeft zijn eigen index maar je kan de gecrawlde pagina’s in Solr stoppen. Dit heeft als voordeel dat je een centrale Solr server kan gebruiken voor allerlei zoekfuncties en dat je de kracht, flexibiliteit en mogelijkheden van Solr kan gebruiken. De configuratie van Solr valt echter buiten het bestek van deze post. Je kan facetten gebruiken op specifieke velden zoals de beschikbare websites, de content types en zelfs de taal die gedetecteerd werd.

Als je geen gebruik wenst te maken van Solr kan je ook ElasticSearch gebruiken.

Het feit dat er nog een extra index wordt gebruikt heeft natuurlijk wel als resultaat dat je twee backends hebt met de gegevens. Het voordeel is wel dat de Solr instantie los staat van Nutch en dus ook gevoed kan worden met andere data.

Aangezien Nutch 2.1 zelf geen userinterface heeft om de index te doorzoeken ben je zowiezo aangewezen op een UI die bijvoorbeeld bovenop Solr staat. In de tests werd geëxperimenteerd met Ajax-solr, een set Javascript libraries om een UI te bouwen.

3,2,1 … start

Na alles te hebben geïnstalleerd en configureerd kan je een crawl starten. Het blijkt al snel dat er redelijk wat tuning nodig is om de crawl snel genoeg te laten verlopen.

Snelheid

De standaardconfiguratie van Nutch beperkt sterk het aantal pagina’s per tijdseenheid die worden opgehaald. In een eerste run (7 iteraties van het hierboven beschreven proces) duurde het verschillende uren om 6000 pagina’s op te halen. Je kan dit sneller laten verlopen door te spelen met de parameter fetcher.server.delay (aantal seconden tussen requests op eenzelfde server, zodat je een server niet overspoelt met requests, ) en een aantal parameters van de Fetcher threads ( fetcher.threads.fetch, fetcher.threads.per.queue, fetcher.threads.per.host). Met de waarden 3, 30, 15 en 3 voor deze vier parameters verliep dezelfde crawl een heel stuk sneller. Er werden uiteindelijk 80 000 urls verwerkt op 2.5 uur. Je moet wel in de gaten houden of de server nog meekan, de onderliggende backend en de Solr-instantie.

Onderhoud

De resultaten van de crawl kan je gaan bekijken door zoekopdrachten uit te voeren en te gaan kijken of er ongewenste resultaten bij zijn of andere vreemde URLs. Die kan je dan in de Nutch configuratie uitsluiten of omvormen.

Daarnaast moet je ook gaan kijken in de Solr index en configuratie wat er daar allemaal is van mogelijkheden en verbeteringen. Na aanpassingen te hebben gedaan in Solr kan je de volledige Nutch-index opnieuw in Solr stoppen door volgend commando:

> bin/nutch solrindex  -reindex

Vernieuwen van pagina’s

Een onduidelijk punt dat bleef is het verversen van de pagina’s. Het zogenaamd “recrawlen” is niet goed gedocumenteerd. In de Nutch index wordt er bijgehouden wanneer een pagina opnieuw mag opgehaald worden. Deze waarde wordt ingesteld aan de hand van de parameters rond de “Fetchschedule” zoals db.fetch.interval.default. Standaard zal Nutch maar na 30 dagen een pagina opnieuw ophalen. Je kan voor een pagina gaan kijken wanneer ze de volgende keer zal opgehaald worden via volgend commando:

> bin/nutch readdb -url http://website.com/pagina

key: http://website.com/pagina
baseUrl: http://website.com/pagina
status: 2 (status_fetched)
fetchInterval:  83000
fetchTime:      1360246212783
prevFetchTime:  1360162351060
....
title:  Title

De parameter fetchTime geeft de datum & tijd vanaf wanneer de pagina opnieuw mag opgehaald worden. In dit geval is dit 1360246212(783) wat je via het commando date kan omzetten:

> date -u -d @1360246212
Thu Feb  7 14:10:12 UTC 2013

Het fetchInterval zal worden toegevoegd aan de moment dat de pagina opnieuw wordt opgevraagd, in dit geval 83000 seconden of 23 uur. Zo zal je dus elke dag de pagina’s kunnen vernieuwen.

Voor een recrawl kan je je bijvoorbeeld beperken tot 2 iteraties van het crawlproces. Zo worden bestaande pagina’s opnieuw overlopen en eventueel nieuwe links gedetecteerd. Deze worden dan in de volgende iteratie ook mee geïndexeerd. Het heeft ook als gevolg dat je index nog verder groeit als er bij vorige iteraties nog extra links werden gedetecteerd. Zo werd in de test een index van 80 000 pagina’s er snel eentje van 220 000 pagina’s.

Pagina’s die verdwijnen worden niet uit de Solr-index verwijderd. In Nutch 1.6 was er hiervoor een aparte job, voor Nutch 2.x is dit momenteel voorzien in de trunk en zal dit met de nieuwe versie beschikbaar zijn.

Gezien de indexatietijd redelijk beperkt is kan je er ook voor opteren om telkens een nieuwe crawl uit te voeren en de vorige index steeds te wissen.

Conclusie

Met de end-to-end implementatie van deze test is duidelijk dat er heel wat komt kijken bij de implementatie van een zoekoplossing, niet alleen voor de pure installatie/configuratie maar ook voor het iteratieve onderhoud zoals het opsporen/weren van ongewenste URLs. Het ter beschikking stellen van de nodige Solr functionaliteit (zoals omgaan met meertaligheid, facetten, autocompletion, spellingscontrole, …) neemt ook een heel stuk van de implementatie in beslag. Dan spreken we nog niet over het nut van statistiek achteraf, zodat de zoekmachine meer kan aangepast worden naar de noden van de eindgebruiker. De implementatie van een zoekmachine is in dit aspect geen project maar een continu proces.

Nutch 2.1 is nog wat ruw, vooral op documentatievlak en ontbreekt ook nog een aantal belangrijke features zoals het schoonmaken van de Solr-index bij het verdwijnen van pagina’s. Maar het is alleszins een bruikbaar systeem. De nodige competenties gaan echter verder dan Nutch alleen want als je een NoSQL backend zoals HBase gebruikt heb je daar uiteraard ook kennis van nodig en met Solr heb je enorme mogelijkheden tot je beschikking.

Een gebruiker van een dergelijke zoekmachine kan alleen maar beter worden van een systeem dat alle interne websites ter beschikking stelt. Daar staat natuurlijk tegenover dat dit niet zo evident is om dit op een gebruiksvriendelijke manier aan te brengen. De aangeboden functionaliteit van een crawler is ook beperkt tot de gegevens die beschikbaar zijn in de webpagina. Standaard zal je dus de inhoud van de pagina in de index stoppen met wat metadata (zoals datum, content-type, url). Wil je meer specifieke informatie zoals de auteur van de tekst dan kan je dit niet met de crawler (tenzij je een specifiek veld hebt en de nodige logica om de auteur uit een metadata veld te halen op de pagina). Daarom dat een content management systeem dat zelf zijn inhoud in de zoekmachine stopt meer rijke informatie kan ter beschikking stellen.

Privileged Account Management (PAM)

Bob Lannoy — Sun, 25 Nov 2012 11:29:07 +0000

De laatste jaren duiken steeds meer verhalen op in de pers van bedrijven waar al dan niet bewust gegevens verloren zijn gegaan of systemen gesaboteerd werden. Ondanks dat deze verhalen sterk gemediatiseerd worden door security vendors zit er een grond van waarheid in. Heel wat gebruikers beschikken buiten hun standaardrechten op systemen soms ook over meer geprivilegieerde rechten, zoals nodig voor administratiedoeleinden. De fractie aan “insider”-veiligheidsincidenten is laag in vergelijking met veiligheidsproblemen van buitenaf maar hun impact is des te groter. Dit gaat van imagoschade tot serviceonderbrekingen.

Elk systeem heeft wel een administratieaccount zoals Administrator (Windows), root (Unix), SYS (Oracle), … In tegenstelling tot normale gebruikersaccounts zijn deze niet gekoppeld aan een persoon maar kunnen die gedeeld worden met mensen die het wachtwoord kennen van deze accounts. Het wachtwoord van gedeelde accounts wordt niet snel gewijzigd en soms onvoldoende beschermd. Als een account werd gebruikt weet men niet wie de fysieke persoon achter het toetsenbord was.

Privileged Account Management (kortweg PAM) heeft tot doel de geprivilegieerde toegang tot systemen te regelen en te controleren en maakt deel uit van het arsenaal aan tools beschikbaar voor security governance.

Privileged-Account-Management-PAM Download

Sharing is caring

Bob Lannoy — Tue, 13 Nov 2012 14:59:20 +0000

Op een conferentie rond content management, intranet en digital marketing kan het niet anders dan dat er gesproken wordt over het “social” aspect in al deze technologie. Of het nu gaat om consumenten bij marketingcampagnes als om interne medewerkers van een onderneming, telkens komt één of ander element van social media om de hoek kijken. Thema van de J. Boye conferentie van dit jaar was dan ook “Sharing is caring”.

In de verschillende conferentietracks waren er een aantal thema’s die vaak aan bod kwamen zoals big data, social collaboration en mobile.

Een grote hoop rommel met potentieel

Een term die niet kon ontbreken was “big data”, of zoals treffend omschreven door Alan Pelz-Sharpe (@AlanPelzSharpe) “a big pile of junk”. De inhoud die we verzamelen is gigantisch en we kunnen niet verwachten dat we met een vingerknip en zonder moeite onze weg zullen terugvinden naar de informatie die we nodig hebben.

Maar in deze grote hoop rommel schuilt echter enorm veel potentieel. In vele ogen zelfs een gevaarlijk potentieel. De keynote van Pernille Tranberg (@PernilleT) ging hier dieper op in. Commerciële bedrijven beschikken over zoveel gegevens dat het soms verbazend is wat ze er allemaal kunnen uithalen. Zo is er het voorbeeld van de pregnancy prediction machine van de Amerikaanse supermarktketen Target waar men op basis van heel wat gegevens en predictive analytics modellen heeft gebouwd om te voorspellen of iemand zwanger is. Dit gebeurt op basis van het aankoopgedrag en informatie uit andere bronnen. allemaal tot doel om zo deze klanten meer aan zich te binden met behulp van gerichte acties.

Grote ketens beginnen nu ook al de prijs van hun producten aan te passen naargelang de kennis die ze bezitten over de gebruiker, een trend die zich alleen maar zal doorzetten. De sporen die je nalaat in sociale media en op websites zijn uitermate interessant voor commerciële bedrijven en kunnen ook een directe impact hebben op jou: verzekeringsinstellingen zijn geïnteresseerd in het leven dat je uitvoerig en publiek beschrijft op Facebook want dat zou wel eens een impact kunnen hebben op de premie die je betaalt, jouw toekomstige werkgever wil eerst wel eens zien wat jouw reputatie is alvorens je aan te nemen, …

De bottom line is dat het wel eens de moeite loont om een valse identiteit aan te nemen voor bepaalde online activiteiten. Als boutade werd gesteld dat jongeren het recht hebben op een nieuwe naam als ze afstuderen.

Een sociale werkplek

In veel bedrijven zijn er initiatieven om te werken aan een “social workplace”. De premisse is dat door gebruik te maken van sociale technologie er conversaties ontstaan die een meerwaarde opleveren voor het bedrijf. De meeste van dergelijke initiatieven falen echter. Het “grassroots” ontstaan van sociale initiatieven zoals het gebruik van Yammer zijn zeker geen garantie op succes. Er is wel degelijk nood aan een structuur om het ecosysteem levend te houden. Het belang van een “community manager” mag niet onderschat worden. Deze heeft een heel diverse rol: ondersteuning van beginnende gebruikers, provocateur om discussies in gang te steken, ervoor zorgen dat er concrete resultaten komen uit discussies, mensen met elkaar in contact brengen, concrete realisaties aan het licht brengen, …

Er kan ook niet genoeg benadrukt worden dat het management van de onderneming zich volop inzet en actief deelneemt aan het social-initiatief. Een CEO die actief en open deelneemt aan discussies kan sterk bijdragen aan de aanvaarding van het nieuwe medium.

De vraag stelt zich ook waar men de grens trekt tussen privé en werk-inhoud. Wordt er toegelaten dat mensen van de infrastructuur gebruiken maken om privé-onderwerpen te bespreken. Bij Philips laten ze toe dat mensen groepen oprichten van bijvoorbeeld kattenliefhebbers. Andere ondernemingen verbieden dit of laten het oogluikend toe.

Het al dan niet succesvol zijn van een “social” initiatief is sterk afhankelijk van de heersende bedrijfscultuur. Net zoals mensen hebben ondernemingen een persoonlijkheid en de manier waarop je met de “social workplace” omgaat moet dit reflecteren.

Feit is dat dit soort technologie een middel kan zijn om als onderneming een identiteit en groepsgevoel te ontwikkelen dat ook nog eens kan resulteren in produktiviteitswinst, zij het dat het niet vanzelf gaat.

Mobiele personen, geen toestellen

De impact van mobiele technologie in ons werk zal alleen maar toenemen. Een aantal elementen zorgen ervoor dat de tijd rijp lijkt voor de grote doorbraak. Er zijn heel wat business scenario’s die handig kunnen gebruik maken van de technologie, het meest sprekende voorbeeld zijn mensen die continu op de baan zijn zoals thuisverpleegsters, verkopers, … De connectiviteit wordt steeds beter, alhoewel er op veel plaatsen nog geen goede mobiele verbindingen zoals 3G zijn. En de toestellen beginnen een vormfactor te krijgen die zowel handig is om te dragen als groot genoeg qua scherm zoals de resem 7″ tablets die op de markt komen bewijzen.

Ook in de context van een intranet/social collaboratie-initiatief speelt het mobiele aspect een rol, denken we maar aan telewerk of het vervagen van de grens tussen werk en privé met BYOD (Bring Your Own Device). In dit tijdperk van apps kan je niet meer aan een intranet denken als één grote website maar als een collectie van kleine handige toepassingen.

Het beschikbaar maken van interne en externe business diensten via mobiele weg en dan nog met “mobile first” als uitgangspunt is de grote trend. Wat men echter niet uit het oog mag verliezen is dat men deze diensten beschikbaar stelt aan personen die mobiel zijn en niet aan mobiele toestellen. Het volstaat niet uw website in stukjes te knippen om ze te laten passen op het toestel, het gaat erom te kijken wat de behoeften zijn van de mobiele gebruiker en daar op in te spelen.

Over vertrouwen en reputatie

Bob Lannoy — Fri, 05 Oct 2012 09:12:34 +0000

Enkele jaren geleden was Web 2.0 het grote buzzword. Iedereen was niet enkel consument maar werd aanbrenger van informatie. Je kon er enkel beter van worden door mensen buiten de eigenaar van de online presence te laten bijdragen aan zijn merk of imago. Hele communities van gebruikers werden gecreëerd rond producten, merken en thema’s zoals reizen, films, … Op sites zoals Zoover, TripAdvisor, Vergelijk, … kan je de mening van anderen horen en de scores die mensen toekennen aan deze of gene bestemming of product.

De sociale media tonen echter dat die communities/netwerken niet beperkt zijn tot tastbare dingen zoals het kopen van het beste boek. Sociale netwerken draaien momenteel vaak rond invloed. Zo wordt er al snel gekeken naar het aantal volgers dat iemand of een bedrijf heeft op Twitter. Er is ook heel wat te doen rond Klout, dat een score plakt op de activiteit die iemand vertoont in diverse sociale netwerken (Twitter, Facebook, Google+, …) Het is een interessante oefening en het lijkt wel leuk om met je Klout score te vergelijken met collega’s en vrienden. Het is echter maar de vraag of dit een echte waarde heeft. Een site zoals Flout relativeert het belang ervan met de nodige humor.

Dit alles heeft ook een keerzijde. Met de komst van Twitter doken er al snel bedrijfjes op waarbij je volgers kon kopen. Niets makkelijkers dan wat fictieve volgers te hebben om jouw imago of merk een kleine boost te geven. En dan maar hopen dat de echte gebruikers volgen. Zoals je in dit artikel kan lezen zijn commerciële bedrijven niet vies van wat manipulatie om hun producten/diensten beter te doen voorkomen. Gartner verwacht dat 10 à 15% van reviews en ratings zullen aangekocht/vals zijn in 2014. Dit is nog redelijk beperkt maar komt het vertrouwen van eindgebruikers in de online wereld niet ten goede.

Het hebben van “invloed” is echter niet heel bruikbaar. In een professionele context is het bijvoorbeeld belangrijk om te kunnen inschatten of iemand over de nodige competenties beschikt om een functie te vervullen. LinkedIn probeert een antwoord te bieden door mensen toe te laten hun ervaring te documenteren als een online CV. Maar dit is natuurlijk iets dat de persoon zelf inbrengt. Je kan ook anderen “aanbevelen” met wat vrije tekst. Dit blijft echter beperkt in gebruik en je ziet dat mensen elkaar vooral reciprook aanbevelen.

Wat een belangrijk element is, is het concept van “reputatie”: mensen geven aan waar andere mensen competent in zijn. Eén van deze initiatieven die zich momenteel in een betà-fase bevindt is connect.me. Mensen worden gelabeld en andere mensen kunnen dit bevestigen of ontkennen. Dat laat toe om voor een gebruiker een “social business card” te hebben waarop dit alles staat met hoeveel mensen borg staan voor dat label. Hoe meer dat iemand dat labeltje wordt toegekend, hoe groter zijn reputatie op dat vlak. Dat is trouwens LinkedIn ook niet ontgaan dat sinds kort toelaat om andere mensen jouw competenties te laten bevestigen (“endorsements”).

Reputatie wordt door sommigen de nieuwe munteenheid van de 21st eeuw genoemd (zie deze TED presentatie van Rachel Botsman). Er zijn heel wat internet diensten (Airbnb, Taskrabbit, …) waar mensen diensten aanbieden en hiervoor ook een rating/review krijgen van anderen. In plaats van social networking, krijg je service networking. Hoe beter je reputatie, hoe meer op jou beroep zal gedaan worden.

Net zoals bij de hierboven gesitueerde misbruiken, zullen dergelijke reputatie-systemen gevoelig zijn aan fraude. Als de community groot genoeg is, zal het bekomen van een valse reputatie niet makkelijk zijn. Connect.me heeft een “Trust framework” dat het moeilijk moet maken om het systeem te misleiden, met een aantal “trust anchors” die de basis vormen van een betrouwbaar systeem.

Er is natuurlijk niets nieuws onder de zon want reputatie is al altijd aanwezig geweest in de offline wereld. Toch is het interessant om te zien hoe dergelijke systemen op Internet-schaal worden uitgerold en een impact kunnen hebben op ons leven.

Security Information & Event Management (SIEM) – Privileged Account Management (PAM)

Bob Lannoy — Sun, 25 Mar 2012 11:14:48 +0000

IT-infrastructuren worden complexer en dynamischer, de cyberaanvallen gesofisticeerder en de aanvallers professioneler. Zowel interne als externe aanvallen vormen een bedreiging.

In een moderne IT-infrastructuur van een bedrijf worden vandaag de dag al snel miljoenen security gerelateerde logs door honderden of meer devices gegenereerd, potentieel vanaf verschillende geografisch verspreide locaties. Typisch zijn er op een dag hoogstens enkele incidenten. De uitdaging is om aan de hand van die miljoenen logs die paar incidenten in real-time te extraheren. Indien nodig kan dan ingegrepen worden om de schade te minimaliseren of kunnen achteraf maatregelen genomen worden om dergelijke incidenten in de toekomst te voorkomen. Dergelijke reactieve maatregelen vallen echter buiten de basisfunctionaliteit van SIEM.

Het extraheren van incidenten uit logs is wat SIEM-systemen op een geautomatiseerde manier beloven te doen. Daarnaast bieden ze de mogelijkheid achteraf uitgebreide analyses op de verzamelde logs te doen.

Presentation

Security-Information-Event-Management-SIEM-Privileget-Account-Management-PAM Download

Ga veilig om met uw geprivilegieerde accounts

Bob Lannoy — Thu, 08 Mar 2012 12:28:46 +0000

Er gaat geen dag voorbij of we lezen wel ergens in de pers een bericht over het verlies van confidentiële gegevens, computerinbraken of gesaboteerde systemen. Ondanks dat deze verhalen sterk gemediatiseerd worden door security vendors zit er een grond van waarheid in. Een standaard IT-systeem blijft op vele vlakke kwetsbaar voor zowel externe als interne veiligheidsinbreuken. Onder de noemer van “information security governance” zijn er heel wat maatregelen, zowel technisch als niet-technisch, die men kan nemen om zich zo goed mogelijk te beschermen tegen deze inbreuken. In deze post zou ik kort willen stilstaan bij het beheer van geprivilegieerde accounts.

Noem om het even welk IT-systeem, of het heeft wel één of andere beheeraccount. Is het nu een besturingsysteem, een netwerkappliance, een applicatieserver, een database, … elk van hen heeft wel een account of mechanisme om een gebruiker de nodige rechten te geven om het systeem te beheren. Men spreekt hier over geprivilegieerde accounts omdat men extra privileges heeft ten opzichte van een normale account. De bekendste voorbeelden van dergelijke accounts zijn Administrator (Windows), root (Unix), SYS (Oracle), … In tegenstelling tot normale gebruikersaccounts zijn deze niet gekoppeld aan een persoon maar kunnen die gedeeld worden door mensen die het wachtwoord kennen van deze accounts, met alle problemen vandien. Taken die worden uitgevoerd onder deze accounts kunnen dus heel moeilijk getraceerd worden tot de fysieke gebruiker.

Naast de beheeraccounts zijn er ook accounts die toepassingen gebruiken om met een database te communiceren of toepassingen met elkaar te laten communiceren. Vaak worden de wachtwoorden van deze accounts opgeslagen in een configuratiebestand of in de code al dan niet beveiligd met behulp van encryptie.

Privileged Account Management (kortweg PAM) heeft tot doel de niet-usergebonden geprivilegieerde toegang tot systemen de regelen en controleren.

Mensen die vertrouwd zijn met Unix en Linux-distributies kennen zeker de standaardmanier om het gebruik van de root-account te vermijden: sudo. Dit commando laat toe dat een gebruiker met zijn normale account geprivilegieerde taken uitvoert. Men spreekt in dit geval over privilege elevation. Welke taken deze mag uitvoeren wordt bepaald in een configuratiebestand (sudoers). Sudo is heel handig maar de configuratie van een uitgebreide set aan rechten is niet evident. Als je niet goed oplet geef je een gebruiker ongewild meer rechten dan hij nodig heeft.

Er zijn een aantal commerciële softwareleveranciers van PAM-oplossingen op de markt, zoals BeyondTrust, CA, Cyber-Ark, Lieberman Software en Quest. Een centrale databank slaat alle wachtwoorden op van de accounts en heeft via connectoren (SSH, HTTPS, WMI, …) toegang tot de beheerde systemen. De tool zal op die systemen op vastgestelde events het wachtwoord van de account wijzigen en controleren. Een gebruiker meldt zich aan via een web-interface om toegang te krijgen tot een account. Na de nodige autorisatiecontroles, al dan niet ondersteund door een goedkeuringsworkflow, krijgt de gebruiker het wachtwoord te zien of onmiddellijk een sessie zonder het wachtwoord ooit te zien te krijgen.

Voor audit-doeleinden bieden een aantal van deze tools ook de mogelijkheid om rapporten te genereren, maar ook volledige gebruikersessies op te nemen en opnieuw af te spelen.

Het begrip PAM mag echter niet vernauwd worden tot het gebruik van een tool. Men kan vertrekken vanuit een aantal security best-practices en processen gesteund op technologische keuzes, zoals

Ken uw (nieuw) personeel
Opleidingen: maak mensen bewust van risico’s
Segregation-of-duties: combinatie van taken geeft aanleiding tot risico
Monitoring/logging naar extern systeem beheerd door andere personen
Systeem administrators hebben een eigen account voor beheertaken in plaats van een gedeelde account, waar mogelijk

Het mag duidelijk zijn dat men zich bewust moet zijn van de risico’s en het beheer van privileged accounts in handen moet nemen. Privileged account management vormt echter een deel van een groter geheel van Identity/Access Management, monitoring en andere security technologie. Men mag er niet van uitgaan door PAM te deployen men alle problemen heeft opgelost.

Het is zeker geen (één) tool-oplossing maar een verzameling van security best-practices en technische oplossingen. Zonder tool kan men al een aantal maatregelen nemen zoals een verschillende wachtwoorden per systeem, voldoende logging, beveiligde wachtwoordlijsten, …

Wens je meer te weten over PAM en ben je werkzaam binnen de overheid, kom dan zeker langs op de informatiesessie “PAM & SIEM: Gros plan sur la Security Governance / Focus op Security Governance“. Deze sessie behandelt ook de topic Security Information & Event Management (SIEM). Inschrijven kan je hier.

PAM & SIEM: Gros plan sur la Security Governance / Focus op Security Governance

Splunk 4.3 – Event and log analysis tool

Bob Lannoy — Sat, 25 Feb 2012 09:33:37 +0000

Splunk is een handige tool om een zicht te krijgen op logdata en bepaalde gedragingen die men wenst te verklaren.

Splunk est un outil pratique permettant d’avoir une vue sur des données log et sur certains comportements que l’on souhaite expliquer.

Splunk-4.3-Event-and-log-analysis-tool Download