Een databasemachine die meer dan zestig gigabyte ruwe data per seconde kan analyseren en dat op een zo energiezuinig mogelijke manier. De Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) heeft het Centrum Wiskunde & Informatica (CWI)in Amsterdam een subsidie toegekend om deze te ontwikkelen. Het onderzoeksproject met de naam SciLens heeft als missie verborgen kennis aan het licht te helpen brengen die opgeslagen ligt in omvangrijke wetenschappelijke databases.
De hiervoor benodigde hardware en software is niet vrij voorhanden. Een belangrijk onderdeel in het project is de bouw van de SciLens-machine, die aan het eind van 2011 operationeel zal zijn. 'Een verschil met een internetzoekmachine is dat SciLens letterlijk een speld in een hooiberg kan vinden zonder deze vooraf te hebben geïndexeerd', zegt Martin Kersten van het CWI en initiatiefnemer van het project.
Kersten is de ontwerper van databasemanagementsysteem MonetDB. Hij werd in januari 2011 met steun van het Centrum Wiskunde & Informatica (CWI) tot CWI Fellow benoemt. Deze titel wordt gegeven aan eminente CWI-onderzoekers die bijdragen aan de wetenschap en managementtaken. Martin Kersten gaat met deze steun onderzoek doen naar database-beheersystemen die petabytes aan wetenschappelijke data efficiënt kunnen ontsluiten.
Amdahl blades
Het systeem wordt speciaal geconfigureerd voor database management taken, zoals het snel doorploegen van grote hoeveelheden meetgegevens en wordt grotendeels uit energiezuinige componenten samengesteld. De machine maakt gebruik van Amdahl blades voor optimale parallele verwerking. Amdhal blades zijn een aantal factoren sneller dan traditionele computerclusters doordat ze gebruikmaken van ssd's voor snelle lees- en schrijfsnelheden en energie-efficiënte cpu's die zijn ontworpen voor mobiel gebruik.
De SciLens-machine is opgebouwd als een piramide van vier ringen. Elke ring heeft een ander type computer, van 256 energiezuinige Intel Atoms tot zestien high-end servers. Per ring is er totaal één terabyte aan geheugen en 128 terabyte aan diskopslag beschikbaar. Een supersnel Infiniband-netwerk stelt het databasesysteem in staat om dit gespreide geheugen als een ringbuffer te gebruiken, waarmee in totaal meer dan 256 gigabyte per seconde kan worden verplaatst. De top zal bestaan uit een enkelvoudig systeem met één terabyte aan geheugen. Het zal nog wel twee jaar duren voordat die op de markt beschikbaar komt.
De grootste uitdaging bij de bouw is volgens Kersten om de juiste balans te vinden in de componenten in context van de beoogde databasesoftware MonetDB. Zijn ideaalbeeld is dat elementen uit de onderste laag een voorbeeld zullen zijn voor een MonetDB-databasemachine ter grootte van een schoenendoos en met een capaciteit van tien terabyte die elke wetenschapper zich kan veroorloven voor zijn zoektocht in de overdaad aan observaties. Als de SciLens-machine operationeel is, is ze beschikbaar voor onderzoek van het CWI en zijn partners.
Seismologie
Toepassingen zijn er in verschillende onderzoeksgebieden zoals seismologie, astronomie, remote sensing, datamining en fraudedetectie bij sociale netwerken. Bij de aardbeving in Chili begin 2010 verzamelden seismologen twee terabyte aan data. Met een normale computer is het haast ondoenlijk dit snel te doorzoeken en te analyseren. De SciLens-machine heeft voor een complete scan slechts dertig seconden nodig.
De afbeelding http://homepages.cwi.nl/~mk/SciLensPlatform.gif had niet misstaan in het artikel.
Laat ik nou eerst hoofdschuddend en in volle verbijstering denken dat het Centrum voor Werk en Inkomen deze klus dacht te kunnen klaren… Het enige dat die gasten goed in het groot kunnen, is het verdampen van miljoenen euro’s…
En ik neem aan dat dit allemaal op groene stroom draait?