Het Centrum voor Wiskunde en Informatica (CWI) bouwt de astronomische database SkyServer. “Dat ‘powered by Microsoft’ prikkelt ons. IBM en Oracle hebben eerder pogingen gedaan om een andere oplossing te vinden, maar dat is niet gelukt”, zegt onderzoeksleider Martin Kersten.
Wat houdt het project precies in?
"Het doel is om astronomen te helpen met een betere applicatieopzet. Daarnaast willen we de grenzen van de databasetechnologie verleggen. Dit doen we door middel van ‘cracking'. Dit is een diepgravende wijziging in de manier waarop de huidige databasetechnologie werkt. Er zijn drie manieren waarop we dat doen. Ten eerste op databaseniveau. De database van SkyServer herbergt zo'n twee terabyte aan metadata en negen TB aan beelden. Dit is te veel om op één machine kwijt te kunnen. Van oudsher wordt er dan een gedistribueerde database ingezet.
Wat wij willen is dat de aparte delen van die distributie autonoom kunnen worden ingezet. Dat project draagt de naam Armada. Een armada is een scheepsvloot: de schepen hebben sameneen missie,maar ieder schip kan voor zichzelf besluiten of en wanneer het bijvoorbeeld een kogel afvuurt.
Datzelfde willen we voor de databases, dat ze autonoom kunnen regelen of ze wel of niet aan een zoekvraag deelnemen, of bijvoorbeeld werk overhevelen." "Het tweede ‘cracking'-niveau gaat om de tabellen.
Traditioneel worden tabellen gesorteerd, zodat antwoorden op zoekvragen snel te geven zijn. Wij sorteren in eerste instantie niets. Daarmee heeft de eerste vraagsteller pech, want die zal lang op zijn antwoord moeten wachten. Het systeem gaat op die vraag een partiele sortering maken naar goede en niet-goede resultaten. Er komen dus twee stapels als resultaat op de zoekvraag. Wanneer een vervolgvraag wordt gesteld, hoeft het systeem vervolgens een veel kleinere stapel te doorzoeken. Zo wordt eigenlijk al doende een sortering aangebracht in de tabellen."
"Tot slot zijn we bezig met cracking op query-niveau. SkyServer heeft de beperking dat de rekenduur van het systeem de zestig minuten niet kan overschrijden. Als onderzoeker is het moeilijk in te schatten hoe lang het systeem nodig heeft voor jouw vraag. Wat wij willen bereiken is dat het systeem de gestelde zoekvraag zelf opdeelt in intelligente subvragen.De rekenduur van de eerste subvraag is veel korter dan wanneer ineens de hele query uitgevoerd wordt.Het systeem geeft het resultaat van de eerste subvraag en laat direct zien wat de volgende query zou moeten zijn. Hierdoor wordt de gebruiker ook geholpen bij het concreet formuleren van zijn query op zodanige wijze dat het systeem zo weinig mogelijk overbodig werk hoeft te doen."
Hoeveel draagt de NWO-subsidie bij aan uw project?
"In totaal krijgen we een miljoen euro voor deze projecten uit de BSIK-fondsen. Voor het hart van het onderzoekkomen we een eindmet een miljoen, maar we lusten altijd wel wat extra.Het gaat niet alleenomgeld, want zelfs met tien miljoen extra gaat het project niet sneller, het heeft zijn tijd nodig.Het is te vergelijkenmet de langdurige projecten in de astronomie zelf. Het bouwen van een experimentele set-up kost alleen al jaren, het onderzoek nog niet eens meegerekend.Daarbijkomt dat dit de opstap vormt voor een volgend project, namelijk de data opvangen die uit Lofar (de grootste radiotelescoop ter wereld) komt. De data uit SkyServer is redelijk stabiel op twee terabyte. Uit Lofar komen straks enige terabytes per week."
Hoe lang duurt het voordat het project vrucht draagt?
"We verwachten rond kerst dit jaar 'MySkyServer powered by Monet- DB' op dvd beschikbaar te hebben. Dat is als eerste haalbaar en als tweede is er in januari een groot databasecongres waar ook Jim Gray van Microsoft, de 'éminence grise' van de databasewereld, geestelijk vader en bruggenbouwer van de astronomie, aanwezig is. Ik zou hem graag onze dvd overhandigen."
Wat is het einddoel?
"De hemelatlas voorzien van Nederlandse technologie. Daarnaast willen we de databasetechnologie fundamenteel wijzigen.Daarin zijn we geslaagd als we op de SkyServerwebsite het Nederlandse vlaggetje kunnen toevoegen. Ook willen we een effectieve bijdrage kunnen leveren aan bijvoorbeeld Lofar."
Hoe praktisch toepasbaar is het project?
"Alle technologie is generiek. Onze MonetDB-database is nu al open source en breed beschikbaar. Het wordt in de VS erg veel gebruikt voor datamining. De Business Intelligence-omgeving kan veel baat hebben bij de onderliggende technologie die we nu ontwikkelen. Zo wordt de Xquery-functionaliteit nu al ingezet bij het Nederlands Forensisch Instituut."
Is Nederland innovatief bezig?
"Je kunt stellen dat Nederland op het gebied van databasetechnologie vooraanstaand en innovatief is. We concurreren op dat gebied wereldwijd met industriële labs van de databaseleveranciers, Berkeley University, het Massachussetts Institute of Technology, en Wisconsin. Je kunt zeggen dat wij hier de kritische massa hebben en dit wordt mede mogelijk gemaakt door de subsidies. Een sterk en toegewijd onderzoeksteam is hierbij een niet te onderschatten voordeel."
[Beeld: Peter Pakvis]
Wie doet wat?
Sinds 1 oktober 2006 is het team dat het onderzoek ‘Cracking a Scientific Database' uitvoert compleet. De vijf leden zijn Martin Kersten, Niels Nes, de Bulgaarse postdoc Milena Ivanova, de Portugese programmeur Romulo Goncalves en de Griekse aio Erietta Liarou, allen werkzaam bij het Centrum voor Wiskunde en Informatica.
NWO-subsidies
De Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) honoreerde in juli dertien onderzoeksprojecten op het terrein van informatica. In totaal gaat het om 6,5 miljoen euro. Met het geld gaan 38 onderzoekers aan het werk. De projecten vallen binnen de vier informaticaonderzoeksprogramma's van het gebied Exacte Wetenschappen van NWO. Deze onderzoeksprogramma's zijn GLANCE, VIEW, JACQUARD, en BRICKS/FOCUS. Het project ‘Cracking a Scientific Database' van Martin Kersten valt onder het programma BRICKS/FOCUS.
BRICKS/FOCUS
BRICKS (Basic Research in Informatics for Creating the Knowledge Society) is een onderzoeksprogramma dat een sterke impuls geeft aan fundamenteel onderzoek in de informatica. Het wordt deels gefinancierd door BSIK, een fonds uit de aardgasbaten waarmee de Nederlandse kennisinfrastructuur wordt versterkt en deels door NWO. Het programma richt zich op de vier thema's van de Nationale Onderzoeksagenda Informatica: Algorithms and Formal Methods, Intelligent Systems, Modelling, Simulation and Visualisation en Parallel and Distributed Computing. In totaal beslaat BRICKS 22 projecten.