Supercomputers via internet aaneengeregen

Het aan elkaar knopen van supercomputers via internet moet een antwoord vormen op exponentieel groeiende onderzoeksdatabases.

Vorige week vond in het Science Park in de Amsterdamse Watergraafsmeer het eerste Globale Grid Forum (GGF1) plaats. Wetenschappers en vertegenwoordigers uit het bedrijfsleven praatten op het congres over de mogelijkheden van een wereldwijd netwerk van rekencentra, dat deelnemers toegang moet geven tot onbeperkte rekenkracht en opslagvermogen.
Cern bijvoorbeeld, een Europees instituut voor atoomonderzoek dat ooit onbedoeld aan de wieg stond van het World Wide Web, ziet zich voor de taak gesteld om jaarlijks 10 Petabyte (10.000 Terabyte) aan informatie te bewerken. "De verwachting is dat de nieuwe deeltjesversneller van Cern in Geneve straks deze stroom aan gegevens uitbraakt", aldus Kors Bos van het Nikhef, een Nederlands onderzoeksinstituut voor atoomfysica. "Met Datagrid, zoals het door de Europese Unie gesubsidieerde project gedoopt is, zijn via internet de rekenkracht en opslagcapaciteit van negen rekencentra aan het werk te zetten om het botsen van atoomdeeltjes in de nieuwe deeltjesversneller te analyseren."
De praktische invulling van het grid-concept roept nog veel vragen op. Charlie Catlett, voorzitter van GGF, geeft aan dat er van grid-standaarden nog nauwelijks sprake is. "Het is een relatief onontgonnen terrein waar we ons op gaan begeven. Standaarden zijn er dan ook nog niet." Vooral de beveiliging van internet laat nog veel te wensen over. Ook vertragingseffecten bij het oproepen van bestanden over grote afstanden zijn nog onvoldoende uitgewerkt.
Martijn Koornstra, directeur van het rekencentrum Sara van de Universiteit van Amsterdam, wijst op het premature stadium waarin grids voor supercomputers zich momenteel bevinden. "Iedereen doet of grid al binnen handbereik is, terwijl ik constateer dat het alleen al in ons rekencentrum onmogelijk is om geheugen aan te spreken over verschillende rekenclusters heen. We hebben hier een Beowulf-cluster, een IBM Power3-systeem en een SGI-cluster staan, ieder met hun eigen opslagsystemen."
"We zijn zelf aan de slag gegaan om op basis van het Tivoli-beheersysteem een san-omgeving (storage area network) te maken. Hiervoor waren ingrijpende wijzigingen in de software nodig, die IBM overigens niet wil ondersteunen. De hardwareleveranciers willen hun eigen opslagspullen verkopen en hebben weinig belang bij het vinden van een oplossing voor het delen van opslagbronnen over heterogene clusters heen. Ook zie ik het er niet zo snel van komen dat een grote database in Californië bijvoorbeeld aangesproken wordt vanuit een rekencentrum in Nederland. Daarvoor zul je toch eerst een kopie over de oceaan heen moeten trekken. Niks delen van bronnen."