Supercomputers via internet aaneengeregen

Het aan elkaar knopen van supercomputers via internet moet een antwoord vormen op exponentieel groeiende onderzoeksdatabases. Zelfs het grootste rekenmonster is anders in zijn eentje maanden bezig met de berekeningen voor een onderzoek.

Vorige week vond in het Science Park in de Amsterdamse Watergraafsmeer het eerste Globale Grid Forum (GGF1) plaats. Wetenschappers en vertegenwoordigers uit het bedrijfsleven praatten op het congres over de mogelijkheden van een wereldwijd netwerk van rekencentra, dat deelnemers toegang moet geven tot onbeperkte rekenkracht en opslagvermogen.
Cern bijvoorbeeld, een Europees instituut voor atoomonderzoek dat ooit onbedoeld aan de wieg stond van het World Wide Web, ziet zich voor de taak gesteld om jaarlijks 10 Petabyte (10.000 Terabyte) aan informatie te bewerken. "De verwachting is dat de nieuwe deeltjesversneller van Cern in Geneve straks deze stroom aan gegevens uitbraakt", aldus Kors Bos van het Nikhef, een Nederlands onderzoeksinstituut voor atoomfysica. "Met Datagrid, zoals het door de Europese Unie gesubsidieerde project gedoopt is, zijn via internet de rekenkracht en opslagcapaciteit van negen rekencentra aan het werk te zetten om het botsen van atoomdeeltjes in de nieuwe deeltjesversneller te analyseren."

Praktische invulling

De praktische invulling van het grid-concept roept nog veel vragen op. Charlie Catlett, voorzitter van GGF, geeft aan dat er van grid-standaarden nog nauwelijks sprake is. "Het is een relatief onontgonnen terrein waar we ons op gaan begeven. Standaarden zijn er dan ook nog niet. Er zijn een aantal voorstellen voorgelegd aan de Ietf (Internet engineering task force) en het W3C (World Wide Web Consortium). De voorstellen verschillen van definities en modellen tot concrete api-voorstellen (application protocol interface) voor grid-computing. Er ligt bijvoorbeeld een voorstel voor het aanpassen van FTP (File Transfer Protocol), zodat bij het versturen van grote bestanden meer bandbreedte aan te spreken is." Vooral de beveiliging van internet laat nog veel te wensen over. Ook vertragingseffecten bij het oproepen van bestanden over grote afstanden zijn nog onvoldoende uitgewerkt.
Volgens Brian Carpenter, programmadirecteur op het gebied van grids bij IBM, zijn middleware-applicaties en beheersystemen hard nodig om gekoppelde serverparken beheersbaar te houden. "Ook in de commerciële sector vereist de werklast die transactieverwerkende systemen te verstouwen krijgt een vereniging van de rekenkrachten", aldus Carpenter. "Bedrijven zullen daar steeds meer heterogene bronnen voor aanspreken. Hoewel een grid daar een goed antwoord op is, biedt het nog geen goede mogelijkheden voor centraal beheer, zoals dat in het client/server-model wel tot in detail uitgewerkt is."
Bob Aiken, werkzaam bij Cisco, tilt zwaarder aan de politieke perikelen die bij het delen van rekenbronnen de kop zullen opsteken dan aan de huidige technische lacunes "Technische obstakels zullen opgelost worden", is Aikens stellige overtuiging. "Ik zie eerder problemen ontstaan bij organisatorische vraagstukken. Wie beheert het overkoepelende netwerk en controleert wie wanneer welke bronnen gebruikt? Wie stuurt de uiteindelijke rekening? Instellingen zullen op een heel andere manier moeten opereren om deze samenwerking te realiseren."

Prematuur stadium

Martijn Koornstra, directeur van het rekencentrum Sara van de Universiteit van Amsterdam, wijst op het premature stadium waarin grids voor supercomputers zich momenteel bevinden. "Iedereen doet of grid al binnen handbereik is, terwijl ik constateer dat het alleen al in ons rekencentrum onmogelijk is om geheugen aan te spreken over verschillende rekenclusters heen. We hebben hier een Beowulf-cluster, een IBM Power3-systeem en een SGI-cluster staan, ieder met hun eigen opslagsystemen."
"We zijn zelf aan de slag gegaan om op basis van het Tivoli-beheersysteem een san-omgeving (storage area network) te maken. Hiervoor waren ingrijpende wijzigingen in de software nodig, die IBM overigens niet wil ondersteunen. De hardwareleveranciers willen hun eigen opslagspullen verkopen en hebben weinig belang bij het vinden van een oplossing voor het delen van opslagbronnen over heterogene clusters heen. Ook zie ik het er niet zo snel van komen dat een grote database in Californië bijvoorbeeld aangesproken wordt vanuit een rekencentrum in Nederland. Daarvoor zul je toch eerst een kopie over de oceaan heen moeten trekken. Niks delen van bronnen."