'Grid computing' stilt honger wetenschappers naar rekencapaciteit

Elektriciteit is betrouwbaar geworden dankzij het gekoppelde voedingsnet (‘power grid’) – diverse elektriciteitscentrales, vast gekoppeld via hoogspanningskabels, die iedereen overal en altijd efficiënt en betrouwbaar van spanning voorzien. Met ‘grid computing’ proberen wetenschappers en computerleveranciers op eenzelfde manier computercapaciteit uit een stopcontact in de muur te laten komen. Zo’n stopcontact is verbonden met een virtuele supercomputer die uit geheel verschillende computersystemen kan bestaan. Mogelijk dé manier waarop vrijwel iedereen in de toekomst zijn terminal aan een netwerk of internet koppelt.

De wet van Moore voorspelt elke achttien maanden een verdubbeling van het aantal schakelingen op een chip. Dit is echter onvoldoende om de computer-intensieve problemen van vandaag aan te pakken.
Amerikaanse wetenschappers hebben een nieuwe manier gevonden om clusters (gelijke of totaal verschillende) computers op verschillende locaties efficiënt met elkaar te verbinden tot een grote virtuele supercomputer, met een capaciteit die tot voor kort onmogelijk werd gehouden. ‘Grid computing’ kan voorzien in de behoefte van wetenschappers aan extreem grote systemen, die nodig zijn om met steeds complexere modellen te kunnen werken.
De virtuele supercomputer reageert als een enkele supergrote computer. Aangesloten gebruikers zullen niet weten waar hun programma’s worden uitgevoerd of waar hun gegevens worden opgeslagen- het systeem zoekt dat automatisch zelf uit. Door de voorzieningen in diverse locaties te combineren, kunnen gebruikers de (op dat moment) overtollige capaciteit elders benutten, en omgekeerd.

Waarom zo spannend?

Het grid is een nieuw paradigma dat het mogelijk maakt om supercomputers met een ongekende capaciteit te realiseren, iets wat onmogelijk was met de huidige methoden. Bovendien is het een zeer kosteneffectieve benadering omdat standaard servers als bouwblokken worden gebruikt, dezelfde servers die ook gebruikt worden voor internet en het Web. Zulke servers worden in een rek gemonteerd en gefabriceerd in grote hoeveelheden, reden waarom dit een veel goedkopere benadering is dan het gebruik van een grote mainframe.
Wetenschappelijke toepassingen met grids zijn nog maar het begin van een evolutie. Velen denken dat de grid-benadering binnen enkele jaren door grote bedrijven zal worden gebruikt, bijvoorbeeld banken en verzekeringsmaatschappijen. Omdat het gebaseerd is op internettechnologieën is er geen reden om aan te nemen dat zo’n grid-systeem niet voor veel meer doeleinden gebruikt zou worden. Mede omdat verbindingen steeds goedkoper en breedbandiger worden, ligt een algemene toepassing dus voor de hand.

Waarom nu?

Waarom is er zoveel belangstelling voor deze benadering? De reden is dat een aantal noodzakelijke technologieën op hetzelfde moment beschikbaar komen. Servers, zeker als ze zo massaal geproduceerd worden als pc’s vandaag de dag, worden steeds goedkoper – zij zijn de goedkope bouwstenen voor grids. Globus, een r&d-project voor de wetenschappelijke gemeenschap, werkt aan grid-middleware, de software die in elke server gebruikt wordt voor het leggen van verbindingen met andere servers in het grid, om het geheel als een supercomputer te laten werken.
Een uiterst belangrijke rol hierbij speelt Linux, het Unix-achtige besturingssysteem van Linus Torvald dat nu ook in de bedrijfswereld erkenning krijgt. Op dit moment gebruikt Shell een cluster van 1400 servers met Linux, voor seismografisch onderzoek. Deze servers staan in één locatie en worden gebruikt voor één specifiek (wetenschappelijk) doel – dit is echter ‘cluster computing’, geen ‘grid computing’.
IBM ondersteunt nu Linux op al zijn platforms, wat betekent dat alle soorten IBM-computers (met passende Globus-middleware) onderdeel zouden kunnen worden van een grid. Vanuit het systeem gezien zouden bedrijven gefaseerd kunnen overstappen op een grid-structuur.
De overvloed aan toepassingen voor Windows is een van de voornaamste redenen voor het enorme succes van de besturingssystemen van Microsoft. Linux is tot nu toe een nogal ‘onvriendelijk’ besturingssysteem, vooral geschikt voor techneuten. Het wordt nu vooral gebruikt voor internet- en printerservers, die bepaalde taken ongemerkt in de achtergrond verrichten. Nu Linux en ‘open-source’ programma’s geaccepteerd raken buiten de academische wereld, richten veel toepassingsprogrammeurs zich op Linux en Java (waarmee ze op school hebben leren werken). De dotcom-malaise heeft gezorgd voor een overmaat aan programmeurs met internetvaardigheden. En klanten volgen de trend naar ‘open-source’ programma’s, bang als ze zijn om te worden ingesloten door Microsoft.
Als laatste, maar zeker niet onbelangrijkste punt: snelle en betrouwbare netwerkverbindingen komen in overvloed beschikbaar door nieuwe glasvezelverbindingen. Omdat zoveel bedrijven glasvezelnetten aanleggen en de capaciteit daarvan snel groter wordt door de toepassing van dwdm (‘dense wavelength division multiplexing’), zullen de prijzen snel dalen. Dat kan een heel belangrijke motivator voor het grid te worden.
Computerbedrijven zullen het hogerop in de keten moeten zoeken, nu de hardware steeds goedkoper wordt en de softwaremarkt door Microsoft wordt gedomineerd. Het verlenen van diensten, onder andere via een grid, is hun enige manier om te overleven in de huidige malaise.
Al deze factoren – Globus, Linux, ‘open source’-programmeurs, glasvezel met dwdm en de huidige malaise – samengenomen, maken het aannemelijk dat de tijd binnenkort rijp zal zijn voor de introductie van grids in het bedrijfsleven.

IBM en het grid

IBM heeft al veel ervaring opgedaan met ‘grid computing’. Het heeft onder andere een intern grid gebouwd dat computersystemen van de onderzoekslaboratoria in de VS, Israël, Zwitserland, Japan en England koppelt. IBM werkt nauw samen met Globus om de software voor grids te verbeteren, en met anderen om computer-grids voor academische gemeenschappen in de VS, Groot-Brittannië en Holland te bouwen (zie kader).

Zullen grids de universele oplossing in de computerwereld worden?
We vroegen het Michael R. Nelson, IBM’s directeur voor internettechnologie en strategie. "Op dit moment zijn ze zeer geschikt voor wetenschappelijke toepassingen. Ze worden al gebruikt voor het bewerken van gegevens over deeltjes met grote energie, en binnenkort volgen onderwerpen als het modelleren van het weer, het ontwerpen van medicijnen, en materiaalkunde. Het grote voordeel is dat je verschillende systemen eenvoudig kunt koppelen en ze efficiënter kunt gebruiken. Eén systeem heeft bijvoorbeeld een complex model van de oceaan en een ander een complex model van de atmosfeer; die kunnen heel goed via een grid gekoppeld worden. In principe kan ‘grid computing’ voor bijna alle toepassingen in de computerwereld gebruikt worden, natuurlijk afhankelijk van de kosten en baten en de praktische haalbaarheid." Nelson vraagt of ik ‘grid’ met een hoofdletter wil schrijven, "want dat doe je ook met Linux". (Een verzoek dat wij negeren; alleen bedrijfs- en productnamen worden in deze krant met een hoofdletter geschreven, eindred.)

Zal het grid-concept ook worden uitgebreid naar zakelijke toepassingen? Zo ja, wanneer?
Nelson: "Ik ben van mening dat dit vrij snel zal gaan gebeuren. De wetenschappelijke toepassingen lopen nu hard van stapel, en ik denk dat de techniek zich verder zal uitbreiden. Binnen enkele jaren zullen grids meer en meer gebruikt worden door de grote bedrijven. Die overgang kan heel soepel verlopen."

Is ‘grid computing’ voldoende robuust en beschikt het over voldoende functies voor bedrijfskritische systemen?
Nelson: "Op dit moment nog niet, maar we werken er, samen met Globus, erg hard aan om dat mogelijk te maken. Het idee van grids is zinvol omdat servers in bedrijven gemiddeld minder dan tien procent van de tijd gebruikt worden.
Wat er nog niet is? In de eerste plaats de juiste Globus-middleware voor onze systemen. We zijn nu bezig om al onze platforms aan te passen met Globus-middleware. Verder moet de beveiliging sterk verbeterd worden. Wat goed genoeg is voor wetenschappelijke toepassingen, is onvoldoende voor zakelijk gebruik. Ten derde moet het boekhoudmechanisme verbeterd worden, want bedrijven moeten de kosten van hun gebruik kunnen toerekenen aan de afdelingen. Zo zijn er nogal wat andere stukken en stukjes die ontbreken voor zakelijke toepassingen, bijvoorbeeld systeembeheer. Maar ik geloof dat er geen essentiële obstakels zijn die het zakelijk gebruik van grids verhinderen. De invoering kan snel gaan, want veel bedrijven zijn erg geïnteresseerd."
Een reden om naar alternatieven te zoeken zou de angst voor de nieuwe licentievoorwaarden van Microsoft kunnen zijn; Linux is bijna gratis en is ‘open-source’.

Zullen deze grids niet moeilijk te beheren zijn? Operationele kosten van computersystemen zijn tegenwoordig vaak erg hoog, vaak hoger dan de kosten van de apparatuur!
Nelson: "Ook daar werken we aan. Tivoli-netwerkmanagement is een van de onderdelen die geschikt wordt gemaakt voor Globus. En in onderzoek is het eLiza-project, genoemd naar een hagedis (‘lizard’) vanwege zijn aanpassend vermogen. We werken aan Blue Gene (onderzoek naar het mechanisme van eiwitopvouwing in cellen, red.) en het concept van apparatuur die zichzelf beheert en configureert, en zijn problemen zelf diagnosticeert en herstelt. De resultaten zullen hun neerslag vinden in ‘grid-computing’, natuurlijk ook in de opslagsystemen. Door het gebruik van standaard server- en disk-componenten zal het niet uitmaken of er één de mist ingaat; andere componenten zullen automatisch hun werk overnemen. Kapotte componenten worden gerapporteerd en zijn eenvoudig te vervangen. Ik geloof dat de operationele kosten voor ‘grid computing’ hierdoor aanzienlijk verlaagd zullen worden."

Hoe werkt dat voor de huidige toepassingsprogramma’s? Stel dat een verzekeringsbedrijf met een grote IBM Cics-toepassing werkt voor al zijn bijkantoren en agenten. Zou die toepassing herschreven moeten worden voor het grid?
Nelson: "Het is zeker ons doel die toepassing zonder verandering te kunnen gebruiken. We zullen het grid-systeem zodanig ontwerpen dat je niet hoeft te weten op welke computer(s) je programma draait; het systeem weet welke computers beschikbaar zijn voor bepaalde taken en hoe die gebruikt kunnen worden. Een grid kan op dit moment al totaal verschillende computersystemen koppelen tot één virtueel systeem."

Hoe schat u het ontwikkelstadium van ‘grid computing’ op dit moment in?
Nelson: "Ik zou het stadium van ‘grid computing’ willen vergelijken met dat van Linux zo’n twee of drie jaar geleden. Het werkt, en je kunt zien dat het nuttig en waardevol is. Maar het is moeilijk te gebruiken en er ontbreken diverse onderdelen. Verder zijn er klanten die de mogelijkheden inzien die het systeem kan bieden. Er komen nu diverse technologieën beschikbaar om er een commerciële versie voor bedrijven van te maken; dat kan snel gaan. Het grootste struikelblok is het denkraam van veel mensen: zij zijn gewend dat ze de computersystemen direct in eigen beheer hebben. Toch is it-outsourcing al een geaccepteerd fenomeen, vooral voor nieuwe toepassingen als webhosting. Toch vinden veel mensen nog steeds dat je het centrale systeem het best in eigen beheer kunt houden. Dat idee zal moeten veranderen."

IBM wordt beschouwd als pionier voor wat betreft het commercialiseren van ‘grid computing’. Hoe is dat zo gekomen?
Nelson: "We waren een van de eersten die de robuustheid en flexibiliteit van Linux inzagen. In 1998 maakten we een strategische keuze voor Linux als een besturingssysteem voor al onze systemen; die strategie is nu volledig uitgevoerd. We werken samen met veel anderen op het gebied van ‘open-source’ programmering voor het grid, en leveren ons deel om het geschikt voor het bedrijfsleven te maken. We zijn een groot voorstander van ‘open-source’ internettechnologieën, voor wat we aanvankelijk e-business en nu ‘e-sourcing’ (outsourcing van computerdiensten via een netwerk) noemen. We hebben in het verleden ons lesje over bedrijfseigen software geleerd. We zijn een groot voorstander van ‘open-source’ en het Global Grid Forum, de organisatie die normen voor het grid ontwikkelt."

Alternatieve benaderingen

Er zijn veel andere benaderingen voor het koppelen van computers. Op kleine schaal gebeurt dit al jaren in servers, met vier of acht processoren geclusterd. ‘Server-farms’ zijn populair geworden omdat zij de capaciteit van internetservers konden vergroten om het snel toenemend aantal aanvragen van browsers te verwerken. Een andere benadering is die van massaal-parallelle computers, maar dat bleek erg complex te zijn. Weer een andere benadering van gedistribueerde computers is SETI@home waaraan miljoenen mensen participeren. Ieder doet een klein stukje van een grote rekenklus op zijn pc, wanneer die niet gebruikt wordt. Napster werkt met een vorm van gedistribueerde opslag voor de enorme hoeveelheid informatie die op de pc’s van aangesloten gebruikers staat. Het voordeel van de Globus-benadering is dat totaal verschillende computersystemen (inclusief opslag) efficiënt gecombineerd kunnen worden tot één virtuele supercomputer die alle opdrachten direct en efficiënt kan verwerken.
Een belangrijk nieuw alternatief voor het Globus-grid is het onlangs door Microsoft aangekondigde .NET met Hailstorm voor webdiensten. De contouren hiervan zijn nu zichtbaar, maar veel details zijn nog onbekend. Dat zal ongetwijfeld later gebeuren. Het ziet ernaar uit dat Microsoft het combineren van veel computers van onderen benadert, terwijl het Globus-grid dit punt van boven benadert. Het bedrijfseigen Windows besturingssysteem (XP of zijn opvolger) dienst bij Microsoft als basis, vergeleken met het ‘open-source’ Linux van Globus. Beide benaderingen gebruiken internettechnologie en ‘single sign on’, een moeilijk gebied met complexe aspecten van beveiliging en privacy. Microsofts .NET lijkt gericht op een algemeen netwerk, zoals MSN (Microsoft Network) in internet, terwijl de grid-benadering (vooralsnog) bedoeld is voor een specifieke organisatie of asp’s (‘application service provider’). De komende drie tot vier jaar zal er waarschijnlijk voldoende ruimte zijn voor beide benaderingen.

Toekomst

In de jaren zeventig spendeerde IBM veel geld aan Future Systems, een met het grid vergelijkbaar project. Het idee was groots, maar de tijd niet rijp. Het ziet ernaar uit dat de tijd nu wel rijp is: de technologieën zijn beschikbaar en de behoefte kan ontstaan nu het beheer en de beveiliging van computersystemen sterk in kosten stijgen. Het idee van de asp is nog niet erg aangeslagen, maar er zijn nu twee nieuwe benaderingen (‘grid’ en .NET) die onze ideeën over het outsourcen van centrale computersystemen kunnen doen veranderen. Het zal interessant zijn om te volgen hoe zo’n supercomputer via het stopcontact zich de komende jaren zal ontwikkelen.

Hein Van Steenis Freelance Medewerker
Globus
Globus is een r&d-project gericht op het gebruik van grid-concepten voor wetenschappelijk en technisch rekenwerk. Centrum van het Globus-project is de faculteit Mathematics and Computer Science van het Argonne National Laboratory en het Information Sciences Institute van de University of Southern California. Het project omvat veel andere instellingen en bedrijven. Belangrijke partners zijn onder andere de National Computational Science Alliance, het Nasa Information Power Grid Project, de National Partnership for Advanced Computational Infrastructure, de University of Chicago en de University of Wisconsin.
Het project heeft de Globus Toolkit opgeleverd een stel diensten en programmabibliotheken om grids en grid-toepassingen te vereenvoudigen op het gebied van: ‘resource allocation’ en management, een beveiligde infrastructuur met ‘single-sign-on’, een directory-dienst, en diensten voor opslag, communicatie en systeemadministratie. Veel personen, organisaties en projecten hebben hiervoor ‘hogere’ diensten en toepassingen geschreven. Het Globus-project wordt financieel mogelijk gemaakt door steun van Darpa, het US Department of Energy, Nasa en de NSF.
(Informatie uit de Globus FAQ: http://www.globus.org/about/faq/general.html. Voor verdere informatie over het Global Grid Forum, zie: http://www.globus.org.)

Universiteits-grids
IBM gaat het meest krachtige grid bouwen voor een consortium van vier Amerikaanse onderzoekscentra, bestaande uit gekoppelde Linux-clusters. Dit grid zal duizenden wetenschappers in de VS in staat stellen hun computerkracht te bundelen tot het snelste computernetwerk in de wereld, dat gebruikt zal worden voor het vinden van nieuwe antwoorden voor problemen op het gebied van menselijk leven, klimaatmodellering en andere wetenschappelijk belangrijke onderwerpen.
Deze Distributed Terascale Facility (DTF) wordt financieel mogelijk gemaakt door de National Science Foundation. De servers zullen de volgende generatie Intel Itanium microprocessoren, McKinley, gebruiken. Het systeem zal een opslagcapaciteit van meer dan 600 terabytes bezitten. De Linux-clusters zullen met elkaar gekoppeld worden via een supersnel (40 Gigabit per seconde) netwerk van Qwest. De zo ontstane virtuele supercomputer zal een verwerkinggsscapaciteit hebben van 13,6 teraflops (biljoen berekeningen per seconde). De DTF zal meer dan duizend maal zo snel zijn als IBM’s Deep Blue supercomputer, die schaakkampioen Garry Kasparov in 1997 versloeg.
Vijf universiteiten in Holland (VU, UvA, Leiden, Utrecht en Delft) krijgen ook een grid, zij het van beperktere afmetingen dan het Amerikaanse. Dit project is voorgesteld door Asci (Advanced School for Computing and Imaging), waarvan prof. A. Tanenbaum de wetenschappelijk directeur is. (Zulke onderzoekscholen zijn samenwerkingsverbanden tussen universiteiten om gemeenschappelijk onderzoek te doen en samen promovendi op te leiden.) Dit DAS-2 project (Distributed Asci Supercomputer) wordt gecoördineerd door prof. H.E. Bal (VU). DAS-1 werkt al vanaf 1997; de opvolger DAS-2 wordt deze maand in dienst genomen. Beide zijn medegefinancierd door NWO (Nederlandse Organisatie voor Wetenschappelijk Onderzoek) aan de hand van uitgebreide voorstellen.
Het DAS-2 grid bestaat uit vijf clusters, gehuisvest bij de deelnemende universiteiten. De VU krijgt een cluster met 72 knooppunten (‘nodes’) waarin elk 2 processoren gebruikt worden, de overige universiteiten krijgen clusters met 32 knooppunten, ook met 2 processoren elk; in totaal 400 processoren van het type Intel Pentium 3 met een snelheid van 1GHz. Het gebruikte besturingssysteem is uiteraard Linux (dat geschreven is naar het voorbeeld van Minix, een voor onderwijsdoeleinden bestemd besturingssysteem dat lang geleden door prof. A. Tanenbaum ontwikkeld werd). Binnen een cluster wordt Myrinet, een heel snel lokaal netwerk, gebruikt voor de communicatie tussen de knooppunten. In eerste instantie zal de communicatie tussen de clusters plaatsvinden via het universitaire internetnetwerk. Begin volgend jaar hoopt men hiervoor Surfnet 5 (Gigaport) te gaan gebruiken. Er komt straks ook een snelle (2,5 Gbps) verbinding met de universiteit van Chicago, om te zien of deze supercomputer-grids ook nog gekoppeld kunnen worden.
De hardware is inmiddels besteld bij IBM (xSeries 330). IBM levert de fileservers met een capaciteit van 36 GB of meer. De verwachting is dat DAS-2 deze maand operationeel is. De verwachte levensduur van DAS-2 zal circa drie tot vier jaar zijn, net als die van DAS-1.
Doel van het DAS-2-grid is voornamelijk het onderzoek naar parallelle verwerking. De gebruikte voorbeeldtoepassingen omvatten onder andere weermodellering, complexe beeldverwerking, zoeken naar specifieke beelden in grote beeldbanken, web-caching (hoe webdocumenten zo efficiënt mogelijk kunnen worden opgeslagen), gebruik van Java, deeltjessimulaties, optimaliseringsproblemen, doorrekenen van computerschakelingen, enzovoort.

Blue Sky
Deze maand kondigde IBM de bouw aan van de kolossale supercomputer Blue Sky voor het National Center for Atmospheric Research (Ncar). Blue Sky zal berekeningen moeten uitvoeren waarmee voorspellingen zijn te doen op het gebied van het klimaat, de opwarming van de aarde, en stookolieprijzen. De machine zal worden uitgerust met IBM’s eLiza-technologie, dat computers in staat stelt zelf beheer en onderhoud te plegen zonder menselijke interventie.
De eerste fase is het opstellen van meer dan 300 IBM SP supercomputers, die 2 biljoen berekeningen per seconde kunnen maken. In de tweede fase, herfst 2002, moet een gigantisch aantal p690 Unix-servers aan de SP-systemen worden gekoppeld, waarmee 7 biljoen berekeningen per seconde haalbaar moeten worden.
Blue Sky zal dan niet de grootste supercomputer ter wereld zijn, maar met de eLiza-technologie zal hij wel een van de meest onafhankelijke zijn.