Gridcomputing. Het idee van Foster en Kesselman ontstond in 1995. Inmiddels is het uitgegroeid tot een serieus instrument voor biowetenschappen en als de voortekenen ons niet bedriegen, zal ‘gridcomputing’ binnen afzienbare tijd de supercomputer in grote bedrijven worden, voor de integratie van toepassingen en het delen van informatie. Tijd voor het opnemen van de stand van zaken: drie bedrijven over hun ervaringen met biogridcomputing.
IBM: grids in eigen datacenters * Op 25 november 2002 onthulde IBM plannen voor de toekomst van grids, waarbij ‘on demand’-computing als strategie werd gelanceerd. De visie is dat gridcomputing moet werken als een utiliteitsvoorziening: de geïntegreerde computer uit een stopcontact. Hiertoe zijn onder andere Linux, AIX en andere programmatuur ‘grid-enabled’ gemaakt, waardoor ook backup/recovery en webdiensten mogelijk zijn. * Op 9 januari 2003 kondigde IBM ‘On Demand’-computing aan voor de olie-industrie. Interessant vanwege de vaak onregelmatige vraag naar computercapaciteit. Uit de meer dan tien langdurige miljarden-outsourcingcontracten die IBM vorig jaar sloot met onder andere Deutsche Bank en JP Morgan Chase, kan ook worden afgeleid dat IBM mogelijk grids in eigen datacenters gaat exploiteren. * Op 27 januari 2003 maakte IBM bekend dat het voor ‘on demand’-computing gaat samenwerken met operators en leveranciers in Azië, om nieuwe diensten snel te kunnen invoeren middels de IBM Service Provider Delivery Environment op basis van Linux. Op diezelfde datum deelde IBM mee dat er tien nieuwe gridcomputingproducten komen voor de volgende vijf sectoren: financiële diensten, biowetenschappen, de auto-industrie, overheid en de ruimtevaartindustrie. IBM probeert gridcomputing duidelijk in het bedrijfsleven te positioneren, en zal gridcomputing net zo sterk benadrukken als destijds Linux. |
Maar wat is nu het verschil met een grid? Grimshaw: "Ze vloeien in elkaar over, afhankelijk van de mogelijkheden. Er zijn ook clustergrids met heterogene knooppunten, die een enkel gedeeld opslagsysteem bezitten en centraal worden beheerd. Zij worden meestal gebruikt voor computerintensieve toepassingen, onder andere met parallelle programmering via mpi (‘message passing interface’). Grids worden onderscheiden naar omvang (cluster, campus, enterprise, global) en naar type (data, computing, toepassing). Bij grids gaat het om de virtualisering van álle hulpmiddelen: informatieverwerking, informatie, opslag en toepassingen. Kostenreductie ontstaat doordat je de verwerking over veel computers kunt spreiden en hun leegloop kunt benutten."
Grimshaw benadrukt dat transparantie de sleutel naar succes is. Het is belangrijk dat de informatie in verschillende computer- en opslagsystemen kan worden gecombineerd, liefst dynamisch zodat veranderingen gelijk bijgewerkt worden. Met de Data Grid 3.0 van Avaki hoef je de toepassingen niet te herschrijven en kun je werken met de gegevens in andere systemen alsof ze op je eigen systeem staan, in je eigen indeling. De gegevens worden automatisch gecached, om hun integriteit te waarborgen tijdens lezen en schrijven.
Op dit moment gebruikt Avaki nog niet de Globus-toolkit voor grids (Globus is een samenwerkingsverband van Amerikaanse bedrijven instellingen en wetenschappelijke instellingen). Grimshaw: "We hebben onze software in J2EE geschreven. Die taal is erg geschikt voor grids, omdat ze veel gebruikt wordt en relationele databases kan benaderen. Als onderdeel van de overgang naar ogsi (‘open grid services infrastructure’) van het Global Grid Forum (GGF), zullen we overstappen op de Globus ogsi-implementatie en hun architectuurnormen." Grid-diensten zijn gedefinieerd in termen van genormeerde webdiensten (Wsdl: ‘Web services definition language’), zodat het grid direct voor het web te gebruiken is. Avaki is lid van de Liberty Alliance, de tegenhanger van (ex-)Palladium, voor de beveiliging en ‘single-sign-on’.
Gevraagd naar de toekomstperspectieven van grids – worden ze bijvoorbeeld al gebruikt buiten de biowetenschappen? – antwoordt Grimshaw: "Hoewel al onze klanten nu in de biowetenschappensector zitten, zijn er ook veel andere wetenschappelijke toepassingen: hoge-energiefysica, ruimtevaart, materiaalkunde, weer- en oceaanmodellering en astronomie. Daarnaast komen er nu veel commerciële toepassingen. Verder is er interesse in ‘on demand’-computing, een richting die IBM lijkt in te slaan." Asp’s hebben volgens Grimshaw in deze markt slechts weinig succes, omdat zij alleen vaste pakketten aanbieden.
De Novo Pharmaceuticals
De Novo Pharmaceuticals Ltd is een Engels bedrijf dat in 1999 is opgericht en veertig medewerkers telt. Deze onderneming is gespecialiseerd in het ontwikkelen van chemische stoffen die actief zijn op specifieke enzymen en G-eiwitgekoppelde eiwitten (gpcr’s), met als doel het ontwikkelen van medicijnen. Toepassing van computersimulatie kan de ontwikkeling van een medicijn enorm versnellen en De Novo maakt veel gebruik van complexe algoritmen en computerberekeningen.
Hun voornaamste ‘gridfarm’ is een voordelig Sun Netra-stack met 80 knooppunten. Alle knooppunten (nodes) zijn geplaatst in een enkel rek. Ze gebruiken Sun Open Source gridsoftware. De basisintegratie is gerealiseerd in Java (J2EE). De Novo is pionier op dit gebied en organiseert samen met Sun cursussen hierover. Als gebruikersinterface wordt een browser toegepast. Omdat alle knooppunten op één locatie staan, spreekt men van een farm; bij meerdere locaties wordt dat een ranch.
Voordat het Sun-grid aangeschaft werd, maakte het bedrijf gebruik van SGI Octane- en Reality-machines. Het Sun-grid is vele malen sneller: een simulatie die 24 uur duurde, wordt nu gedaan in 7 minuten! Volgens dr Richard Scott, hoofd van de Discovery Informatics afdeling, is het de bedoeling om het grid op te waarderen naar een 1000-node farm. Vooralsnog is dit nog niet nodig en de financiering van zo’n opwaardering is mede afhankelijk van de winstgevendheid. De Novo Pharmaceuticals maakt nog geen winst, maar is wel goed op weg om winstgevend te worden.
De Novo heeft uitstekende ervaringen met gridcomputing, maar zijn er ook beperkingen? Scott: "Voor chemoinformatica heeft Sun een uitstekend systeem; voor bioinformatica is een krachtiger systeem nodig. Ons systeem kan worden opgeschaald tot duizend knooppunten, dat moet voldoende zijn. Dataopslag (wij beschikken nu over 2,5 terabytes) kan in principe een probleem worden, dus je moet slim specificeren waarnaar je op zoek bent. Er zijn veel leveranciers die hun middleware aanprijzen, maar ik denk dat het beter is om de ‘load balancing’ met J2EE zelf te ontwikkelen, aan de hand van de logbestanden van de runs." Volgens Scott is gridcomputing flink aan het groeien, maar neemt het gebruik nog niet explosief toe.
IBM gaat verder
De functie-omschrijving van Christine Miller, IBM’s ‘worldwide business and sales development executive – life sciences industry’, lijkt duidelijk te maken dat biogridcomputing voor Big Blue een commerciële zaak begint te worden. Miller vertelt welke producten ze aanbieden: "We kunnen alle benodigde hardware, middleware, software en diensten leveren die nodig zijn voor een gridproject. Vooral die diensten zijn belangrijk, want gridsystemen worden meestal opgebouwd, niet als systeem verkocht. De eisen van elke klant zijn anders vanwege de verschillende toepassingen." Er zijn dus geen algemene oplossingen, elk systeem wordt op maat van de klant gemaakt.
De middleware is een belangrijk punt bij gridsystemen. Hoe kiezen klanten die? Miller: "Klanten kijken naar de eigenschappen van de verschillende middleware en bepalen dan de meest geschikte, afhankelijk van wat zij met het grid willen doen. Die keus hangt af van de geografie (hoeveel sites), de schaalbaarheid, de stabiliteit, de eigen systemen en hun opslag, enzovoorts. Er zijn heel veel factoren die geëvalueerd moeten worden voordat je een optimale configuratie bereikt. Vaak werken we samen met andere leveranciers, zoals Platform, United Devices, Avaki en Entropia. Sommige afdelingen experimenteren graag zelf met diverse mogelijkheden."
De vraag is of gridsystemen de bestaande infrastructuur vervangen of dat ze complementair zijn. Miller: "Zij vervangen de bestaande infrastructuur niet, maar bieden de virtualisatie van hulpbronnen binnen een bedrijf of instelling, waardoor mensen en computers veel efficiënter kunnen werken. Met onze klanten praten we over welke toepassingen het beste ‘grid-enabled’ kunnen worden. Vervolgens proberen we daarvoor een goede implementatie te vinden – dat kan een volledige ‘open source’-oplossing zijn met enkele serverfarms, een eigen, federatieve oplossing met DB2EE, Websphere en Tivoli, of iets wat daar tussenin ligt." IBM werkt nauw samen met Globus voor de definitie van ‘open grid services architecture’ (ogsa), dat dient als basis voor de meeste grids.
Er is veel gesproken over alle wonderen die gridcomputing voor de mensheid gaat verrichten, maar is het nu al gekomen tot echt praktische resultaten? "Jazeker," zegt Miller, "al zitten we nog in het beginstadium. De universiteit van Pennsylvania gebruikt bijvoorbeeld het ndma-grid (‘National digital mammography archive’) om allerlei patiëntgegevens (mammogrammen, ct- en mri-beelden, uitslagen van biopsieën en andere voor borstkanker belangrijke gegevens) in diverse hospitalen beschikbaar te stellen aan artsen. Doordat alle elektronische patiëntgegevens overal binnen twee seconden beschikbaar zijn, worden onnodige tests vermeden en wordt veel tijd en geld bespaard. Bovendien vereenvoudigt dit het wetenschappelijk onderzoek." Miller verwacht veel andere praktische resultaten in 2003. De ontwikkeling en certificatie van nieuwe medicijnen vragen echter veel tijd.
Op de onvermijdelijke vraag of biogridcomputing blijft groeien, antwoordt ze: "Het is nog steeds een technologie in ontwikkeling, maar wél een die vaste voet heeft gekregen en voorlopig zijn plafond nog lang niet bereikt heeft. Ik verwacht verder dat gridcomputing zijn weg naar het bedrijfsleven zal vinden en sterk zal uitgroeien. Voorwaarde daarvoor is dat de normen breed geaccepteerd worden, zodat alle ontwikkelaars en leveranciers die gaan gebruiken."
Hein van Steenis, freelance medewerker