Op woensdag 21 juli openden hardwarefabrikant Dell en het rekencentrum van de Cambridge-universiteit officieel de deuren van een dienstencentrum voor High Performance Computing (HPC) in het Britse Cambridge. Zo’n centrum is nodig omdat steeds meer high-techbedrijven en onderzoeksorganisaties de relatief goedkope rekenclusters willen inzetten voor zware rekenklussen. Dat is echter niet eenvoudig.
‘Tien jaar geleden werden arbeidsintensieve berekeningen nog allemaal gedaan op supercomputers. Nu bestaat 84% van de snelste HPC-systemen wereldwijd uit clusters’, vertelt rekencentrumdirecteur en oud-onderzoeker Paul Calleja in het nieuwe Solution Centre van het rekencentrum van de Cambridge-universiteit.
Vanwege de lage kosten willen veel higt-techbedrijven en onderzoeksonderzoeksorganisaties gebruiken maken van clustering. Kennis over hoe je een cluster ‘ draait’ ontbreekt echter vaak. Calleja: ‘Wij hebben die vaardigheden en operationele kennis wel en proberen die in te dikken tot recepturen.’
Calleja: ‘Supercomputers zijn monolieten. Je kunt ze niet veranderen. Een cluster is alleen een verzameling componenten. Die kun je selecteren en ze optimaliseren voor een bepaald doel. Dat is een voordeel. Een nadeel is echter dat je nooit zeker zult weten of die standaardonderdelen gaan werken zoals je bedoelde. Je kunt ze verkeerd configureren. Dus je hebt veel vaardigheden nodig om gebruik te maken van de mogelijke voordelen van een cluster.’
White papers
De expertise van het in samenwerking met Dell geopende nieuwe dienstencentrum focust zich in eerste instantie op HPC opslag, visualisatie, rekenclusters op basis van grafische kaarten en applicatieoptimalisatie en – benchmarking. Calleja: ‘Door met Dell samen te werken kunnen we de diepgaande technische kennis van Dell’s HPC-team over de hardwareinfrastructuur van moderne HPC-installaties combineren met de operationele kennis van mijn team. Samen kunnen we daardoor praktische HPC-oplossingen ontwikkelen.’
Tegelijk met de opening van het dienstencentrum, werd ook het eerste white paper gepresenteerd. Dat handelt over Dell Lustre, een open source opslagsysteem voor clusters. ‘We willen elk kwartaal minstens twee white papers uitbrengen’, vertelt verkoopmanager voor EMEA Richard Wentges. De volgende twee papers zullen gaan over rekenclusters op basis van grafische kaarten. Wentges: ‘Vliegtuigturbine-onderzoeker Graham Pullan is de initiator van dat paper.’ Daarna volgen papers over de keuze tussen een InfiniBand- of ethernetnetwerk. ‘ En rond de jaarwisseling komt Intel met een nieuwe chipset. ‘Dat gaat een gigantische invloed hebben op alle machines in het veld. We krijgen die chipsets van tevoren zodat we configuraties kunnen testen, om de overzicht van wijzigingen te kunnen.’
Lange reviewfase
Bij het uitbrengen van een white paper gaan de onderzoekers niet over een nacht ijs. Calleja: ‘Mijn ingenieurs hebben ervaring met het bouwen en gebruiken van concrete HPC-oplossingen. Op basis daarvan bouwen we een platform waarvan we denken dat het generiek bruikbaar is. We ontwikkelen testen dat lange tijd met zware lasten om om reallife HPC-gebruikservaring te krijgen. Daarna schrijven we de eerste versie van het paper. Het Dellteam in Texas bekijkt dat en komt met voorstellen tot wijziging. Als we die hebben doorgevoerd geeft Dell het paper aan non-HPC technologieexpert, met de opdracht: ga het maar bouwen aan de hand van dit paper. Dat is een behoorlijk zware test, waaruit we zeer gedetailleerde feedback terugkrijgen. Tot slot gaat het paper naar een kleine selectie eindgebruikers voor commentaar. Nadat die laatste feedback verwerkt is, wordt het white paper gepubliceerd.’
Volgens de rekencentrumdirecteur kost dit proces veel tijd. ‘ De reviewstage duurt veel langer dan het schrijven van de eerste versie. In het geval van Lustre drie maanden testen, tegenover zes weken schrijven. White papers moeten mensen echt in staat stellen een oplossing vanaf scratch te bouwen. Dat is best moeilijk.’
Naast Dell werkt de Cambridge-universiteit ook samen met andere technologieleveranciers, waaronder InfiniBand-netwerkleverancier Mellanox, Microsoft en Intel. Calleja: ‘Verstopt binnen al die bedrijven vind je HPC-experts. Ons Solution Center probeert als honingpot te fungeren voor die partijen.’
HPC-cloud in Cambridge
In 2009 opende de Britse Cambridge-universiteit haar rekencentrum voor commercieel gebruik. Rekencentrum-directeur en oud-onderzoeker Paul Calleja vormde het centrum in vijf jaar om van een gesubsidieerde instelling naar een zichzelf bedruipende cloud voor High Performance Computing (HPC). Behalve zo’n zeventig lokale universitaire vakgroepen maken voornamelijk high-techbedrijven in de regio gebruik van zijn ‘cloud’. Dat rekencentrum staat echter open voor commercieel gebruik door onderzoekers en bedrijven in heel Europa. Het hart van het rekencentrum bestaat uit het Darwincluster. Dat wordt gevormd door 585 Dell PowerEdge-servers (1950 1U) met elk vier 3.0 GHz Intel Woodcrestkernen.