Gartner-specialist David Cappuccio ziet het niet snel gebeuren, maar aan de TU Eindhoven sleutelt buitengewoon hoogleraar Nicola Calabretta aan uitgesplitste datacenters. Waar alle onderdelen los van elkaar werken, onderling verbonden via lichtpaden. Om de gewenste prestaties te kunnen halen.
Wie een datacenter binnenwandelt, ziet rijen kasten vol geïntegreerde systemen. Servers met cpu’s, storage en schijven aan boord. Een gangbaar datacenter, aldus Calabretta tijdens een seminar over photonic switching van het Kivi, bestaat uit gangbare elementen. ‘Een server heeft algemeen beschikbare pc-onderdelen in zich, zoals een cpu, dram en schijven. Ze staan met veertig tot tachtig stuks in een rack, onderling verbonden via een ethernet-switch. De racks zijn gekoppeld in een cluster, aangestuurd door een cluster-switch. De switches zijn uitgerust met algemeen beschikbaar siliciumchips.’
Calabretta ziet dat er een probleem ontstaat: de ‘performance wall’. De rekenkernen (cpu’s) moeten steeds vaker wachten op het beschikbaar komen van data via de opslagmedia. ‘Cpu’s volgen de wet van Moore en worden jaarlijks zestig procent sneller. Maar dram wordt zeven procent sneller per jaar. Deze kloof tussen cpu en geheugen groeit jaarlijks met de helft. Daardoor zijn cpu’s velen uren per jaar werkloos. Deze verkeerde afstamming tussen hardware-elementen leidt tot onderbenutte middelen, zelfs lager dan veertig procent. Kapitaalverspilling aangezien servers 85 procent van de totale kapitaalkosten uitmaken. Onbenutte bronnen nemen meer dan de helft van het energieverbruik voor hun rekening. Het latency-probleem probeert men te omzeilen met machine learning interconnect-systemen. Maar dan consumeert het netwerk (ontvangers en schakelaars) veertig tot zestig procent van het totale energieverbruik. De oplossing ligt in photonic switching.’
Neurale netwerken
Het moderne datacenter bestaat dan uit losse onderdelen die via een netwerk met elkaar zijn gekoppeld. De netwerkschakelaars, de cpu’s, het geheugen, opslag, gpu (grafische kaart) en tensor processing unit (tpu) werken alle los van elkaar. Een tpu is een ai-versneller, een toepassingsspecifiek geïntegreerd circuit dat door Google speciaal is ontwikkeld voor machine learning op neurale netwerken.
In deze architectuur zijn alle onderdelen via een netwerk met elkaar verbonden. De voordelen volgens Calabretta: alle bronnen zijn onderling verbonden door een netwerk, fijnmazig hardwarebeheer, en energie-efficiënt en lage onderhoudskosten.
Er wachten nog wel uitdagingen. ‘Hoe komen we aan ultra-lage latency en hoge bandbreedte, aan schaalbaarheid, snelle netwerkschakeling en -besturing? Dat is alleen mogelijk met gebruikmaking van licht. Snelle optische schakelaars. Die zijn programmeerbaar, waardoor je heel snel een netwerk kunt herconfigureren. Je kunt een efficiënt resource pooling algoritme schrijven; dat is nodig omdat verschillende toepassingen verschillende eisen hebben. En tot slot is het mogelijk het verkeer te voorspellen door geautomatiseerd machine learning.’
Indrukwekkende architecturen
Met gedistribueerde, optische switches zijn meerdere paden mogelijk. Het systeem bepaalt zelf welk pad het snelst is. Met dergelijke switches tussen de racks verschrompelt latency tot nanoseconden, aldus Calabretta. In Eindhoven werkt hij aan een modulair ingerichte wdm-switch (wavelength division multiplexing). Wdm is een technologie die het mogelijk maakt verschillende optische signalen door een enkele vezel te verzenden.
Deze architectuur voorkomt dataverlies, de eentrapsschakelaar heeft een goede bestuurbaarheid, biedt schaalbaarheid en je kunt optical signal-to-noise ratio toepassen. Enkele voordelen daarvan zijn het vermijden van netwerkonderbrekingen, het optimaliseren van de tijd die nodig is om problemen op te lossen. Deze signaal-ruisverhouding is kritisch bij datasnelheden boven 100G, zoals in de uitgesplitste datacenters.
Calabretta toont indrukwekkende architecturen van optical switched netwerken van 128 nodes per cluster, waarbij snelheden van 1,6 Tb/s worden gehaald. Hij toont het prototype van een uitgesplitste architectuur. De netwerkvertraging komt op 122,3 nanoseconde.
De buitengewoon hoogleraar ziet dat het mogelijk is om dergelijke uitgesplitste datacenters in te richten. ‘We demonstreren experimenteel een vier node uitgesplitst prototype gebaseerd op gedistribueerde nanoseconde optische schakelaars en besturing. Het werkt, heeft een zeer lage latency, geen pakketverlies en het netwerk werkt langdurig en stabiel.’
Zijn project heeft financiering ontvangen van het EU-programma Horizon 2020-programma voor onderzoek en innovatie in het kader van de Passie subsidieovereenkomst nr. 780326.
Voorlopig niet
David Cappuccio is bekend met het werk van Calabrettta. Cappucio werkt 28 jaar voor Gartner. Zijn huidige titel is vp & distinguished analyst, chief of Data Center Research. De laatste twaalf jaar heeft het intelligente datacenter zijn volledige aandacht.
Hij ziet de optische switches voorlopig nog geen entree maken in de datacenters. Hoewel de total cost of ownership naar beneden gaat, is het toch een kapitaalintensieve ‘verbouwing’ en in de meeste datacenters is de nood niet zo hoog. Wel ziet hij in de toekomst dergelijke architecturen toegepast worden bij de hyperscalers. Bij de datacenters die uit hun voegen barsten door de toevloed van data en de gewenste snelle verwerking ervan.
Mooi vooruitzicht, deze architectuur met optische switches. In tegenstelling tot David Cappuccio zie ik zoiets in eerste instantie van pas komen in de gedistribueerde edge cloud datacenters, en zeker niet eerst in de hyperscale datacenters. In de near-edge komt de gereduceerde latency tot nanosecondes (hier uitgedrukt als “netwerkvertraging”) juist goed van pas. Bijvoorbeeld om straks bij 5G en 6G netwerken geautomatiseerde netwerk configuratiewijzigingen door te voeren ten behoeve van RAN-slicing. Denk aan zoiets als individuele endpoint beamforming in de antennes ( en in scope van 3GPP Release 18). De verwachting is sowieso dat binnen 10 jaar 70-80% van de data- en verwerkingscapaciteit buiten de nu al bijna legacy en “alles met AI en ML vindt hier plaats”-hyperscale datacenters zal worden uitgevoerd. Leuke uitdaging ook voor partijen als HPE om naast een 5G Core stack ook een edge stack op basis van optical switching op te nemen in hun Greenlake Platform.