Moderne bedrijven behalen aanzienlijke concurrentievoordelen door AI en machine learning te omarmen. Grote taalmodellen zoals ChatGPT, machine learning analyses en complexe 3D-modellen hebben op zijn minst gemeen dat ze allemaal profiteren van versnelde toegang tot opslag via elk soort gelaagd model dat je wilt gebruiken.
Dat is een belangrijke reden waarom zoveel bedrijven en serviceproviders zijn overgestapt op GPU-servers voor het verwerken van grote, gecompliceerde datasets. Ze zijn veel beter in staat om zware workloads sneller te voltooien dan conventionele servers met meer typische opslagconfiguraties (bijvoorbeeld lokaal RAM en NVMe SSD’s, met extra opslaglagen op het LAN of in de cloud).
Het geheim van het verhogen van de doorvoer is een lagere latentie en een betere opslagbandbreedte. Dit heeft directe gevolgen voor de productiviteit en capaciteit, met name door het slim gebruik van IO en netwerktechnieken die afhankelijk zijn van zowel directe als externe toegang tot geheugen. Een versnelde training van modellen en snellere taakvoltooiing resulteren in de mogelijkheid om AI-toepassingen sneller te implementeren en taken efficiënter uit te voeren, wat resulteert in een verkorte time-to-value.
GPU’s Direct Memory Access geven
Sinds de vroege dagen van computers wordt Direct Memory Access (DMA) ingezet om IO-processen te versnellen. In essentie omvat DMA het rechtstreeks overbrengen van gegevens van het ene apparaat naar het andere, van geheugen naar geheugen, via een bus of een andere interface. Dit gebeurt door een reeks geheugenadressen direct van het geheugen van de zender naar het geheugen van de ontvanger te kopiëren, en soms zelfs tussen twee partijen voor tweerichtings overdrachten. DMA ontslaat de CPU van dit proces en versnelt de gegevensoverdracht door het aantal kopieerstappen te verminderen. Dit betekent dat de CPU niet langer belast is met het kopiëren van gegevens van de zender naar zijn eigen geheugen en vervolgens vanuit zijn geheugen naar het geheugen van de ontvanger.
De prestaties van DMA op een enkel systeem worden eigenlijk alleen beperkt door de snelheid van de bus (of andere interface) die de verzendende en ontvangende apparaten met elkaar verbindt tijdens een gegevensoverdracht. Voor PCIe 4.0 bedraagt deze snelheid 16 gigatransfers per seconde (GT/s), en voor PCIe 5.0 wordt dit zelfs verdubbeld naar 32 GT/s. De daadwerkelijke gegevenssnelheden liggen uiteraard lager vanwege overheadkosten bij het coderen en verpakken, maar de nominale bandbreedte voor deze twee PCIe-versies bedraagt respectievelijk 64 Gbps (4.0) en 128 Gbps (5.0). Dat is indrukwekkend snel!
Remote DMA (RDMA) breidt de mogelijkheden van DMA uit, die normaal gesproken binnen een enkele computer werken, om te kunnen functioneren tussen verschillende apparaten via een netwerkverbinding. RDMA maakt doorgaans gebruik van een speciale Application Programming Interface (API) die samenwerkt met gespecialiseerde netwerkhardware en -software, en probeert zoveel mogelijk van dezelfde voordelen te bieden als lokale DMA, rekening houdend met de beperkingen van de onderliggende netwerktechnologie.
Er zijn drie gangbare RDMA-technologieën:
NVIDIA NVLink maakt gebruik van de snelste technologieën om dataoverdracht tussen GPU’s te versnellen op een high-speed netwerk. Het klokt momenteel de hoogste prestaties op standaard MLPerf Training v3.0 benchmarks voor elke technologie. Een enkele NVIDIA H100 Tensor Core GPU ondersteunt tot 18 NVLink-verbindingen voor een totale snelheid tot 900 Gbps (7 keer de effectieve snelheid van PCIe 5.0).
InfiniBand is een hogesnelheidsnetwerkstandaard onder toezicht van de InfiniBand Trade Association (IBTA) die op grote schaal wordt geïmplementeerd in krachtige netwerken. De hoogst gespecificeerde gegevenssnelheden lopen op tot 1.200 Gb/s (met 12 links) voor de NDR-specificatie vanaf 2022.
Ethernet is een standaard netwerktechnologie met vele varianten, waaronder het zelden gebruikte TbE (~125 GBps) en het meer gangbare 400 GbE (50 GBps). Het heeft als voordelen dat het betaalbaarder is, op grote schaal wordt ingezet en een vertrouwde technologie is voor datacenters.
RDMA-technologieën bieden ondersteuning voor GPU-gegevenstoegang via alle drie eerder genoemde netwerktechnologieën. Elk van deze opties biedt een andere prijs-prestatieverhouding, waarbij hogere kosten resulteren in verbeterde snelheid en lagere latentie. Organisaties hebben de flexibiliteit om het onderliggende verbindingsstype te kiezen dat het beste aansluit bij hun budget en behoeften. Ze kunnen zich bewust zijn van het feit dat elke keuze een specifieke combinatie van prijs en prestaties vertegenwoordigt waarop ze kunnen vertrouwen. Wanneer verschillende AI- of ML-gebaseerde (en andere data- en rekenintensieve) toepassingen op een dergelijke server draaien, kunnen ze profiteren van de gelaagde architectuur van GPU-opslag.
Aangezien zowel AI- als ML-toepassingen zowel lage latentie als hoge bandbreedte vereisen, speelt RDMA een essentiële rol bij het uitbreiden van de voordelen van lokale DMA naar netwerkbronnen (afhankelijk van de onderliggende verbindingen). Deze functionaliteit maakt het mogelijk om snel toegang te krijgen tot externe gegevens door middel van memory-to-memory overdrachten tussen apparaten. Door samen te werken met technologieën zoals NVLink, InfiniBand of andere snelle Ethernet-varianten, kan een externe adapter gegevens efficiënt overbrengen van het geheugen in een systeem op afstand naar het geheugen in een lokale GPU.
Het werkelijke voordeel van het gebruik van GPU-servers voor AI, ML en andere veeleisende workloads, zoals 3D-rendering of eindige-elementenanalyse, is dat ze de mogelijkheid bieden om infrastructuurcomponenten te ontkoppelen van applicatieloads. Dit resulteert in een aanzienlijke besparing van 20% tot 30% van de CPU-cycli die momenteel worden besteed aan het beheren van infrastructuurtoegang. Hierdoor worden resources vrijgemaakt en wordt de toegang versneld door IO-functies direct naar de hardware te sturen.
Michael McNerney, Vice President Marketing en Netwerkbeveiliging, Supermicro