Artificial Intelligence (AI) is een alomtegenwoordige technologie aan het worden, waarvoor krachtige servers nodig zijn die specifiek zijn ontworpen voor AI-training en -inferencing. Organisaties worden geconfronteerd met de vraag of ze publieke cloudinfrastructuur moeten gebruiken om toegang te krijgen tot AI-training en -inferencing.
Alternatief kunnen ze ervoor kiezen om deze systemen aan te schaffen, te installeren en te beheren binnen een datacenter van de onderneming. Er moeten verschillende afwegingen worden gemaakt, zodat bedrijven een optimale keuze kunnen maken, met een maximale return on value vanuit het oogpunt van implementatie en kosten.
Public cloud vs. on-premise
Aangezien AI-training wordt uitgevoerd op bestaande data, moet een trainingsproces vertrouwen op bedrijfsdata. Veel van deze gegevens kunnen privé zijn voor de organisatie en beveiligd achter een firewall met specifieke machtigingen. Het implementeren van een AI-trainingssysteem met bedrijfsdata in een on-premise datacenter is daarom zinvol. Een bedrijf kan strengere eisen stellen aan zijn data dan een public cloud en andere of aangepaste securitymaatregelen treffen.
In veel branches mogen data alleen op specifieke geografische locaties worden opgeslagen. Door data op locatie op te slaan, is er volledige controle over waar de data worden bewaard en gearchiveerd. Bij het gebruik van een public cloud waar de data moeten worden geüpload, is er mogelijk geen garantie dat de data op de opgegeven locatie worden bewaard, vooral wanneer op cloud gebaseerde back-ups worden overwogen.
Er zijn veel GPU-opties, met opties van verschillende serverleveranciers. GPU’s zijn misschien niet eens nodig voor sommige workloads in de AI-pipeline. De nieuwste CPU’s van tegenwoordig hebben aanzienlijke AI-verwerkingskracht op de CPU zelf, wat kan leiden tot acceptabele prestaties en lagere kosten voor de servers. Bovendien kunnen bedrijven mogelijk de nieuwste accelerators aanschaffen bij de leverancier en integreren in hun IT-omgeving voordat een public cloudprovider dat kan.
De juiste servers ondersteunen bedrijven
De aanschaf van GPU-servers kan correct worden begroot en de bedrijfskosten kunnen vrij nauwkeurig worden geschat. Als dit niet correct is gemodelleerd, zou de variabele betrekking hebben op de stroom die nodig is om de servers te laten draaien, wat van invloed kan zijn op de bedrijfsuitgaven. Omgekeerd kan het gebruik van een aantal AI-servers in een public cloud resulteren in onvoorspelbare rekeningen. De hoeveelheid gegevens die naar de cloud moet worden gestuurd en uit de cloud moet worden teruggestuurd, kan de kosten aanzienlijk opdrijven. Daarnaast kan het reserveren van GPU-instanties zonder ze te gebruiken de kosten ook opdrijven.
Er zijn tegenwoordig veel verschillende soorten GPU-servers op de markt. De specifieke configuratie en mogelijkheden van een GPU-server zijn mogelijk niet beschikbaar in een public cloud. Het aanschaffen van servers die geconfigureerd zijn voor het type AI-training of inferencing-workflows en gebaseerd zijn op de behoeften van een organisatie kan resulteren in lagere kosten en meer tevreden medewerkers en klanten.
Hoewel er verschillende methoden zijn om in te schatten hoeveel het kost om een model van een bepaalde grootte en met een bepaald aantal beschikbare GPU’s te trainen, moeten veel modellen voortdurend opnieuw worden getraind met nieuwe parameters. Voor de inferentienauwkeurigheid moet het model opnieuw worden getraind met bijgewerkte en recentere gegevens, wat net zo lang kan duren als de oorspronkelijke training, afhankelijk van hoeveel nieuwe gegevens er worden gebruikt. In een on-premises datacenter kunnen de systemen herhaaldelijk worden gebruikt, terwijl in de public cloud de kosten kunnen oplopen bij elke iteratie en hertraining van het model.
Flexibiliteit en schaalvoordelen
Hoewel de cloud bekend staat om de mogelijkheid om applicaties aanzienlijk op te schalen, zijn de gevraagde servers niet altijd beschikbaar. Met een on-premise datacenter kunnen beleidsregels voor het schalen binnen de onderneming worden geïmplementeerd zonder te hoeven onderhandelen met een extern bedrijf (en misschien meer te betalen voor ongebruikte reserveringen).
Verschillende leveranciers leveren AI-afgestemde servers, wat de aanschaf concurrerender maakt. Als servers van verschillende leveranciers zijn gecertificeerd met dezelfde software, is het mogelijk om van de ene leverancier naar de andere over te stappen. Verhuizen van de ene cloud naar de andere is complexer en tijdrovender als je een public cloud gebruikt.
Er zijn veel softwarekeuzes om te overwegen bij het creëren van een efficiënte en effectieve AI-trainingsoplossing. Een public, gedeelde cloudprovider beschikt mogelijk niet over alle benodigde componenten, waardoor extra instellingen en tests nodig kunnen zijn voor elke instantie die wordt aangeschaft in een public cloudinfrastructuur.
Inzicht en efficiëntie
Het implementeren van een effectief en efficiënt on-premise AI-gericht datacenter vereist inzicht in de prestatievereisten voor de workloads die het beste passen bij de onderneming. Als ze goed zijn ontworpen, kunnen ze de tijd verkorten die nodig is om resultaten te verkrijgen voor AI-training en inferentieresultaten leveren met een lage latentie, afgestemd op het type model. Een on-premise datacenter kan uniek en tegen lage kosten worden geconfigureerd om te voldoen aan de behoeften van de onderneming. Inzicht in de workloads, de hoeveelheid gegevens, de afstemming van de AI-workflow en interne expertise met verschillende softwarelagen helpen bij het bepalen van de beste optie voor de organisatie.
Michael McNerney, Vice President Marketing & Network Security, Supermicro
Meer lezen