Mensen willen graag de zaken die ze zelf hebben of aanbevelen, vergelijken met de zaken die anderen hebben of aanbevelen. De mijne is hoger, beter, mooier, duurder, etc. Ook in de wereld van virtualisatie is men hier niet vies van. Google maar eens op 'Virtualization Benchmark' of 'Hypervisor Benchmark'. Er is genoeg materiaal te vinden. Maar wat is het nut van de diverse benchmarks nou eigenlijk?
Benchmarks worden vooral gebruikt door fabrikanten om aan te tonen dat hun producten beter zijn dan die van de concurrentie. Voor de eerlijkheid en correctheid van de benchmark worden diverse richtlijnen opgesteld. De resultaten zijn dan, theoretisch, goed met elkaar vergelijkbaar. Maar hoe bruikbaar is zo'n resultaat als de benchmark eigenlijk niet toepasbaar is op de situatie waarvoor je ‘m wilt gebruiken?
VMware beveelt hun VMmark-benchmark aan als standaard benchmark voor hardware. Hoe goed draait de nieuwste HP-, IBM- of Dell Xeon-server met ESX? Ik krijg best vaak vragen over welke hardware een bedrijf nu moet gebruiken als virtualisatiehost. Ongetwijfeld krijgen mijn collega-experts die vraag ook geregeld.
Voor zover ik het kan beoordelen lijkt de VMmark-benchmark goed in elkaar te steken. Diverse fabrikanten duikelen dan ook over elkaar heen om hun beste resultaten te tonen. Je ziet ook betere resultaten met dezelfde hardware verschijnen, omdat de fabrikant beter begint door te krijgen hoe de hardware beter afgesteld kan worden om optimaal gebruik te worden in gevirtualiseerde omgevingen. VMmark lijkt dus wel degelijk van nut te zijn als je op zoek bent naar het systeem dat de meeste virtuele workloads tegelijkertijd kan draaien.
Maar hoe nuttig en representatief is die informatie voor een bedrijf? Voor de hoogste score heb je bijvoorbeeld een enorm SAN nodig met een terabyte capaciteit waarvan een beetje bedrijf met moeite 5 procent van zou kunnen vullen, zelfs als ze alle MP3- en ISO-bestanden zouden laten staan. Eigenlijk zou je als bedrijf dus zelf een testopstelling moeten maken waarin VMmark kan worden uitgevoerd in een voor dat bedrijf representatieve infrastructuur. Als je dat niet doet, leg je jezelf neer bij het feit dat je een systeem selecteert op basis van prestaties tijdens situaties die binnen je bedrijf niet voorkomen.
Dan ben je er nog niet, want tijdens de volgende vergadering over de hardwareselectie roept een of andere wijsneus "hoe draait dit systeem met Hyper-V?". Eh… Vervolgens roept iemand ook nog iets over Xen en het begint duidelijk te worden dat VMmark wel nuttig is, maar toch niet voldoende informatie geeft om je favoriete server zonder discussie geselecteerd te krijgen. Een ander probleem van specifieke virtualisatiebenchmarks als VMmark is het feit dat het helemaal niet meer zo spannend is hoeveel workloads je op een host kwijt kunt. Reken je even mee? Een fatsoenlijk ingerichte virtualisatie-infrastructuur heeft al snel vier virtualisatiehosts, waarvan er één mag uitvallen zonder dat dit gevolgen heeft voor de performance van de virtuele omgeving. Effectief heb je dus dire hosts. Per moderne pizzahost met acht kernen kun je vandaag de dag al snel dertig workloads kwijt. Je hebt toch al een aardig bedrijf als je negentig VM's hebt draaien. Bij echt grote bedrijven gebruiken ze natuurlijk de dikke vette ESX-hosts van het type waar 32 of meer cores in gaan. Dan heb je het dus over systemen waar volgens VMmark 120 VM's op draaien.
Wat scheelt het procentueel nu als je op zo'n monsterbak vijf virtuele workloads meer kwijt kunt? Hoeveel virtualisatiehosts heb je wel niet nodig voordat het verschil tussen nummer één en drie ervoor zorgt dat je bij je financiële directeur langs moet gaan om uitleg te geven over je (verkeerde) keuze. En hoeveel van die hosts koop je op hetzelfde moment? Niet genoeg waarschijnlijk, om een andere keuze te moeten maken op basis van de workloads die een systeem aan kan.
De realiteit van de dag van vandaag, waarin de simpele 1U-rackserver al zo krachtig is, en de dag van morgen, waarin diezelfde server nog weer een Moore-factor verbeterd is, zorgt ervoor dat we dit soort benchmarks 'voor de leuk' hebben. Veel belangrijker is het om aandacht te besteden aan het efficiënt en effectief gebruik van de management tooling en van de beheerders.
Een ander soort benchmark zou de verschillende hypervisors kunnen vergelijken. Er zijn tenslotte verschillende soorten in gebruik, zoals paravirtualisatie, hosted, bare metal en allerlei tussenvarianten. De reden van het bestaan van al die varianten is dat sommige varianten beter passen bij het soort virtuele machines dat op de virtualisatielaag moet draaien. Je komt dan al snel in appels en peren vergelijkingen, waarbij de gekozen virtualisatietechniek eigenlijk de winnaar is en daardoor het product van een bepaalde leverancier die juist op die techniek de beste is. In zo'n geval werkt een benchmark dus heel goed om een architectuur keuze te maken.
Benchmarks veranderen, producten veranderen, maar veranderen mensen ook? De prijs van een product, afgezet tegen de prestatie van dat product, blijft voor mensen een belangrijk criterium om hun aankoopbeslissing op te baseren. Emotie, en daarmee smaak en persoonlijke voorkeuren, komt niet voor in het begrip 'prijs' of in het begrip 'prestatie'. Dus is het rationeel uit te leggen aan andere mensen waarom juist product X of oplossing Y beter is dan de rest, zonder in lastige en verhitte discussies te komen. Zolang we rationeel willen blijven, zullen benchmarks een deel van ons leven blijven uitmaken. Bedenk echter wel dat je de juiste waarde hecht aan de resultaten van een benchmark en hoe je die benchmark gegevens gebruikt om die mooie nieuwe glimmende doos, waar je zo trots op bent, naar binnen weet te schuiven.
Zo is het maar net Erwin! Die hardware van tegenwoordig is zo slecht niet. Die hypervisors ook niet, onlangs is een vergelijkend warenonderzoek gepubliceerd waarin hyper-v, xenserver en esx werden beoordeeld. Ook daar bleek de slechtst presterende voldoende capaciteit te bieden voor de doorsnee zakelijke consument. Een benchmark test voor beheer, dat zou mooi zijn!
Rationeel beoordelen, de feiten beschouwen. Het lijkt wel wetenschap bedrijven!
Waar is het artikel met vergelijkend warenonderzoek van Hyvper-V,,XenServer en ESZ gepubliceerd?
@Dick:
Hier is de link
http://virtualizationreview.com/features/article.aspx?editorialsid=2641
Let wel: VMware heeft een berg werk in ESX4 zitten, dit is een meting op ESX3.5. Ik denk dat de kaarten na ESX4 weer opnieuw geschud zijn. Maar dan nog blijft de opmerking van Erwin over “de juiste waarde hechten” aan de orde.