Steeds meer aanbieders van storage en Hyper-Converged oplossingen vallen over elkaar heen met steeds hoger wordende garanties op het gebied van datacompactietechnologieën zoals compressie en deduplicatie. Uiteraard lijkt het risico voor de klant minimaal, maar wie betaalt de prijs als de werkelijkheid achterblijft bij de voorspelling?
SSD versus spinning disk
De laatste jaren zijn de prijzen van SSD’s gekelderd maar voorlopig blijft een ruwe GB aan SSD opslag nog steeds duurder dan een ruwe GB op een spinning disk. In tegenstelling tot spinning disks, hebben SSD’s vaak veel meer performance dan u misschien ooit nodig heeft. Deze extra performance wordt steeds vaker aangewend voor datareductiechnologieën zoals deduplicatie en compressie. Met behulp van deze datareductietechnologieën is de TCO van een All-Flash oplossing veelal beter dan die van een hybride of spinning disk oplossing. Daarmee komt een All-Flash datacenter voor steeds meer klanten binnen handbereik. Het mag dan ook geen verrassing zijn dat meer dan 90% van de nieuwe 3PAR’s die HPE in Nederland verkoopt inmiddels volledig met SSD uitgerust worden.
Addertje
Omdat de TCO van een storage en Hyper-Converged oplossing sterk afhankelijk is van voorspelde datacompactieratio’s, is er een duidelijke trend zichtbaar in de markt: er worden steeds hogere garanties afgegeven. Steeds meer partijen geven deze garanties blind af, zelfs zonder dat er ook maar een byte aan klantdata geanalyseerd is. Dit terwijl bijvoorbeeld mediabestanden (afbeeldingen en video’s), databases en encryptie op OS/applicatieniveau niet tot nauwelijks te dedupliceren en/of compresseren zijn. Blind aanbieden kan dus alleen met het spreekwoordelijke “addertje onder het gras”.
Vaak geldt een datareductiegarantie alleen voor de initiële migratie. Wanneer de voorspelde datareductie niet gehaald wordt, biedt een aanbieder of fabrikant eenmalig gratis of tegen sterk gereduceerd tarief de benodigde extra fysieke capaciteit aan. Dat lijkt mooi, maar in een wereld waar vijf jaar afschrijvingstermijn de norm lijkt te worden, draait u als klant zelf op voor de uitbreidingen van de vier jaar na de migratie en heeft de verkopende partij het meeste baat heeft bij de garanties omdat u wellicht veel meer capaciteit nodig heeft dan in eerste instantie voorspeld.
Datacompactieratio’s
De laatste tijd is er ook veel te doen omtrent de definitie van datacompactieratio’s. Sommige partijen rekenen zaken als snapshots en thin provisioning mee, terwijl ze de benodigde overhead voor deduplicatie hash databases uitsluiten. Zo kan het voorkomen dat een ratio van 5:1 van partij A aan het eind van de dag net zoveel bruikbare capaciteit oplevert als 3:1 van partij B. Een compactie ratio zegt in de praktijk dan ook weinig. De gebruikte algoritmes in de markt zijn zeer vergelijkbaar en voorspelde besparingen zouden dus ook vergelijkbaar moeten zijn. De verschillen zijn dan ook alleen verklaarbaar door een verschil in het berekenen van de ratio’s.
Wat niet gelijkwaardig is, is de manier waarop deze algoritmes ingezet worden in het datapad. Softwareoplossingen geven vaak veel overhead, wat resulteert in performance verlies voor de gebruikersapplicaties. Om de performanceimpact te verminderen, is er dan ook een aantal oplossingen dat achteraf de data verwerkt, wat inhoudt dat tijdens migraties en batchverwerkingen er plotseling een capaciteitstekort kan optreden. HPE’s 3PAR en SimpliVity oplossingen maken beide gebruik van hardwareversnelling om datacompactie algoritmes volledig in-line en met minimale performanceimpact mogelijk te maken.
Realistische inschatting
U wilt uiteindelijk een goed presterende en voorspelbare oplossing inclusief voorspelbaar kostenplaatje. De prijs van een Gigabyte bruikbare opslag, zonder toepassing van datacompactietechnologie, geeft daarbij een goede indicatie voor de ruwe prijsverschillen tussen verschillende oplossingen.
Staar je dan ook niet blind op compactieratio’s die afgegeven zijn zonder data-analyse. Krijgt u zonder data-analyse toch een garantie, kijk dan goed naar de voorwaarden. Wil je echter een realistische inschatting, stuur dan aan op een on-site data analyse zodat u zelf de winnaar bent van datacompactie.
Maurice de Haan
Solutions Architect
Het eerste wat in mij opkwam toen ik dit artikel las was “Zij die in glazen huisjes wonen, moeten niet met stenen gooien” en ik zal uitleggen waarom.
Ik ben het er helemaal met eens dat het absurd is om garanties af te geven over te behalen storage efficiëntie voordat je überhaupt de data van de klant hebt gezien. Ik ben het er ook helemaal mee eens dat zo’n garantie, als die al gegeven kan worden, in ieder geval niet mag bestaan uit het oppompen van de ratios door snapshots en thin provisioned disks mee te tellen als volledige VM’s. En dat het inderdaad heel erg belangrijk is om de kleine lettertjes te lezen.
Wat schets echter mijn verbazing? HPE doet nu juist exact dat met z’n “Hyper Guarantees” m.b.t. de HyperConverged 380 (ex-Simplivity) oplossing!
Van de HPE Hyper Guarantee pagina: (https://h20195.www2.hpe.com/V2/getpdf.aspx/a00009180enw.pdf?ver=2.0)
“HyperEfficient
If you use HPE SimpliVity hyperconverged infrastructure and its built-in VM-centric backup capability as outlined below,1 you will achieve 90% capacity savings2 across storage and backup combined, relative to comparable traditional solutions.”
Ook vindt HPE het nodig om op twitter in een met smileys doordrenkte campagne direct mijn werkgever Nutanix aan te vallen, en te claimen dat wij dit helemaal niet kunnen. (https://twitter.com/HPE_ConvergedDI/status/872128704620752897)
Het is alleen geen geval van niet kunnen, maar niet willen. Want het slaat namelijk helemaal nergens op, omdat dergelijke claims uit hele slechte rekensommetjes bestaan.
Het is namelijk nogal wat, 90% data reductie claimen, nog voordat men de data van de klant gezien heeft…
En wat daarbij gelijk al opvalt is “across storage and BACKUP combined”. Dat zou bij iedereen meteen al de alarmbellen moeten laten afgaan.
Laten we de kleine lettertjes er eens bij pakken:
“The savings or efficiency are based on the assumption that you configure a backup policy to take at least one HPE SimpliVity backup per day of every virtual machine on every HPE SimpliVity system in a given VMware® Datacenter with those backups retained for 30 days. If backups are performed more frequently and/or retained for a longer period, you will enjoy even greater e iciency. The data change rate is assumed to be up to 5% per day with up to 30% growth rate of the data over a duration of 30 contiguous days.”
Aha…dus de enige manier om die garantie te geven, betekent dus dat de klant minimaal elke dag een snapshot (of “backup” zoals HPE dat noemt) moet maken van een VM.
Laten we eens rekenen:
We nemen een enkele 1 TB VM als voorbeeld.
Neem 30 snapshots (1 per dag gedurende 30 dagen) en tel elk snapshot als een volledige backup van de VM.
De opgeslagen data is nu gelijk aan 31TB (1 TB + 30 TB)
De werkelijke capaciteit op disk is maar is maar ongeveer ~1TB (dit omdat de snapshots niet daadwerkelijk data bevatten maar slechts metadata pointers).
De Data Efficiency die geclaimd wordt is dan 31:1
Effectieve besparing = 96.8% (1TB / 31TB = 0.032) maar is dus min of meer altijd >90% op deze manier.
De aangenomen maximale change rate van 5% zorgt ervoor dat die 90% tevens ook niet in gevaar komt.
De kleine lettertjes zijn dus inderdaad enorm belangrijk, want deze garantie is al scheef, maar ook nog eens omdat hij slechts gegeven wordt over zowel productie data EN backups.
Als we verder lezen: “Ninety percent savings is the equivalent of 10:1 efficiency in the VMware Datacenter panel in the HPE SimpliVity tab within the VMware vSphere® Client.”
Dus als de vCenter plugin van HPE zegt dat het 10:1 is, dan is het met 90% gereduceerde data. Tja, dat is maar net hoe je het dus nav bovenstaand rekenvoorbeeld in je GUI laat zien.
Stel je zelf dus eerst de vraag: als je nu 10 TB aan data werkelijk in gebruikt hebt op je traditionele storage array, dus netto data zonder snapshots, backups en linked clone achtige toestanden, wordt dat dan ineens nog maar 1 TB als je op HPE Simplivity overstapt?
If it sounds to good to be true, it probably is.
En dan is er nog de claim dat hoge storage efficiëntie eigenlijk alleen maar goed behaald kan worden door de inzet van hardware functionaliteit want dan is er geen overhead meer.
Ik snap dat wanneer je je als fabrikant focust op het verkopen van hardware, je er alles aan doet om die hardware er zo aantrekkelijk mogelijk uit te laten zien. Mooie frontjes, blauwe ledjes, custom ASICS. Want dat is immers de enige manier om je van de anderen te onderscheiden.
In een wereld waarbij de hardware echter niet meer belangrijk is of dat steeds minder wordt (kijk naar de grote cloud providers zoals Google die weinig functionele waarde hechten aan de hardware platformen, maar juist alle kennis investeren en innoveren in de software laag), is het doen van uitspraken die de klant moeten bewegen nu juist weer te investeren in hardware best opmerkelijk, maar begrijpelijk als je ziet wie ze doet.
Dat compressie en deduplicatie door middel van software een extra overhead met zich mee zouden brengen en met hardware niet, is een fabel. Intel CPUs zijn tegenwoordig prima instaat om de SHA hashing, die gebruikt wordt voor compressie en deduplicatie, af te handelen zonder overmatig gebruik van cpu cycles en ook inline compressie en deduplicatie is prima mogelijk zonder daarvoor speciale PCI kaarten nodig te hebben die in feite niks meer kunnen dan alleen dat, en eigenlijk alleen extra ruimte innemen in een server, en vaak ook nog eens voor een extra SPOF zorgen.
Wat ook daar opvalt is dat Maurice dus claimed de overhead terug te dringen door inzet van hardware, maar dat er op de specsheet van HPE (https://www.hpe.com/h20195/V2/Getdocument.aspx?docname=a00005065enw) ineens wel gesproken wordt over “usable memory”.
Hoe zit dat dan?
Op zich is het leuk dat je een deduplicatie kaart in je server hebt zitten, maar als die kaart daardoor tot wel 100 GB aan systeem memory moet inleveren om de hashes te kunnen opslaan, dan is er toch wel degelijk sprake van een significante overhead. In het “Large Enterprise” model gaat fysiek 1.5 TB, of 1536GB, maar maximaal usable is er maar 1422GB bruikbaar. Oftewel ik mis ergens 114GB aan memory, daar waar andere fabrikanten (puur op software gebaseerd) tot max 32GB aan memory overhead nodig hebben. Als hardware deduplicatie zo goed is, waarom dan zo’n enorme claim aan geheugen die de Omnistack Controller VM nodig heeft?
Verder zit de Omnistack Controller Card HPE nu al in de weg. Dat is namelijk de reden dat op dit moment alleen de HPE DL380 als platform beschikbaar is, omdat in de wellicht nog veel populairdere 1U telg uit de DL familie, de DL360, de huidige variant van de insteekkaart fysiek simpelweg niet past en voor thermische uitdagingen zorgt. Daar zal ongetwijfeld achter de schermen nu hard aan gewerkt worden, maar dat hardware alles maar oplost, is dus niet altijd het geval.
Tip: omschrijven naar software en je kan het in je gehele hardware portfolio gebruiken 😉
Uiteindelijk is er niets spannends meer aan data reductie en behalen alle fabrikanten tegenwoordig met dezelfde types data, dezelfde efficiëntie ratio’s. Ze gebruiken namelijk allemaal dezelfde methodes en algoritmes of de data te reduceren. Het in hardware of software doen maakt uiteindelijk helemaal niets uit en is weinig onderscheid als het gaat om de ratios, als je het eerlijk berekent en laat zien.
Begrijp me niet verkeerd, met hardware zoals de HPE servers is bijvoorbeeld weinig mis. Sterker nog, ze zijn kwalitatief uitstekend zelfs.
Maar het blijven in essentie gewoon servers met een x86 CPU, geheugen, een netwerk & storage controller en wat schijfcapaciteit.
Ze worden pas echt waardevol als er door middel van slimme software iets goeds mee gedaan wordt.
Stap bijvoorbeeld eens af van RAID. Nog zo’n hardware feature die zijn beste tijd wel gehad heeft.
Als er nou iets een enorme overhead veroorzaakt op je storage laag is dat het wel. Om over de performance issues tijdens rebuilden van defect disks nog maar niet te hebben. Door dit in software op te lossen en je om data druk te maken ipv disks komen er zoveel nieuwe mogelijkheden beschikbaar die naarmate je de omgeving uitbreidt ook nog eens steeds beter gaan presteren ipv andersom. Denk daarbij aan zaken als een echt gedistribueerd filesysteem dat over meer dan 2 nodes werkt, en optimalisaties als Erasure Coding kan gebruiken.
De toekomst ligt niet meer in hardware en het besparen van een beetje storage door een magische chip. Het gaat om software en het positief beïnvloeden van bedrijfsprocessen en resultaten.
Martijn Bosschaart
Sr Systems Architect
Nutanix
Beste Martijn,
Het is goed om te zien wat dit onderwerp losmaakt. Het is ons inziens belangrijk dat klanten en partners zich bewust zijn van de uitdagingen die spelen bij het vergelijken van oplossingen. Zo zijn er bij verschillende leveranciers verschillende zaken waar je op moet letten.
Ik geloof niet dat één oplossing het antwoord is op alle business vragen en HPE heeft dan ook een breed portfolio met zowel System-Defined als Software-Defined oplossingen. Volledig Software-Defined mag nooit een doel op zich zijn als het de klant geen meerwaarde biedt. Er worden bijvoorbeeld ook nog steeds veel grafische kaarten verkocht terwijl 3D rendering volledig in software gedaan kan worden. De verwerkingssnelheid en daarmee de gebruikerservaring is echter beduidend anders. Voor een optimale gebruikerservaring voor de klant zoeken wij altijd naar de optimale combinatie van software, ondersteund door een geoptimaliseerd hardware platform.
Dankzij ons brede portfolio kunnen wij open gesprekken voeren voor het bepalen van de juiste oplossingsrichting.
Maurice de Haan
Solution Architect
Hewlett Packard Enterprise
Het heerlijk om te lezen hoe Nutanix en HP zo verschillend zijn. En dan kan ik mij erg vinden in de wijze hoe Nutanix zijn oplossing aanbiedt. Het is zoals het is, maak het niet mooier.
Wat mij opvalt als ik naar hardware vendoren kijk is dat ze niet door hebben hoe software defined oplossingen werken en wat je daarvoor nodig hebt. Hardware blijft ellende en dus wil je helemaal niet dat hardware niet stuk mag. Meer functies in hardware stoppen is dan niet handig. Het verkopen alsof je 100 Terbayte op 30 Terabyte kwijt kan ook niet.
Zo veel mogelijk disken in zo weinig mogelijk ruimte met zo min mogelijk controllers. Dus bord, 10x 2,5″ sloten, On board SATA (dus juist GEEN kaarten en RAID controllers), 2 CPU’s, 10 Gbit/s en een sloot geheugen met een enkele voeding in 1HE.. (of 2HE met 20x 2,5″). Daar vullen we de racken mee tegenwoordig… (Bijna dan, want precies een ideale combinatie is er niet)
Dan zetten we er software op waarmee we bepalen hoe die nodes met disken,storage,cpu gebruikt moeten worden.
De kwaliteit van die hardware is ondergeschikt. Het mag stuk. Disken, servers, voedingen.. het mag allemaal stuk. Dus ook geen dikke contracten voor reparatie en geen “dure” hardware die beter zou moeten zijn. Het is niet relevant meer. Daardoor wordt de prijs laag en kopen we er meer van > meer redundantie, snelheid en capaciteit…
Nutanix heeft dat begrepen, VMware ook.., Al hebben beide nog weer eisen aan de hardware wat toch ook niet in die filosofie past en zijn wij een andere softwaredefined oplossing aanbieden.
Daardoor is het letterlijk: Pak een aantal servers > storage en capaciteit. Zelfs op bestaande hardware kan het gebouwd worden waarbij de licentiekosten ook nog eens nihil zijn.
HP heeft het nog helemaal niet begrepen, zo te lezen. Zijn ze de boot niet aan het missen? Dat ze daarom wat rare berekeningen maken? Hardware aan het bouwen voor dingen die al een tijdje in software gedaan worden?
Ronald Otto
Tuxis Internet Engineering