BLOG – Harde schijven zijn zo goed als verleden tijd. En het datacenter van de toekomst is all-flash. Twee voorspellingen die voorstanders van flash-technologie al meer dan tien jaar verkondigen maar tot op vandaag niet zijn uitgekomen.
Dat flash-opslag uitermate geschikt is voor toepassingen die hoge prestaties en snelheden vereisen, daarover bestaat geen twijfel. Ondertussen groeit ook de omzet van flash en all-flash arrays. Maar dat gaat niet ten koste van harde schijven.
Met de opmars van cloud en ai zien we dat harde schijven, die de meerderheid van de exabytes in de wereld opslaan, ook voor de uitbaters van datacenters onmisbaar geworden zijn. Bovendien verwachten analisten dat het gewicht van harde schijven alleen maar zal blijven toenemen. In de praktijk is het ook geen of-verhaal. Harde schijven en flash hebben altijd synergetisch samengewerkt in datacenters.
Hieronder drie mythes over harde schijven en flash. En een antwoord op de vraag waarom harde schijven in de nabije toekomst essentieel blijven voor dataopslag.
- Mythe 1: prijs van ssd’s is weldra gelijk aan die van harde schijven
Harde schijven bieden een sterk kostenvoordeel per terabyte tegenover solid state drives (ssd’s) en zijn daarom nog steeds de hoeksteen van opslag in datacenters. Analyses van onderzoek door IDC, TrendForce en Forward Insights bevestigen dat harde schijven de meest kost-effectieve oplossing blijven voor de meerderheid van de bedrijfstaken.
Het prijsverschil per terabyte (TB) tussen enterprise-ssd’s en harde schijven zou tot minstens 2027 op of boven zes op één blijven hangen. Dat verschil is het duidelijkst in datacenters, waar de kosten voor het aanschaffen van toestellen, maar ook voor energie, networking en compute stevig in het voordeel spelen van de total cost of ownership van harde schijven.
- Mythe 2: nand-voorraad kan alle capaciteit van harde schijven vervangen
Het idee dat de nand-industrie in staat is om alle capaciteit aan harde schijven te vervangen, is niet enkel optimistisch, het zou financieel en logistiek gewoon onmogelijk zijn. Volgens het rapport ‘Q4 2023 Nand Market Monitor’ heeft de hele nand-industrie tussen 2015 en 2023 voor 3,1 zettabyte (ZB) aan data verzonden, waarbij ze een duizelingwekkende som van 208 miljard dollar in capex hebben moeten investeren – ongeveer 47 procent van hun gecombineerde omzet.
Daarentegen voorziet de sector van de harde schijven op een kostefficiënte manier in de overgrote meerderheid (90%) van de opslagbehoeften van datacenters. Als we de byte-productie van nand vergelijken met de sector van de harde schijven (op basis van Seagate-technologie), dan blijken harde schijven gewoon veel efficiënter bij het leveren van ZB’s aan het datacenter.
Opslaginfrastructuur van bedrijven bestaat meestal uit een mengeling van mediatypes
Zou de flash-industrie de output van harde schijven tegen 2028 volledig kunnen vervangen? Een rapport van Yole Intelligence geeft aan dat de nand-industrie tussen 2025 en 2027 ongeveer 73 miljard dollar zal investeren. Dat zal naar schatting 963 exabyte (EB) aan output opleveren voor zakelijke ssd’s en andere nand-producten voor tablets en telefoons. Dit komt neer op een investering van ongeveer 76 dollar per TB aan flashopslagcapaciteit. Als we dezelfde kapitaalprijs per bit toepassen, dan zou er liefst 206 miljard aan extra investeringen nodig zijn om de 2,723 ZB aan harde schijfcapaciteit op te vangen die naar verwachting in 2027 zal worden verzonden. In totaal is dat bijna 279 miljard dollar aan investeringen voor een totale bereikbare markt van ongeveer 25 miljard dollar. Een verlies van 10:1. Voor een industrie die met onzekerheid van inkomsten te maken krijgt, is zo’n investering onwaarschijnlijk.
- Mythe 3: enkel all flash-arrays voldoen aan prestaties van moderne workloads
De opslaginfrastructuur van bedrijven bestaat meestal uit een mengeling van mediatypes. Op die manier willen ze de kosten, capaciteit en prestatiebehoeften van workloads optimaliseren. All-flash-vendoren adviseren bedrijven om te ‘vereenvoudigen’ en zich ‘futureproof’ te maken door voor hoge prestaties flash te verkiezen. Anders, zo stellen ze, lopen bedrijven het risico dat ze niet meer kunnen beantwoorden aan de hoge prestatievereisten van moderne workloads.
Er zijn drie redenen waarom deze logica geen steekhoudt. Ten eerste heeft de grote meerderheid van de moderne workloads het prestatievoordeel van flash helemaal niet nodig. De meeste data in de wereld zit in de cloud en in grote datacenters. Daar heeft slechts een klein percentage van de workload nood aan een aanzienlijk percentage van de prestaties. Volgens IDC is dit de reden waarom harde schijven gedurende de afgelopen vijf jaar verantwoordelijk waren voor bijna 90% van de opslag bij cloudserviceproviders en hyperscale datacenters. In sommige gevallen zijn all-flash systemen zelfs niet nodig als onderdeel van de oplossingen met de hoogste prestaties. Er zijn hybride opslagsystemen die even goed of zelfs sneller werken dan all-flash.
Ten tweede moeten datacenters, zoals eerder gesteld, aan hun tco denken als ze beslissingen nemen met betrekking tot infrastructuur. Hierdoor moeten de kosten in balans zijn met capaciteit en prestaties. Ze willen met andere woorden de meest kostefficiënte media kiezen op basis van de vereisten van hun workloads. Harde schijven en hybride arrays (met harde schijven en ssd’s) bieden de beste oplossing voor de meeste bedrijfs- en cloudopslag.
All-flash arrays en ssd’s passen uitstekend bij krachtige (lees: intensieve) workloads
Tot slot stellen voorstanders van flash te snel dat een all-flash array eenvoudiger is dan een mix van verschillende mediatypes in een gelaagde architectuur. Veel hybride opslagsystemen gebruiken een beproefde software-gedefinieerde architectuur die de sterke punten van verschillende mediatypes naadloos integreert en bundelt in enkelvoudige eenheden. In schaalbare private of publieke clouddatacenterarchitecturen worden bestandssystemen of software-gedefinieerde opslag gebruikt om de werklasten voor gegevensopslag te beheren over locaties en regio’s heen. All-flash arrays en ssd’s passen uitstekend bij krachtige (lees: intensieve) workloads. Maar het is een vergissing om van nichesituaties of kleinschalige implementaties te extrapoleren naar de massamarkt en hyperscale waar all-flash arrays een onnodig dure manier zijn om te doen wat harde schijven al leveren tegen een veel lagere tco.
Ontkrachten
Kortom, de drie hier genoemde mythes zijn met gemak te ontkrachten. Daardoor mogen we met een gerust hart stellen dat harde schijven in de nabije toekomst de ruime meerderheid van de data in de wereld zullen blijven opslaan.
Vincent Oostlander is director EMEA solutions sales bij Seagate
malle mythes.
je ziet bij cloud providers ook verschillend prijzen per tier.
en waarom zou je data in langdurige rust tier opslaan op een mechanisch continu draaiend medium.
oudlid zal wel vertellen waarom we tapes niet moeten vergeten.
Mythe 1 is afhankelijk van waar je naar kijkt want bij een prijs per transactie is het voordeel van een lage latency met een hoog aantal IOPS in het voordeel van SSD. Mythe 3 is maar deels waar want de algoritmen om verschillende workloads op een hybride oplossing te consolideren bepalen de efficiëntie. Ja, hybride opslagsystemen kunnen sneller werken dan all-flash maar de kosten van licenties kunnen nadelig uitpakken voor de TCO. Het is uiteindelijk een balanceer act want uiteindelijk verslaat tape disk als je vooraf de I/O normaliseert waardoor schrijf- en leesprestaties bepaald worden door de bandbreedte van een I/O bus.
En ja, Dino tape is nog niet lang niet dood omdat 99,999% van de data koud is waardoor tiering naar een andere opslagmedium als tape economisch interessant is. De mechanische latency van een tape robot is niet zo relevant als je gebruik maakt van een cache op basis van SSD. Prefetching op basis van een b-tree zorgt ervoor dat data al klaar staat waardoor je met de hocus-pocus van Quality of Service een hybride oplossing kunt gebruiken zonder verlies aan prestatie. Massive Arrays of Inexpensive Disks (MAID) met één langzame (SAS) bus of toch maar striping over vele drives met een parallellisatie van de I/O want busje komt zo zijn het uiteindelijk de toegangsprotocollen die de prestatie van een workload bepalen.
P.S.
De data portabiliteit tussen de verschillende tiers is ook een I/O operatie die geld kost want kostenverschillen tussen I/O operaties zijn niet onbelangrijk bij de TCO. Zo is het schrijven van data een nogal dure actie, zeker als dit ‘slijtage’ tot gevolg heeft omdat de levensduur van SSD door het aantal terabytes dat je per dag schrijft bepaald wordt.
Aanvulling want de hardnekkigste mythe is dat opslag niks kost terwijl dat alleen geldt voor de ‘unmanaged’ TB’s van de Mediamarkt. In de TCO van opslag maakt de CapEx van de hardware namelijk nog geen 1/5 deel uit van de totale kosten. Onderliggende techniek is leuk voor technici want de business wil niet weten hoe de worsten gemaakt worden alleen hoe ze smaken en wat ze kosten. En laatste is een leuke omdat de TCO van opslag bij 90% van de organisaties nog altijd niet doorbelast wordt aan de gebruiker. Wat betreft de kankerverwekkende rookworsten van Unox en de rook van de cloud iets om over na te denken als het om zoiets als een ecologische footprint gaat.