Internet of things (iot), kunstmatige intelligentie (ai) en andere slimme technologieën zijn ‘here to stay’. Wel is er veel discussie over alle netwerkverbindingen en computing resources die ze nodig hebben. Maar er speelt ook veel rondom de derde bouwsteen die deze innovaties mogelijk maakt: data-opslag. Zo halverwege het jaar – en met een aantal bijzondere maanden achter de rug – is het een goed moment om de balans op te maken en de belangrijkste thema's op het gebied van opslag te overwegen.
De verhoging van de oppervlaktedichtheid in zowel lucht- als helium gevulde harde schijven (hdd’s) betekent dat de nieuwste schijven capaciteiten hebben tot 16 TB. Hdd’s met 18 TB standaardtechnologie (cmr – conventional magnetic recording) en 20 TB shingled magnetic recording (smr) zijn later dit jaar beschikbaar. De verwachting is dat smr de komende vijf jaar aanzienlijk zal groeien, waardoor efficiëntere workloads en innovaties zoals ‘zoned storage’ mogelijk worden. Groei van de oppervlaktedichtheid is de sleutel tot het leveren van grotere capaciteiten met aantrekkelijke totale eigendomskosten (total cost of ownership – tco); de smr-innovatie zal hieraan bijdragen.
Ondertussen is het gebruik van all-flash-opslagsystemen groter geworden, dankzij de meerwaarde van flash voor taken als analyse en ai. Voortdurende verbeteringen in 3d-nand-technologie dragen bij aan een hogere dichtheid in compactere pakketten, dankzij zowel verticale als laterale schaling in combinatie met een verhoogd aantal bits.
Het toenemen van de kracht van flash-geheugen in ssd wordt aangedreven door de overstap van sata naar nvme (non-volatile memory express). Dit hoogwaardige protocol vermindert de latency drastisch en versnelt de applicatie-workload.
Naast de hddd- en flash/ssd-innovatie zijn er enkele trends die de evolutie van opslag in 2020 en daarna vormgeven.
Stijging van gelokaliseerde datacenters
Hoewel de acceptatie van de cloud op geen enkele manier vertraagt, zijn er twee factoren die de voortdurende groei van lokale datacenters stimuleren. De eerste is regelgeving voor gegevensgebruik. Aangezien meerdere landen ernaar streven wetten voor gegevenslokalisatie vast te stellen, moeten organisaties hun gegevens mogelijk dichterbij houden om potentiële veiligheids- en privacyrisico’s in verband met gegevensopslag te beperken.
De tweede is de repatriëring van de cloud. Grotere bedrijven willen hun gegevens bezitten en de cloud huren om controle te houden, inclusief beveiligingsfuncties, latency en gegevenstoegang, waardoor de behoefte aan gelokaliseerde opslagcapaciteit toeneemt.
Om dit groeiende volume en de verscheidenheid aan gegevens te beheren, ontstaan nieuwe datacenter-architecturen. In het zettabyte-tijdperk moet de data-infrastructuur opnieuw worden ontworpen om de groeiende schaal en complexiteit van workloads, applicaties en ai/iot-datasets aan te pakken.
Deze constructies omvatten meerdere niveaus van workload-geoptimaliseerde opslag en nieuwe benaderingen van systeemsoftware. Zoned storage, een open source-initiatief, helpt klanten te profiteren van zone block management op zowel smr-hdd’s als zns-ssd’s voor sequentieel geschreven, read-centric workloads. De uniforme aanpak maakt het beheer van geserialiseerde gegevens op schaal mogelijk, met voorspelbare prestaties.
Concurrentievoordeel
Analytics is een absoluut concurrentievoordeel, maar er zijn zoveel bedrijfsgegevens die kunnen worden verzameld, verwerkt en vervolgens omgezet in inzichten. Hierdoor heeft de huidige, altijd verbonden wereld meer workloads naar de rand verplaatst. Dit betekent dat het belangrijker wordt om ervoor te zorgen dat kleine randapparaten de mogelijkheid hebben om een steeds grotere hoeveelheden gegevens te draaien en te analyseren. De kleine voetafdruk en de snelle implementatie-behoefte vraagt om een toename van standaardisatie en interoperabiliteit. Dit zal de vorm aannemen van meer open architectuur, open standaarden, open messaging en meer.
Er blijft een sterke groei van exabytes in read-centric applicaties in het datacenter, wat leidt tot een divers geheel van prestatie-, capaciteits- en kostenefficiëntie-eisen aan storage niveaus, aangezien bedrijven steeds meer gedifferentieerde services leveren op hun data-infrastructuur.
Om aan deze eisen te voldoen, moeten datacenter-architecturen evolueren naar een model waarin data-opslagoplossingen consistent worden ingericht en toegankelijk zijn via fabrics, waarbij de onderliggende storage-platforms en apparaten bijdragen aan een verscheidenheid van serviceniveau-overeenkomst (sla’s), afgestemd op specifieke applicatiebehoeften.
We verwachten dat de implementatie van ssd voor ‘fast data’ wordt uitgebreid, terwijl tegelijkertijd de onafgebroken vraag naar exabytes aan kosteneffectieve, schaalbare opslag de sterke groei van de capaciteit van enterprise-harde schijven voor het opslaan van big data zal blijven stimuleren.
Nvme-over-fabric
Door de exponentiële groei van data én de toenemende diversiteit aan workflows en eisen aan it-infrastructuur, moeten bedrijven de snelheid, wendbaarheid en time-to-value voor hun klanten verhogen. Ethernet fabrics worden de ‘universal backplane’ van het datacenter, die de manier waarop storage op grote schaal gedeeld, samengesteld en beheerd wordt verenigen, om te voldoen aan de eisen van steeds meer uiteenlopende applicaties en workloads. Composable infrastructure is een nieuwe architectonische benadering op basis van nvme-over-fabric om het gebruik, de prestaties en de flexibiliteit van de reken- en opslagruimte in het datacenter drastisch te verbeteren. Hiermee kan opslag worden opgesplitst in rekenkracht. Applicaties kunnen een gemeenschappelijke pool van storagecapaciteit delen en data kan vervolgens eenvoudig tussen applicaties worden gedeeld, of benodigde capaciteit kan dynamisch aan een applicatie worden toegewezen, ongeacht de locatie.
In 2020 zien we een toenemende acceptatie van samen te stellen, uitgesplitste opslagoplossingen die efficiënt over ethernet-fabrics schalen en het volledige prestatiepotentieel van nvme-apparaten leveren aan diverse datacentertoepassingen.
Hdd’s blijven gedijen
Hoewel de ondergang van hdd’s al jarenlang voorspeld wordt, is er simpelweg geen alternatief voor enterprise-harde schijven die consistent voldoen aan de groeiende data behoeften én tco-waarde leveren voor hyperscale datacenters.
Volgens Trendfocus: Cloud, Hyperscale en Enterprise Storage Service is er dan ook een sterke vraag naar hdd. Bovendien verwacht IDC dat er tegen 2023 jaarlijks 103 zetabyte aan gegevens wordt gecreëerd en 12 zetabyte wordt opgeslagen – ongeveer 60 procent van die opgeslagen gegevens zal zich in het core/edge datacenter bevinden. Gedreven door deze onverzadigbare groei van data – veroorzaakt door mensen én machines – zal de gevestigde technologie dus data placement innovaties, hogere oppervlaktedichtheden, mechanische innovatie, intelligente gegevensopslag en materiaal-innovaties zien. Dit zal in de nabije toekomst nieuwe capaciteit en tco op schaal mogelijk maken.
Gezien hun instrumentele rol in het waarborgen en beheren van bedrijfskritische gegevens, zijn hdd- en flash-opslagtechnologie een van de belangrijkste fundamenten voor succesvolle en veilige bedrijfsactiviteiten, ongeacht de grootte van de organisatie, het type of de branche.
Door te investeren in een uitgebreide infrastructuur voor gegevensopslag, zullen bedrijven zich in een veel sterkere positie bevinden om de groei van gegevens in het komende jaar en daarna te kunnen faciliteren. Daarmee voorkomen ze dat het niet lukt om een framework te bouwen dat het runnen van een moderne, technologische onderneming ondersteunt. Een efficiënte en effectieve data-infrastructuur is de sleutel tot (duurzaam) succes, terwijl schaal essentieel is om geld te verdienen aan en gebruik te maken van data.
Nieuwe data-infrastructuren lijken vooral te gaan om de logica van toegang met flexibiliteit in de bus en nauwelijks om de innovatie op de magnetische laag van de archictectuur. Een via de cache geserialliseerde I/O workload profiteert van de doorvoercapaciteit van de bus en de 6Gb/s van SATA disk is een bottleneck. Middels virtualisatie worden dan ook de data en metadata steeds vaker gescheiden om zo te profiteren van een parallellisatie over de bussen. Data kwaliteit wordt hierin een steeds belangrijker aspect en de Bit Error Rate (BER) van goedkope 7.200 toeren draaiende schijven met hoge capaciteit is altijd te laag geweest om deze disks enkelvoudig in te zetten. Inzet van dit soort disks in het Datacenter is veelal in een Redudant Array of Inexpensive Disk (RAID). Nieuwe data-infrastructuren maken via virtualisatie gebruik van meerdere RAID groepen welke uit verschillende disk typen kunnen bestaan en data portabiliteit middels het concept van storage tiering binnen de Massive Array of Inexpensive Disks (MAID) is halverwege de jaren 80 van de vorige eeuw bedacht en dus niet erg innovatief meer. Zoals ook Quality of Service op de I/O bus niet vernieuwend meer is als kijken naar de logica middels alle algoritmen.
@EEN OUDLID | 22 JUNI 2020 12:16
Databases zijn in toenemende mate in-memory. SAP verlangt van haar klanten dat zij voor eind 2027 migreren naar S/4 HANA en Oracle heeft al een tijdje de in-memory optie. Disks worden niet meer zozeer gebruikt voor I/O van applicatie data maar meer als persistency (savepoints, log backup, snapshot backup) voor een database die primair in-memory gelocaliseerd is.
Wat ik in het verhaal dan ook mis is de verminderde rol van disk en de opkomst van grootschalig memory gebruik. Kan weleens liggen aan het feit dat de schrijver werkt voor een disk producent..
KJ,
Om te beginnen met het laatste, ik denk dat (vrij vertaald naar Max Havelaar) Barbertje niet moet hangen omdat hij bij een producent werkzaam is maar omdat hij als busines development manager weinig aandacht heeft voor de business. Zolang wetgeving verplicht dat je digitale (fiscale) residu van in-memory verwerkingen 7 jaar moet bewaren denk ik dat er een magnetisch laag in de architectuur blijft. Of die magnetische laag tape of disk is laat ik even in het midden want mijn werkgever heeft recentelijk een technologie ontwikkeld die tape en disk combineert in een efficiënte data-infrastructuur als we kijken naar het verschil in kosten tussen een effectieve data architectuur voor de ijsberg van ongestructureerde data.
“If tape continues to deliver on its promise of low cost and high density, it will continue to see more adoption in hyperscale datacenters”. Anonieme CTO van een hyperscaler
Betreffende de snelheid waarmee je ‘data-in-ruste’ vanuit de magnetische laag in een cache kunt laden voor analytische verwerking gaat uiteindelijk om de prestatie van de ‘data fabric’ en schaalbaarheid hierin wordt veelal behaald middels een scale-out principe van parallellisatie over de bussen. Schaalbaarheid van capaciteit kost namelijk (bijna) niks of je moet je laten afpersen met een licentie op basis van capaciteit.