De hoeveelheid data groeit snel; IDC verwacht dat er wereldwijd 103 zettabyte aan data wordt geproduceerd tegen 2023. En met de toename van internet of things (iot)-apparaten, 5G-technologieën en de groei van video staan we nog maar aan het begin van het opslaan en extraheren van waarde uit data. Een ding staat als een paal boven water: in het zettabyte-tijdperk moeten bedrijven heroverwegen hoe ze hun datacenters ontwerpen zodat ze aan de stijgende capaciteitsvraag kunnen blijven voldoen.
Allereerst, wat is een zettabyte? Zetta is de si-prefix voor een triljard. Een zettabyte, afgekort ZB, is een triljard bytes oftewel een biljoen gigabyte. We hebben het dus over een enorme hoeveelheid data. De reden dat ‘zettabyte’ een minder ingeburgerd begrip is dan bijvoorbeeld gigabyte of terabyte, is dat er zelden een commerciële behoefte was om zo’n grote hoeveelheid informatie op te slaan. Maar dat gaat veranderen en dat vraagt om een nieuwe data-architectuur.
De innovatie, producten en voorwaarden voor deze aankomende architecturale verschuiving hangen van verschillende belangrijke zaken af.
Disaggregatie
De eerste is de noodzaak om rekenkracht, opslag en netwerk uit elkaar te halen om elk onderdeel op de meest efficiënte en optimale manier te benutten. Disaggregatie is de enige manier om met het volume, de snelheid en de verscheidenheid aan gegevens die het zettabyte-tijdperk onvermijdelijk met zich mee brengt om te gaan.
Doelgerichte data-infrastructuur
Ten tweede moet de data-infrastructuur doelgericht worden gebouwd. Bedrijven kunnen niet langer vertrouwen op één algemene oplossing om organisatiebrede behoeften in te willigen. Organisaties moeten de efficiëntie maximaliseren en zich concentreren op één doel: het leveren van de perfecte balans tussen prestaties, dichtheid en kosten in het zettabyte-tijdperk.
Holistische hardware en software
Ten derde moet er samenwerking en intelligentie zijn tussen de verschillende elementen in de pipeline. Hardware en software moeten met elkaar samenwerken op een intelligente manier. Het is belangrijk de volledige stack te begrijpen zodat er hardware en software ontworpen wordt die op een holistische manier de prestaties en functionaliteit maximaliseert.
Re-architecting
Bij het zoeken naar oplossingen die aan de eisen van het volgende decennium kunnen voldoen, is de input uit opensource- en Linux-gemeenschappen op de kerntechnologieën van smr (shingled magnetic recording) belangrijk.
Bij magnetische gegevensopslag worden tracks over elkaar gelegd in een schijf, waarmee hardwareproviders een capaciteitsverhoging van ongeveer twintig procent kunnen bereiken. Dit vereist het sequentieel schrijven van gegevens, zodat een onderliggend schrijfspoor niet verandert.
Voor veel hyperscalers past sequentieel schrijven goed bij het write once/read many principe van grootschalige workloads zoals videostreaming. Maar de opkomst van smr vereist re-architecting: aanpassen van het besturingssysteem om sequentiële schrijfbewerkingen op te zetten of de toepassing zelfs in staat stellen zich bewust te zijn van het sequentiële schrijfmodel.
Re-architecting vergt aanvankelijk enige inspanning, maar de dichtheid en kostenvoordelen zijn aanzienlijk en toont alle voordelen van purpose built-hardware en softwarebewuste constructies aan.
Gebruik maken van zoned namespaces
Smr-harde schijven (hdd’s) en solid-state harde schijven (ssd’s) zijn niet te vergelijken, omdat de technologieën in veel opzichten compleet verschillen. Als we echter kijken naar ssd’s en nand als onderdeel van de disaggregatie, zien we een bekende technologie voor de smr/hdd-ruimte, genaamd zoned namespaces (zns).
Op nand-gebaseerde media kunnen slechts een bepaald aantal schrijfbewerkingen aan en moeten daarom beheerd worden. De flash translation layer (ftl) behandelt op intelligente wijze alles, van cache tot prestaties, om nivellering te dragen. Op de schaal van zettabyte brengt apparaatbeheer echter indirectheid tussen de host en de daadwerkelijke media. Dit beïnvloedt de doorvoer, latency en kosten.
In een tijdperk waarin bedrijven deze elementen willen beheersen en de efficiëntie willen maximaliseren, moeten we het beheer van apparaatniveau naar de host verplaatsen – precies hoe smr is ingericht.
Zns verdeelt flashmedia in zones, waarbij elke zone een geïsoleerde namespace is. Cloudproviders kunnen bijvoorbeeld werkbelastingen of gegevenstypen scheiden naar verschillende zones zodat gebruikspatronen voorspelbaar worden onder meerdere gebruikers. En, nog belangrijker, gegevens worden sequentieel in een zone geschreven. Plots is media-management niet meer nodig.
De uitkomsten hiervan:
• Extra besparingen als gevolg van een verminderde behoefte aan overaanbod van nand-media
• Betere drive endurance door vermindering van schrijfversterking
• Dramatische afname van latentie
• Significant verbeterde doorvoer
Bedrijven bereiden zich voor op de toegenomen vraag naar data. Ondertussen zijn initiatieven zoals zoned storage, een community die samenwerkt om van zns een open standaard te maken met dezelfde interface en application programming interface (api) als smr, erg belangrijk. Met deze stap beschikken eindgebruikers over een enkele interface die kan communiceren met de hele opslaglaag. Dat maakt het voor datacenter-architecten gemakkelijker de overstap naar architecturen op zettaschaal te maken, aangezien applicaties niet hoeven te veranderen, ongeacht de opslagomgeving die ze kiezen. Hierdoor kunnen bedrijven een nieuw evenwicht bereiken tussen prestaties, latentie en kosten, gebruikmakend van gedisaggregeerde, purpose built en intelligente architecturen.