Opslag slim inrichten voor dataverrijking

Het lijkt een open deur dat the internet of things met aangekoppelde explosieve groei van de hoeveelheid data gevolgen heeft voor de storagecapaciteit van organisaties. Dat meer opslag nodig is staat buiten kijf, maar organisaties doen er wel verstandig aan goed na te denken over hoe deze capaciteit ingericht moet worden. Hierbij spelen zaken als software defined storage, automation, massive parallel processing, compliancy en verschillende datamanagementmethodes een rol om uiteindelijk te komen tot dataverrijking.

Het is volgens Ruud Mulder, lead storage architect bij Unisys, belangrijk om goed in kaart te hebben over wat voor groei er gesproken wordt. ‘Is het groei op basis van opslagcapaciteit? Of is het groei op basis van performance? Beide vereisen een heel andere aanpak. Normaal gesproken kan je dit afvangen met het classificeren van je data op basis van prestatie. Hiermee worden de grootverbruikers op het gebied van performance in één oogopslag duidelijk.’

In het geval van the internet of things is de groei volgens Mulder een stuk dynamischer en overvoorspelbaarder. ‘Pas over een langere periode van minimaal één jaar kan je trends in groei voorspellen. En dan ben je al vaak te laat. Het is daarom zaak om je capacitymanagement goed en real time in te richten. Periodieke controles kunnen hier niet en zorgen ervoor dat je achter de feiten aan gaat lopen. Ook is het zaak om te kiezen voor flexibile, dynamische en een modulair schaalbare oplossing die perfect in kan spelen op de dynamiek van internet of things.’

Beperkte schaalbaarheid en downtime om uitbreidingen of aanpassingen/migraties te doen zijn volgens Mulder vaak uit den boze. ‘Een technologie die hier zeer handig op inspeelt in software defined storage (sds). Sds biedt veel flexibiliteit. Het kan bijvoorbeeld gefaseerd worden uitgebreid en afgeschreven en is zeer dynamisch te noemen. Ik verwacht dat vooral sds in internet of things een enorme opmars gaat maken. Het enige nadeel op dit moment is de enorme wildgroei aan sds-smaken. Dit resulteert er in dat nog niet iedere product even ‘customer ready’ is als men verwacht.’

Meer opslagbehoefte

Volgens IDC bezaten we in 2013 met zijn allen 212 miljard internet of things (IoT)-apparaten, variërend van smartphones, domotica, wearables, gezondheidsmonitors tot aan drones. Of we hiermee in staat zijn onze levens nog beter te maken, laat Jasper Geraerts, business manager storage Benelux bij Red Hat, in het midden. ‘Feit is wel dat deze apparaten data loggen, genereren en verwerken op een schaal die nauwelijks te overzien is. We genereren meer data dan ooit tevoren en dat vergroot de opslagbehoefte.’

Een onderzoek van Intel geeft aan dat er ongeveer 650.000 gigabyte aan data per minuut over het internet flitst en uit een Cisco-onderzoek blijkt dat in 2016 meer dat een zettabyte aan wereldwijd ip-verkeer per jaar plaats zal vinden. Geraerts: ‘Dit zijn indrukwekkende cijfers, maar de vraag die rijst is wat het effect is van IoT op de opslagsystemen. Om die vraag te beantwoorden moeten twee typen IoT-data worden onderscheiden: grote files, zoals foto, video en audio en kleine files, zoals sensordata, time records en logfiles. Beide typen hebben namelijk een heel ander effect op de onderliggende storage infrastructuur.’

Elastische storage

Traditionele storagesystemen die we gewoonlijk terugvinden in enterprise datacenters zijn volgens Geraerts ingericht op transactionele handelingen, zoals databases. ‘De infrastructuur is daarom op i/o-performance ingericht en maakt veelal gebruik van monolitische units. Dit is echter niet handig voor je grote hoeveelheden ongestructureerde data. Bedrijven die gebruik willen gaan maken van IoT en daarmee big data-analyses willen uitvoeren, hebben meer baat bij een elastische storage die in staat is door te groeien op petabyte-schaal, al dan niet in een hybride model.’

Maar dan nog bestaat er volgens Geraerts een groot verschil in de verwerking van de twee type big data’s. De grotere files worden normaliter in grote network attached storage (nas)-systemen opgeslagen. Daarnaast wordt volgens hem steeds vaker object storage toegepast, zeker wanneer we echt over petabytes aan data spreken. ‘De kleine logfiles worden vaker random geraadpleegd en profiteren daarbij meer van flash storage voor real time analyse, al dan niet aangevuld met object of file storage voor ‘cold’ of archief data.’

Het verzamelen van data is een kostbare zaak. Het is daarom volgens Geraerts aan te bevelen dat de opslaginfrastructuur gebruik maakt van commodity x86-hardware in combinatie met een open source-abstractielaag voor het opbouwen van een opslagcluster. ‘Beveiliging en koppeling naar de buitenwereld vindt plaats op basis van de opslagmogelijkheden op object-, block- en file-systemen.’

Ook is het volgens Geraerts belangrijk om compliancy in ogenschouw te nemen. ‘Wanneer apparaten gebruikersdata verzamelen, krijg je onherroepelijk te maken met wet en regelgeving op het gebied van privacy. En deze is niet in alle landen gelijk. Omdat IoT-apparaten vaak met de gebruiker mee reizen, zijn ze uitermate ‘cloudgevoelig’. De data is immers geen lokale data meer. Dit maakt een hybride systeem (een combinatie van on- en off premise) geschikter dan een legacy-systeem. Op die manier kunnen we beter gebruikmaken van de flexibiliteit, schaalbaarheid en compliancy die een hybride cloud met zich mee brengt.’

Databeveiliging

Een laatste punt waar volgens Geraerts zeker rekening mee moet worden gehouden, is databeveiliging. ‘Bijna alle IoT-data zijn een momentopname en daarom niet te reproduceren. De meeste traditionele back-upsystemen blinken niet uit in het back-uppen van miljoenen kleine files. Het is daarom raadzaam om te kiezen voor een selfhealing-systeem, waarbij zowel de beschikbaarheid van het systeem wordt gewaarborgd als ook de consistentie van de data. Het inzetten van een tape-archief voor de lange termijn behoort nog steeds tot een van de mogelijkheden.’

Bert van der Zwan, managing director Benelux bij Unit4, meent dat datagroei op zich vrij eenvoudig is te managen. ‘Waar je servers ook staan, on-premise of in de (private) cloud, bij een continue groei kan je altijd extra capaciteit kopen of huren. Bij on-premise is het wel een vereiste dat er intern kennis is hoe die uitbreiding te realiseren, zonder dat dit de bedrijfscontinuïteit schade toebrengt. Bij het afnemen van storagecapaciteit regelt de leverancier de uitbreiding.’

Amazon Web Services

‘Heeft een bedrijf te maken met een sterk wisselende behoefte aan storagecapaciteit, dan is het veel te kostbaar om zoveel servers in te zetten als de piekbelasting vereist’, vervolgt Van der Zwan. ‘Het is veel kostenefficiënter om gebruik te maken van een storagedienst waarin wordt betaald naar gebruik, zoals een cloudstoragepartij als Amazon Web Services (AWS) biedt. AWS heeft als uitgangspunt dat het technologie beschikbaar stelt en het is aan de afnemers om hierop diensten te ontwikkelen die voldoen aan de wensen van de business met betrekking tot beschikbaarheid, veiligheid, architectuur, integratie en andere wensen.’

Bedrijven die een sterk wisselende behoefte hebben aan storage doen er volgens Van der Zwan verstandig aan om hun storageruimte te halen bij partijen als Amazon en de continuïteits- en beveiligingsvraagstukken over te laten aan een gespecialiseerd dienstverlener. ‘En het liefst een it-dienstverlener die fungeert als één aanspreekpunt voor beheer/ondersteuning, servicelevels, contracten en facturatie. De techniek verandert zo snel dat het voor veel organisaties niet rendabel is om dit in eigen beheer te doen.’

Om te kunnen voldoen aan de datagroei, die vaak fluctueert, zijn volgens Rik Opdam, lead consultant BI en big data bij ilionx Information Management, massive parallel processing (mpp)-oplossingen het meest geschikt voor data-opslag. ‘Ten eerste omdat uitbreiding geen aanpassing vraagt van de architectuur. Daarnaast omdat niet alleen de storagecapaciteit, maar ook de rekenkracht toeneemt bij een parallelle uitbreiding van je cluster.’

Dit is volgens Opdam niet alleen ter voorkoming van je data ‘FINO’ (first in never out), maar met name omdat het analyseren van je data door meerdere nodes tegelijk kan worden gedaan. ‘Voor het uitbreiden van je mpp-oplossing moet je een strategie bedenken. Bij een in hoge mate fluctuerende datastroom heb je meer overcapaciteit nodig dan met weinig fluctuaties. Verzamel je bijvoorbeeld data van een windmolenpark, dan moet je meer data verwerken bij harde wind dan wanneer het windstil is. Aan die piekvraag moet je op dat moment wel kunnen voldoen.’

Ochestration software

De exponentiële groei van data die bij vrijwel alle organisaties optreedt, is volgens Rob Hilterman, chief technology bij Hitachi Data Systems Nederland, een uitdaging waar absoluut een oplossing voor moet worden gezocht. ‘Met de opkomst van het internet of things wordt dit nog veel belangrijker. Huidige oplossingen voor het opslaan, analyseren en gebruiken van data, zijn daarvoor vaak niet toereikend. Die zijn namelijk ontwikkeld voor data met duidelijke, herkenbare structuren. IoT gaat echter juist enorme ongestructureerde data opleveren. Denk aan beelden, sensorinformatie van auto’s of sensordata van allerlei andere machines. Dat kunnen opslagsystemen die zijn ontwikkeld voor gestructureerde data niet aan.’

De oplossing is volgens Hilterman om hiervoor ochestration software in te zetten die in staat is om basis van policies data te verplaatsen naar de juiste opslagsystemen. ‘Dit zullen dan voornamelijk nieuwe, objectgebaseerde opslagsystemen voor ongestructureerde data zijn. Daarmee kunnen ongestructureerde data, in welke vorm dan ook, worden verrijkt met allerlei metadata. Aan de hand van die metadata kunnen dan later analyses worden uitgevoerd, zelfs als van tevoren nog niet bekend is wat voor soort analyses organisaties willen uitvoeren.’

Big data

‘Ik verkeer dagelijks in de wereld die big data heet’, vervolgt Hilterman. ‘Wat kenmerkt die wereld? Recent ging het vooral om opslag en verwerking van overzichtelijke hoeveelheden gestructureerde data, bij big data gaat het dus vooral om ongestructureerde informatie. Ongestructureerd kent twee hoofdcategorieën. Ten eerste is er de groeiende stroom data rond menselijke interactie, zoals social media, daarboven bevindt zich een laag die echter nog veel meer data gaat genereren: the internet of things. Dat betreft data afkomstig van machines, industrie-interfaces, mobiele apparaten, sensoren, et cetera. Zo hangen we ter beveiliging steeds meer camera’s op en koppelen die bijvoorbeeld met gezichtsherkenningstechnologie. Dat soort ontwikkelingen genereren heel veel ongestructureerde data, data waarop ook nog real time gereageerd moet kunnen worden.’

De uitdaging is nu volgens Hilterman om die ongestructureerde data meer gestructureerd te maken. ‘Dat wil zeggen ze los te koppelen van hun applicaties en ervoor te zorgen dat je in staat bent andere entiteiten, lees metadata, toe te voegen. Als die dataverrijking lukt, kunnen bedrijven ook met big data interessante dingen doen.’

Geconfronteerd met die nieuwe datastromen zullen bedrijven ook hun infrastructuur daarop moeten aanpassen. Hilterman: ‘Die hoeveelheden kun je niet meer handmatig op de meest kostenefficiënte tier zetten. Automation is daarom belangrijk. Met automation bedoelen we dat we aan de hand van al die attributen of metadata de data automatisch naar de juiste tier verplaatsen. Datavirtualisatie is hierbij een belangrijke component om de data automatisch tussen diverse tiers te kunnen migreren, zonder dat we daarbij de bedrijfsprocessen verstoren. Daarbij wil je er dan ook graag nog zaken als compressie en deduplicatie op loslaten, zodat je het geheel nog kostenefficiënter kunt maken.’

Daarnaast zijn volgens Hilterman standaardisatie en uitwisselbaarheid in deze context heel belangrijk. ‘Je moet heel gemakkelijk de overstap kunnen maken naar een ander platform, want vendor lock-in kan dodelijk zijn. Ik hamer daar heel sterk op. En ook moet de opslag organisch kunnen groeien, omdat we straks niet meer in staat zijn om data in een infrastructuur offline te migreren. Dat is ingegeven vanuit de wetenschap dat de levensduur van hardware beperkt is tot een jaar of vijf à zeven. Je wilt niet hebben dat je opeens in één keer honderden of duizenden terabytes aan data moet gaan verhuizen buiten werkuren, wat bijna onmogelijk is. Alle verhuizingen die ik vandaag de dag doe, gaan daarom al ‘on the fly’ en veelal tijdens kantooruren. Dat kan dus nu al en is heel belangrijk.’

Consistentie en kwaliteit

Menno Heesbeen, regional managing director bij Redwood Software, merkt dat organisaties tegenwoordig real time integratie eisen van (data-)analyses met de primaire businessprocessen om zo de concurrentie voor te kunnen blijven. Hij meent, net als Rob Hilterman, dat automation van je processen hierbij de sleutel tot succes is. ‘Het eenvoudig verzamelen van gegevens heeft niets te maken met het daadwerkelijk gebruiken van die data om als organisatie succesvoller te zijn. Om de meeste waarde te verkrijgen uit snel muterende en grote hoeveelheden data is het belangrijk dat organisaties effectief en snel beheren. Dit is uiteraard afhankelijk van consistente, accurate processen door de gehele bedrijfsvoering heen. Door je processen te automatiseren, ben je in staat om consistentie en kwaliteit te waarborgen in de primaire business processen van organisaties en dat op een snelle en kostenefficiënte manier.’

Heesbeen pleit dan ook voor ‘enterprise process automation’, dat ervoor zorgt dat vertraging (latency) en menselijke fouten waar mogelijk worden voorkomen. ‘Gartner beschrijft een best case-scenario waar processen zich bewust zijn en kunnen leren van werkinteracties, hun context en de situaties daaromheen. Zodra een situatie wordt opgemerkt, kunnen er actief of op aanvraag analyses worden uitgevoerd om de uitkomst van potentiële veranderingen te voorspellen. Hoewel dit een onmogelijke droom of toekomstbeeld lijkt, beschrijft het een situatie waar snelle technologieën worden gecombineerd met goed doordachte automation van processen om een adaptieve en efficiënte organisatie te creëren. Wil je van big data een big advantage maken, zorg dan voor een gedegen procesautomatisering en voorkom een big data-miskleun.’

Volgens Pascal Ottens, technisch consultant bij myBrand, worstelen bedrijven met het vinden van een goede balans in de hoeveelheid storage die ze nodig denken te hebben en daadwerkelijk gebruiken. Forecasting en datamanagement zijn volgens hem essentieel om de goede balans te vinden. ‘De helft van de data vandaag de dag is de afgelopen twee jaar ontstaan. Door de verdere ontwikkeling van the internet of things zal de datagroei alleen nog maar verder toenemen. Met forecasting breng je de verwachte datagroei en de storagecapaciteit optimaal in kaart en met slimme datamanagementmethodes zet je de storage zo efficiënt en effectief mogelijk in.’

‘Storage is kostbaar’, vervolgt Ottens. ‘Je wilt dus niet veel onbenutte storagecapaciteit in huis hebben om eventuele groei te kunnen opvangen. Om een goede forecast te maken moet je historische data op de juiste manier interpreteren. Door dit te combimeren met de kennis van de salespijplijn weet je precies wat je kunt verwachten, waardoor je tijdig kunt opschalen. Naast een vooruitziende blik kun je ook gebruikmaken van verschillende datamanagementmethodes om de benodigde capaciteit zo laag mogelijk te houden.’

Managementmethodes

Er zijn volgens Ottens tal van datamanagementmethodes, maar thin provisioning, deduplicatie en datacompressie zijn wat hem betreftde meest beproefde methodes. ‘De opkomst van slimme storageoplossingen binnen het datacenter heeft ervoor gezorgd dat thin provisioning steeds vaker wordt toegepast. Hiermee wordt de beschikbare capaciteit op de san geoptimaliseerd, waardoor de inzet van de storagecapaciteit een stuk efficiënter wordt ingericht. Ook deduplicatie is niet meer weg te denken uit het datacenter, het gebruik ervan zorgt ervoor dat je de benodigde storagecapaciteit flink kan terugdringen.’

Waar volgens Ottens nog extra voordeel te behalen valt is datacompressie. ‘Door dit toe te passen is het mogelijk om databestanden, denk aan compressie door de database, tot wel 50 procent te verkleinen. Voeg je daar echter ook compressie van hardware bij, dan is het zelfs mogelijk de benodigde capaciteit met 70 procent terug te dringen. Door beide methoden toe te passen kun je de storagecapaciteit zo efficiënt mogelijk benutten en ben je als organisatie voorbereid op de datagroei veroorzaakt door the internet of things.’

Laatste nieuws

Dit artikel is eerder gepubliceerd in de laatste nieuws-printuitgave van Computable (10 oktober 2014).
Computable-print gaat door als magazine voor het ict-management.
De site Computable.nl gaat zich specifiek meer richten op de ict-professional.

Opslag slim inrichten voor dataverrijking

Meer opslagbehoefte

Elastische storage

Databeveiliging

Amazon Web Services

Ochestration software

Big data

Consistentie en kwaliteit

Managementmethodes

Laatste nieuws

Geef een reactie Reactie annuleren

Direct naar

Producten

Contact

Social

Meer opslagbehoefte

Elastische storage

Databeveiliging

Amazon Web Services

Ochestration software

Big data

Consistentie en kwaliteit

Managementmethodes

Laatste nieuws

Whitepapers

Meer lezen

Geef een reactie Reactie annuleren

Footer

Direct naar

Producten

Contact

Social