Big data is here to stay

In het jaar 1965 voorspelde Gordon Moore dat het aantal transistors in een geïntegreerde schakeling door de technologische vooruitgang elke twee jaar zou verdubbelen. Een voorspelling die voortaan als Moore’s Law door het leven zou gaan. Hij heeft gelijk gekregen (althans tot vorig jaar in elk geval).

De technologische ontwikkelingen gaan enorm hard. Dat geldt in het bijzonder voor de groei van digitale gegevens en ook op dat gebied worden interessante voorspellingen gedaan. Elk jaar verdubbeling of over tien jaar honderd keer zoveel data als we nu hebben. Of deze voorspellingen nu uitkomen of niet, het is evident dat we te maken hebben met een enorme groei in digitale gegevens. En natuurlijk moeten die gegevens, die ‘big data’ ergens opgeslagen worden.

Over big data is de afgelopen tijd al veel gezegd en geschreven. Big data is in elk geval een big issue in de media en steeds meer organisaties raken ervan overtuigd dat ze ‘iets’ moeten met dit thema. Ik wil hier graag focussen op een specifiek deelgebied van big data, namelijk data-opslag en in het bijzonder object storage-technologie, want dat is een onderwerp dat nog niet veel aandacht heeft gekregen in de ‘big data-discussie’.

Cloud storage wordt inmiddels veelvuldig gebruikt omdat het zo enorm (snel) schaalbaar, betrouwbaar en relatief goedkoop is. Als je cloud storage vergelijkt met een situatie waarin je alle data zelf, in je eigen datacenter opslaat en beheert, dan is dat absoluut waar. En dat is nog maar het topje van de ijsberg (in positieve zin deze keer). Want waarom willen beheerders nooit meer terug als ze eenmaal hebben geproefd van de geneugten van cloud storage? Dat komt in veel gevallen omdat zij in de cloud ook gebruik kunnen maken van object storage metadata, flat-name space en programmatic interfaces. Deze functies maken cloud storage een must have voor het opslaan van gegevens (allicht!), maar ook het beheren, doorzoeken en verwerken van de stortvloed aan ongestructureerde gegevens waar organisaties vandaag de dag mee te maken hebben.

Traditionele bestandssystemen maken vaak nog gebruik van directory en file naming-conventies voor het catalogiseren van gegevens. En dat werkte vroeger prima. Maar hoe zit dat vandaag de dag? Laat ik dit eens op mezelf betrekken. Maak ik voor elke dag dat ik op de computer werk een afzonderlijk map aan met de datum, of gaat alles op de ‘grote hoop’? En hoe zit dat met mappen voor bepaalde locaties of speciale gebeurtenissen? Natuurlijk, het zou achteraf erg handig zijn wanneer je alles handmatig hebt gecategoriseerd, maar het is bijna niet meer werkbaar om alles in de juiste mapjes te stoppen. Je moet hierin dus (andere) keuzes maken.

De juiste foto terugvinden in een collectie die inmiddels (tien)duizenden foto’s bevat wordt met de dag ingewikkelder. Want wat nu, als je al je foto’s op datum hebt ‘ingericht’ en je op zoek bent naar plaatjes van een specifiek persoon of een bepaalde gebeurtenis…. of juist een combinatie van die twee! Ik kwam er laatst achter dat er veel mensen zijn die alle foto’s uit hun collectie die ze voor een digitaal foto-album willen gebruiken eerst naar een speciaal daarvoor aangemaakte map kopiëren. Zeer tijdrovend, nogal foutgevoelig en in elk geval vrij inefficiënt! In organisaties gaat het in wezen niet anders, de hoeveelheid tijd die verloren gaat aan zoeken en repliceren van gegevens is enorm!

Met object storage in de cloud kun je metadata (dus informatie over je data) direct koppelen aan je bestanden zodat je content op verschillende manieren kunt identificeren. Zo kun je foto’s bijvoorbeeld tegelijkertijd terugvinden op locatie, datum, mensen die op de plaat staan en nog andere informatie. Applicaties die met deze metadata werken, werken zeer snel en effectief zodat de tijd die je bezig bent met zoeken en wachten enorm afneemt en je veel productiever bent.

Steeds meer bedrijven komen met technologie en applicaties om met deze metadata op grote schaal aan de slag te gaan. Bijvoorbeeld via een nas-interface (nfs en cifs) met directie integratie met bestaande systemen en applicaties. Het gebruiken van metadata bij zeer grote hoeveelheden gegevens (big data!) is nog steeds een uitdaging, maar ook daar komen steeds meer interessante oplossingen voor op de markt. Bijvoorbeeld een ‘metadata engine’ die automatisch waardevolle metadata in meer dan duizend bestandtypes (waaronder een groot aantal media- en office-extenties) kan toewijzen. Die metadata is vervolgens via de api van de cloud-aanbieder direct te gebruiken in allerlei applicaties van derden.

Om een lang verhaal kort te maken: big data is here to stay. Het is aan de industrie om ervoor te zorgen dat die oneindige stroom aan gegevens geen bron van problemen, maar van mogelijkheden wordt. Het gebruik van object storage en metadata speelt hierbij in mijn optiek een cruciale rol, maar ook de verdere ontwikkeling van noSQL-databases. Cloud computing zal bij deze ontwikkelingen een vooraanstaande rol spelen door bijvoorbeeld projecten als OpenStack. En of Moore’s Law nu wel of niet opgaat voor de vermenigvuldiging van data, we kunnen maar beter goed voorbereid zijn en leren van het verleden!