Bedrijven moeten al hun gegevens effectief gebruiken als ze mee willen in de digitale datarevolutie. De grote uitdaging hierbij is echter dat we steeds meer soorten gegevens verzamelen. En al die gegevens moeten flexibel opgeslagen worden en toegankelijk zijn om er de maximale waarde uit te halen. Maar tot het zover is, moeten bedrijven eerst een vijftal uitdagingen overwinnen.
Het flexibel opslaan van allerlei ongelijksoortige gegevens is vrijwel onmogelijk met vaste, vooraf bepaalde databaseschema’s. De meeste bedrijven erkennen dit inmiddels, maar weten vaak nog niet hoe ze dit in de praktijk moeten brengen. Als ze echter volledig gebruik willen maken van hun eigen gegevens en die van partners en andere externe bronnen, dan is het noodzakelijk om eerst de knelpunten bloot te leggen. In deze blog bespreken we daarom de vijf belangrijkste uitdagingen die bedrijven moeten overbruggen om mee te kunnen in de digitale datarevolutie.
1. Verschillende gegevenstypes en formaten
Gegevens bestaan tegenwoordig in allerlei vormen, soorten en maten. En ze moeten ook nog eens in realtime verwerkt en geanalyseerd worden. Het probleem is dat deze gegevens niet netjes in de rijen en kolommen passen van de traditionele, relationele databasesystemen die door veel bedrijven gebruikt worden. Toch is het noodzakelijk om die verschillende gegevens naadloos naast elkaar te gebruiken, zodat gestructureerde data, grafiekgegevens, geospatiale data en ongestructureerde gegevens allemaal in één enkele query of transactie gebruikt kunnen worden.
2. Langzame innovatie door legacy-systemen
Technologische en zakelijke eisen veranderen dagelijks. Organisaties moeten continu innoveren om competitief en compliant te blijven. Veel bedrijven kunnen nu al nauwelijks omgaan met de gegevens die ze hebben, laat staan met de tsunami aan data die er in de toekomst aankomt, zoals IoT-gegenereerde data. Helaas worden zij bij hun investeringen in innovatie vaak geremd door de aanwezigheid van legacy-systemen, waarin veel bedrijfsgegevens in zijn opgeslagen. Deze systemen zijn een rem op hun vooruitgang en vermogen om effectief te concurreren.
3. Verschillende datasilo’s binnen de organisatie
Binnen veel organisaties zijn in de loop der jaren steeds meer datasilo’s ontstaan door de snelle groei van allerlei soorten gegevens en het aantal diensten dat ze leveren. Als zij hun klanten, toezichthouders en zichzelf beter van dienst willen zijn, dan is het noodzakelijk om een compleet beeld te krijgen van alle zakelijke informatie over klanten, patiënten of producten. Een dergelijk holistisch overzicht creëren is echter een moeizame en kostbare onderneming. En ondertussen ontstaan er steeds meer datasilo’s. Wat de zaak nog verergert is dat de datakwaliteit en het beheer van deze oplossingen vaak te wensen overlaat, wat leidt tot foutieve informatie of zelfs boetes van regelgevende instanties.
4. Gebruik van etl- en schema-first systemen
Relationele databases zijn in de meeste organisaties de standaard voor het opslaan van gegevens. Zodra een relationeel schema is ingevuld, is deze heel eenvoudig te doorzoeken met een SQL-query. Dat klink mooi, maar bedrijven moeten wel eerst het schema maken waar de query’s op losgelaten kunnen worden. Het integreren van alle bestaande schema’s (denk aan mainframe-data en tekst) vereist ontzettend veel tijd en coördinatie tussen business units, experts en implementatiespecialisten. En als er dan eenmaal een definitief model is vastgelegd door de verschillende stakeholders, dan moeten de gegevens vervolgens geëxtraheerd worden van de bronsystemen, getransformeerd worden naar het nieuwe schema en vervolgens in het nieuwe schema geladen worden (ofwel: een extraction, transformation and load (etl)-proces). Tijdens deze vertaalslag kan kritische informatie verloren gaan, naast het feit dat het vaak veel te lang duurt (gemiddeld zes tot achttien maanden). Bovendien komt er geen einde aan. Gegevensbronnen veranderen, nieuwe bronnen worden toegevoegd en er worden andere vragen gesteld. Etl is in die zin een terugkerend proces.
5. Gebrek aan contextuele data
Het grootste probleem dat bedrijven vandaag hebben is waarschijnlijk dat ze denken te weten wat ze niet weten. Gegevens zonder context zijn nutteloos. Wat betekenen deze gegevens? Hoe heeft het betrekking op andere gegevens? Wat is de herkomst van de gegevens? In welke omstandigheden en met wie mag ik het delen? De antwoorden op deze vragen worden in de meeste gevallen niet in de database vastgelegd. Ze bevinden zich in het hoofd van een ontwikkelaar, in een ontwerpdocument of een etl-script, of nog erger: op al die plaatsen, maar niet consequent. Traditionele databases zijn niet geschikt voor het opslaan, beheren en doorzoeken van dit soort contextuele metadata. Bij standaard etl-processen gaat deze informatie meestal verloren. Door deze contextuele data weg te gooien, ben je niet in staat om de maximale waarde uit je gegevens te halen.
Multi-model database
De vraag is nu: wat kun je als bedrijf doen om deze uitdagingen te overwinnen? Steeds meer bedrijven zien multi-model databases als de oplossing. Daarmee kunnen ze de context van de gegevens vastleggen en deze samen met de data opslaan. In feite is dit een toekomstbestendig databasesysteem dat kan omgaan met alle nieuwe soorten gegevens of wettelijke eisen die onvermijdelijk om de hoek komen kijken.
Eisen aan een multi-model database platform:
- Native opslag van meerdere databasestructuren (structure-aware);
- Het vermogen om gegevens as-is te laden (geen vast schema vereist);
- De mogelijkheid om verschillende datamodellen efficiënt te indexeren;
- Vermogen om alle modellen naadloos samen te gebruiken (composability);
- Enterprise-niveau beveiliging en beschikbaarheid.
Natuurlijk is elke verandering van databasetechnologie geen lichte beslissing. Veel it-professionals hebben hun hele carrière slechts met één technologie gewerkt. Nu is de tijd echter aangebroken dat bedrijven investeren in een multi-model databaseplatform waarmee zij alle gegevens die zij tot hun beschikking hebben, effectief kunnen verzamelen, analyseren en gebruiken.