BLOG – Bedrijven kiezen voor data-lakes en datawarehouses vanwege de flexibele opslag en verwerking van grote hoeveelheden gegevens, vooral ongestructureerde data zoals video’s, afbeeldingen of sensorgegevens. Ze zijn kostenefficiënter dan traditionele databases en bieden schaalbaarheid en toegankelijkheid voor organisaties die inzichten en data-analyse nodig hebben.
Echter, data-lakes hebben ook nadelen. Het ontbreken van een vooraf gedefinieerde structuur en data-integriteit bewaking kan leiden tot vervuilde of gemanipuleerde aangeleverde data, waardoor analyses minder betrouwbaar worden. Daarnaast brengt de opslag van diverse en vaak gevoelige gegevens beveiligingsrisico’s met zich mee, vooral in operationele omgevingen. Tot slot kan het gebrek aan structuur complexiteit in databeheer in de hand werken, wat extra kosten voor it-beheer en data-governance met zich meebrengt.
Geschikt
Met de toenemende complexiteit van cyberaanvallen en het wijdverbreide gebruik van cloudoplossingen, zijn data-lakes minder geschikt in relatie tot de beveiliging van operationele systemen. Het scheiden en minimaliseren van verbindingen tussen it en ot is een cruciale beveiligingsmaatregel om productieprocessen te beschermen. In plaats van data naar een centraal data-lake te verplaatsen, is het logisch om data direct bij de bron te houden en te analyseren. Dit is mogelijk geworden door de toegenomen computerkracht en verbeterde ai-toepassingen.
Bovendien kunnen in een data-lake inconsistenties optreden door ongestructureerde data, verschillende formaten of ontbrekende metadata. Dit vermindert de kwaliteit van de data voor operationele processen. Dit kan een negatieve impact hebben op de beveiliging, doordat bepaalde aspecten van de data niet goed worden geïdentificeerd of beschermd. Wanneer data bij de bron blijft, is het gemakkelijker om de integriteit en de kwaliteit van de gegevens te waarborgen. Het waarborgen van de configuratie-integriteit, de software en de hardware speelt hierbij een rol. Hiernaast leidt dit tot betere operationele prestaties en een hogere mate van beveiliging.
Operationele processen vereisen data die altijd beschikbaar zijn en accuraat de huidige stand van zaken weergeven. Wanneer data in een data-lake worden opgeslagen, zijn er vertragingen omdat de informatie eerst moet worden gekopieerd, getransformeerd en geladen. Dit leidt ertoe dat operationele beslissingen worden genomen op basis van verouderde gegevens. In kritieke omgevingen, zoals productie of logistiek, kunnen deze vertragingen ernstige gevolgen hebben. Door data bij de bron te houden, kunnen systemen altijd gebruikmaken van de meest actuele gegevens, met als effect snellere en nauwkeurigere operationele beslissingen.
Data-lakes maken het moeilijk om de herkomst van gegevens nauwkeurig te traceren
Daarnaast leidt het verplaatsen van data naar een data-lake tot extra complexiteit en verhoogt het potentiële kwetsbaarheden. Data-lakes vereisen uitgebreide infrastructuren voor opslag en beheer, wat de kans op beveiligingsinbreuken vergroot. Elke stap in het proces van dataverplaatsing biedt een mogelijkheid voor cyberaanvallers om toegang te krijgen tot gevoelige informatie. Bij fire-and-forget-oplossingen, waarbij een systeem na initiatie zelfstandig een taak uitvoert zonder verdere tussenkomst of monitoring, is het essentieel om de datastroom zo eenvoudig mogelijk te houden. Wanneer dit niet of niet goed gebeurd, kunnen cruciale data makkelijk verloren gaan. Het gebruik van een data-lake vergroot echter de kans dat gevoelige informatie wordt blootgesteld aan aanvallen, met mogelijk ernstige gevolgen voor de organisatie.
Bovendien vereist het beheer van data-lakes vaak aanzienlijke middelen en expertise. De complexiteit van het organiseren, opschonen en onderhouden van een data-lake kan leiden tot hogere operationele kosten en langere tijd voordat inzichten kunnen worden verkregen. Dit gaat in tegen de kernprincipes van fire-and-forget oplossingen, waarbij snelheid en efficiëntie essentieel zijn. Het verliezen van focus op de kernactiviteiten om een data-lake te onderhouden, kan ook leiden tot verminderde productiviteit en innovatie.
De risico’s van data-lakes beperken zich niet alleen tot data-management, ze hebben ook gevolgen voor de naleving van regelgeving en databeveiliging. Het verplaatsen van gevoelige gegevens naar een centrale opslagplaats maakt het moeilijker om aan wettelijke vereisten te voldoen, zoals de Algemene Verordening Gegevensbescherming (AVG). Data-lakes maken het immers moeilijk om de herkomst van gegevens nauwkeurig te traceren, wat essentieel is voor compliance. Bij elke verplaatsing van data bestaat het risico dat gevoelige informatie op de verkeerde plek terechtkomt of niet op de juiste manier wordt beschermd. Dit kan leiden tot juridische complicaties en reputatieschade.
Strategisch
Kortom, het bijhouden van data bij de bron is een strategische keuze die niet alleen de efficiëntie van operationele processen verbetert, maar ook bijdraagt aan een robuuste cybersecuritystrategie. Door data-lakes te vermijden en te kiezen voor een aanpak waarbij data direct worden geanalyseerd en gebruikt waar ze worden gegenereerd, kunnen organisaties niet alleen hun prestaties verbeteren, maar ook hun risico’s aanzienlijk verlagen. In een wereld waarin databeveiliging en betrouwbaarheid steeds belangrijker worden, zijn data-lakes simpelweg niet meer van deze tijd.
Bert Willemsen is ceo bij AXite Security Tools
Van data lake naar data swamp door slecht data management is een te verwachten ontwikkeling omdat er nog altijd enkele denkfouten in het beheer gemaakt worden. Eén daarvan gaat simpelweg om de waarde van data want data integriteit verwijst naar de nauwkeurigheid, consistentie en volledigheid van de data gedurende de gehele levenscyclus van de INFORMATIE. Wat betreft een ontkoppeling van het data- en informatiebeheer gaan de lusten van data ongestructureerd en ongeclassificeerd opslaan om de hoop er met data synthese waarde aan te kunnen geven met het idee dat opslag niks kost.
Dat alleen al de technische kosten verdriedubbelen als het om de integriteit van de data gaat wordt vaak niet begrepen door een slechte cost accounting in het fire-and-forget principe als gevolg van een beheermodel. Eenmaal opslaan is tenslotte niet genoeg alleen vallen de exponentiele integriteitskosten van de back-up nog vaak buiten de boekhouding. Zoals ook stijgende compliance cost doordat de integriteit van INFORMATIE om een rechtmatigheid van de data verwerking gaat. Big Data als een vorm van Big Brother doordat toezicht op gegevensverwerking ontbreekt leidt tot schandalen die het vertrouwen ondermijnen. Het ontwikkelen van wetgeving rondom AI en algoritmische transparantie zal zich uitstrekken tot de data lakes die nu nog te troebel zijn door de rottende bits op de bodem.
Een directe classificatie van de data om INFORMATIE te sorteren is op dit moment duurder dan alles maar gewoon opslaan omdat het data- en informatiebeheer ontkoppeld zijn. Hierdoor worden kosten niet zichtbaar voor de business zoals alle Watts per TB die nodig zijn. Een data lake gaat namelijk niet om de verduurzaming van de ICT als ik kijk naar het opgenomen vermogen ervan in verhouding tot het bewaren van data op tape.