Ai is voor veel organisaties de technologie die voor groei gaat zorgen de komende jaren. Zoveel data die dagelijks worden gegenereerd, daar moet toch veel meer waarde uit te halen zijn? Dat is zo ongeveer de gedachte daarbij. Die stroom aan data is tegelijk een knelpunt. Waar sla je de data op, hoe bewaak je de kwaliteit ervan en hoe leg je de juiste infrastructuur en fundering aan om alle data-activiteiten te ondersteunen?
Een tijdje geleden waren artificiële intelligentie (ai) en machine learning (ml) nog de new kids on the block die iets exotisch en geheimzinnigs hadden: anders, spannend en veelbelovend. Hoe die belofte zou uitpakken? Nog geen idee destijds. Nu zijn het gangbare technologieën die een vaste plek hebben in het it-landschap of op z’n minst in de it-plannen van organisaties. In een recent onderzoek van MIT Technology Review Insights, uitgevoerd onder zeshonderd cio’s, zegt nog maar een kleine zes procent dat hun bedrijf géén gebruik maakt van ai in de kernfuncties van de onderneming. Ruim driekwart ziet ai als een van de manieren om groei te realiseren. Voor zo’n tachtig procent van de Europese cio’s is het opschalen van ai en ml topprioriteit voor de groeistrategie.
Beren
Er zijn nog wel wat beren op de weg. Databeheer wordt gezien als een grote uitdaging bij het inzetten en opschalen van ai – in het totale traject van vergaren, opslaan, verwerken, beheren van data en het bewaken van de kwaliteit. Als de ai-doelstellingen onverhoopt niet gerealiseerd worden, dan verwacht bijna driekwart van de respondenten van het onderzoek dat dat te wijten zal zijn aan dataproblemen. Dat is niet zo gek. De hoeveelheid beschikbare data groeit veel bedrijven bijna boven het hoofd.
Dan is er nog de onderliggende data-architectuur die verschillende activiteiten moet onderbouwen. Organisaties moeten verschillende tech-stacks bouwen voor hun data-activiteiten: business-analytics, data-engineering, datastreaming en machine learning. Deze vier stacks vragen om eigen en nogal verschillende technologieën. De samenwerking tussen de stacks is ook zeker niet vanzelfsprekend. Het resultaat van zo’n viervoudige architectuur is dan vaak dat er verschillende kopieën van datasets in de organisatie rondgaan, dat consistente en waterdichte security en governance een illusie zijn, dat systemen in silo’s opereren en dat datateams veel minder productief zijn dan ze zouden kunnen en willen.
Logische keuze
Voordat een organisatie serieus aan de slag kan gaan met ai-oplossingen die moeten bijdragen aan de groei, is er een solide fundament nodig. Hoe voorkom je het vier-tech-stacks-scenario? Een data-lake is op zich een logische keuze van veel organisaties. Daar kun je namelijk enorm veel en veel verschillende data kwijt en de opslag is relatief goedkoop. Dat maakt een data-lake een goede oplossing voor ai en ml.
Voor business-intelligence is een data-lake nou net weer minder geschikt. Daarvoor heb je namelijk meer gestructureerde data-opslag en -verwerking nodig. In de praktijk leidt dat tot een dubbel fundament, met een data-lake en een datawarehouse. Dat functioneert wel, maar is duur in onderhoud en is afhankelijk van api-koppelingen. Bovendien is zo’n constructie moeilijk schaalbaar en bestaat er een groot risico op cloud- of vendor lock-in.
Ai-klare
Gelukkig is het ook mogelijk om beide technologieën in één oplossing te combineren: een data-lakehouse. Daarmee heeft een organisatie een ai-klare architectuur die volledig toekomstbestendig is. Een data-lakehouse heeft een enkele kostenefficiënte architectuur voor alle bedrijfsdata en voorkomt dus de dubbele fundering met data-lake en datawarehouse. In zo’n data-lakehouse zijn alle data-activiteiten op een goede manier uit te voeren en is data toegankelijk binnen de hele organisatie – er is geen risico op kopieën van datasets die niet meer actueel zijn. Bovendien maakt de oplossing gebruik van open formats en standaarden – om vendor lock-in te voorkomen.
Ruim negentig procent van de cio’s in het onderzoek van MIT Technology Report zegt al gebruik te maken van ai. Bijna driekwart is er nog niet volledig van overtuigd dat de ai-doelstellingen ook daadwerkelijk worden behaald, en wijt dat aan mogelijke dataproblemen. Zonder goed datafundament en een juiste infrastructuur wordt het ook lastig om het potentieel van ai te benutten. De data-architectuur moet niet alleen de toepassing van nu kunnen ondersteunen, maar ook verdere technische ontwikkelingen kunnen bijbenen. Dan helpt het als je fundament gebaseerd is op open standaarden en formats, zodat je niet afhankelijk bent van het tempo en de investeringen van vendors. Dat is een voorwaarde om de belofte van ai te verzilveren. Dan kan ai inderdaad voor veel organisaties de technologie zijn die voor groei gaat zorgen in de komende jaren.
Als het om de hamer gaat dan vinden we als sector altijd de spijkers wel en wij van WC-eend zien dat het met AI grotendeels is als met de beloften van Big Data. Want al die data heeft zorg nodig terwijl lang niet alle data (potentieel) waarde heeft voor de business. En opmerking over meerdere kopieën in eigen silo’s waardoor consistente en waterdichte security en governance aangaande de INFORMATIE een illusie is stemt niet tot gerustheid.
Oja, soms zijn kopieën van datasets een beveiligingsstrategie om verlies aan informatie te voorkomen want één van de punten van zorg is het toegankelijk houden van informatie waarin het nieuwe risico van ransomware voor hoofdpijn zorgt. Van een datalake naar datamoeras is maar een kleine technische stap als we kijken naar de relatieve eenvoud om de data onbruikbaar of onbetrouwbaar te maken. Maar als sector bedenken we vast wel iets om ook de spijkers in troebel water te vinden.
Wij van WC-eend hebben een mening over de onderliggende data-architectuur die verschillende activiteiten moet onderbouwen want als je iets 7 jaar of langer onveranderlijk moet bewaren waarom zet je het dan op veranderlijke media?