Computable 100 - Datarevival: Het is duister onder de ai-vuurtoren

Het is duister
onder de ai-vuurtoren

Deze rubriek is al een tijd lang grotendeels gewijd aan de huidige ai-revolutie. De generatieve ai (gen-ai) van nu lijkt overal op toepasbaar en beslist ook op het managen van klassieke databasesystemen. Het valt daarom op dat het binnen de ‘oude’ ict-branche stil blijft over wat artificiële intelligentie (ai) kan doen voor klassieke databasetoepassingen.

Tekst: René Veldwijk  Beeld: WONDERWORKS

Midden jaren 90 schreef ik voor het blad Database Magazine (DB/M). Het waren jaren waarin (relationele) databases mainstream waren geworden en de belangstelling voor data groot was. In die tijd schreef ik een stuk waarin ik mij afvroeg waarom het werk van een database administrator (dba), een vrij nieuwe functie, niet grotendeels zou kunnen worden geautomatiseerd. Deze dba had (en heeft) als taak om applicaties efficiënt te laten werken op de server-hardware. Zo kon (en kan) de dba bijvoorbeeld door het leggen van indexen voorkomen dat een complete tabel wordt uitgelezen om een record te vinden. Ik vroeg mij toen af waarom een index die nauwelijks wordt gebruikt niet automatisch wordt gerapporteerd. Of waarom het aanmaken van een index niet kan worden gesuggereerd als een grote tabel voortdurend compleet wordt doorlopen. Ik vraag mij dat nog steeds af. De ict is een gekke business.

Nu met ai wordt deze oude vraag zelfs onontkoombaar. Gen-ai excelleert in het herkennen van patronen. Mooi, want datamodellering en database-ontwerp is het in datastructuren vangen van patronen. Of over een paar jaar ai de mens in alles verslaat betwijfel ik, maar een ai-model dat kan wedijveren met de beste datamodel-patroonherkenners moet mogelijk zijn. Hetzelfde geldt voor die oude vraag waarom het werk van de dba niet kan worden geautomatiseerd. Ik vermoed dat het zelfs zonder toegespitste modellen nu al mogelijk zou moeten zijn om knelpunten en verbeter-opties te identificeren. Wederom: waarom is dat niet gangbaar? Elke ict-consultant zou het water toch in de mond moeten lopen? Waar blijven de modellen-trainers of desnoods de promptengineers?

Een gemene database-ontwerptest voor ai.

Database-ontwerp, -generatie en -optimalisatie zijn lang niet de enige toepassingen in de categorie ‘laaghangend fruit’. Wat dacht u van documentatie-generatie? Of controle en verbetering van database-content? Stop een database-dump (data plus schema) plus het oude projectdossier in een gen-ai en laat het ding documentatie genereren. Als ik een tabel aanbied met, zeg, reisgidsen, dan herkent die ai dat probleemloos, zelfs zonder documentatie. Als zich tussen tweeduizend reisgidsen het fantasy-boek De reisgenoten van Tolkien bevindt, dan signaleert die ai dat probleemloos. Als auteursinformatie niet in een aparte tabel is gestopt maar in een veldje in de boekentabel, dan kan de ai spelfouten corrigeren, een stamtabel met auteurs aanmaken en de data converteren. De ai kan eveneens de mutaties verwerken, zodat we wéér tien jaar verder kunnen aanmodderen met stokoude legacy-systemen die allang vervangen hadden moeten zijn. Misschien is dat zelfs verstandig. Als de hype uitkomt en we over vijf jaar artificial general intelligence (agi) hebben, dan is het aan de beademing houden van legacy-systemen een slimme keuze. Ondertussen kun je als eigenaar van dergelijke systemen aan de slag met laaghangend ai-fruit: documenteren, (data)corruptie opsporen en corrigeren (ook tussen systemen!), datawarehouse-modelletjes genereren, datalakes draineren en – o ja – relationele databases optimaliseren en die halve dba op de loonlijst omscholen. Kortom, de mogelijkheden om de verdere ai-ontwikkelingen af te wachten en toch nuttig aan de slag te gaan zijn eindeloos.

'Misschien is een deel van de verklaring dat de oude en de nieuwe datawerelden te ver van elkaar afstaan. Heel jammer wel'

Je zou verwachten dat Nederlandse ict-publicaties vol staan met ronkende succesverhalen over dit soort toepassingen, maar nee. Bij het uitblijven van ict-oplossingen voor database-optimalisatie begreep ik het nog wel enigszins. Het was gedoe onder de motorkap, techneuten-voor-techneuten. Maar de helft van wat ik hierover schrijf gaat over innovaties die goed zijn uit te leggen aan de gemiddelde bestuurder. Misschien is een deel van de verklaring dat de oude en de nieuwe datawerelden te ver van elkaar afstaan. Heel jammer wel.

Natuurlijk heb ik uitgezocht of er tools op de markt zijn die de functionaliteit bieden die ik hierboven beschrijf. ChatGPT vindt er slechts zes, die bij nazoeken ook een product van hallucinatie blijken te zijn. Het veld lijkt leeg. Wat een kansen voor onderzoekers en innovatieve ondernemers!

Maar waarom niet zelf aan de slag met de bestaande algemene ai-producten? Zelf heb ik met ChatGPT een database-ontwerp gemaakt. Ik heb een casus (zie hierboven) voorgelegd die bijna elke deelnemer aan een workshop gegevensmodellering op het verkeerde been zet. ChatGPT doet het in sommige opzichten beter dan mijn cursisten, maar komt tegelijk met extreem gekke suggesties. Het is een bekend beeld: generatieve ai is vooral nuttig in de handen van experts. Voor de database-mensen: hier mijn dialoog met ChatGPT.

Kort en goed: voor creatieve en ondernemende klassiek-geschoolde data-mensen is het na jarenlange droogte een geweldige tijd om professioneel bezig te zijn. Aan de slag ermee!

Datarevival is een rubriek van René Veldwijk over de wondere wereld van data. Veldwijk is associé bij Ockham Groep en opiniemaker bij Computable.