Veel bedrijven denken dat je pas kan beginnen met artificial intelligence als je datakwaliteit op orde is. Klinkt logisch, maar daarmee laat je veel waarde liggen. Ga je zélfs eerst alleen met de datakwaliteit aan de slag, dan loop je risico dat je geld weggooit.
Een goede datahuishouding (data governance) is belangrijk. Als gevolg hiervan denken veel bedrijven dat het een goed idee is om de datakwaliteit eerst ‘goed’ te krijgen, voordat zij starten met artificial intelligence (ai). De algoritmen hebben data nodig, dus moet de kwaliteit van de data eerst op orde zijn. Anders kunnen we niet beginnen met ai.
Een logische redenatie die risico’s met zich meebrengt. De kans is levensgroot dat als je ‘klaar’ bent, dat dit niet het geval is. Bij je eerste toepassing kom je erachter dat net die belangrijke data niet compleet is.
Geschikt
Hoewel beginnen met ai zonder de datakwaliteit eerst ‘goed’ te hebben? Daarvoor kijken we naar wat datakwaliteit is. Data worden over het algemeen van hoge kwaliteit beschouwd als ze ‘geschikt zijn voor het beoogde gebruik in operaties, besluitvorming en planning’. Oftewel, als de data geschikt is voor gebruik, beschouwen we het als van hoge kwaliteit. De markt stelt ook dat je datakwaliteit kan meten in termen van accuraatheid, compleetheid en consistentie. Echter zeggen deze metingen niets over de bruikbaarheid van data.
Het klinkt als een open deur, maar bruikbaarheid is het best vast te stellen door de data te gebruiken. De truc zit erin om met zo min mogelijk inspanning en risico te bepalen of de data bruikbaar is of verbeterd moet worden. De aanpak daarvoor is eenvoudig. Net zoals bij elke vorm van softwareontwikkeling is gebruik te maken van een minimal viable product (mvp).
Model
Hoe gaat dat in zijn werk voor ai? Want daar zoeken we naar patronen in de data en als de data niet goed genoeg zijn, dan krijgen we nooit een goed model. Dan geldt dat toch ook voor een mvp?
Om een algoritme te testen, is te starten met een eenvoudig model. We hoeven niet in één keer de oplossing te ontwikkelen. Als we kunnen bewijzen dat het model levensvatbaar is, dan kunnen we daarop besluiten om door te investeren of te stoppen.
Een eenvoudig model begint met het vinden van patronen met een beperkt aantal velden. Daarnaast is het vaak beter om niet je hele dataset te gebruiken, om zo de complexiteit te verlagen. En als je niet de hele dataset gebruikt, dan kun je deze filteren. We nemen alleen dat deel dat kwalitatief goed is en representatief genoeg is voor ons probleemdomein.
Het verbeteren van datakwaliteit gaat het best als de data direct gebruikt wordt. Door de data te gebruiken voor ai en machine learning zorg je dat data waarde creëren en daarmee is er een businesscase voor het verbeteren van datakwaliteit.
Je zegt dus dat je met bestaande data kwaliteit moet gaan verbeteren? Reactief, dus.
Beter is als je goed bepaalt welke data informatie voor je omgeving is. Daarmee kan je dan kijken welke data van betekenis is, en daarmee slagen gaan maken om je informatie te verbeteren.
Goed conceptueel modelleren van informatie houdt trouwens de mogelijkheid in om beperkingsregels mee te nemen. Er zijn vele soorten, en geven beter aan wat bepalend is dan achteraf regels via algoritmen gaan afdwingen.
En: zorg dat je informatie direct zo goed mogelijk is. Een enorm data-lake creeeren is simpel genoeg, maar dan heb je pas echte problemen.