De term 'datagedreven werken' is al jaren trending topic binnen bedrijfsleven en overheid. Beslissen op basis van feiten, dat willen we allemaal en is natuurlijk beter dan vertrouwen op intuïtie. Toch hebben bedrijven moeite om succesvol te zijn met datagedreven werken. Hoe komt dat? Laten we deze vraag beantwoorden vanuit de perspectieven technologie, mens, organisatie en proces.
Vrijwel alle organisaties beschikken anno 2022 over veel interne en externe databronnen. De meeste databronnen staan ergens in de cloud, enkele databronnen staan nog ergens on prem op een of andere server. Deze databronnen worden vervolgens vaak opgeslagen in/gekopieerd naar een datalake, wat niets anders is dan een heel groot filesysteem.
Omdat je in het datalake geen structuur aanbrengt in je gegevens, wordt er meestal een datawarehouse (oftewel een lake house) boven op het datalake geplaatst. Dit kun je doen met technologieën zoals Snowflake, Azure Synaps of AWS Redshift. In het lake house worden losse databronnen aan elkaar gekoppeld, zodat je je in rapportages of dashboards niet druk hoeft te maken over alle complexe relaties tussen deze databronnen.
Om datagedreven werken mogelijk te maken, heb je in de meeste gevallen een datalake en/of een lake house nodig. Een dergelijke infrastructuur is dus een belangrijke vereiste om datagedreven werken mogelijk te maken.
Daarbij is het natuurlijk belangrijk dat deze data altijd beschikbaar zijn, en dat kwaliteit van de data van een acceptabel niveau is. Dit lijkt logisch en vanzelfsprekend, toch heb ik bij opdrachtgevers gezien dat ze te maken had met slechte brondata en ze vooral niet ‘data driven decision making’ moest bedrijven. Dit zou een garantie zijn voor faillissement.
Schakel
Mijn ervaring is dat mensen vaak de sterkste én de zwakste schakel kunnen zijn in data-projecten. Ik heb afgelopen jaar geweldig samengewerkt met datascientists en dataengineers van allerlei pluimage. Mensen die prachtige voorspelmodellen kunnen ontwikkelen of data-pipelines kunnen bouwen waarmee deze voorspelmodellen worden gevoed.
Een belangrijke eigenschap hierbij is datanieuwsgierigheid. Mooi voorbeeld is een project dat ik uitvoerde en waar ze zó reikhalzend uitkeken naar de uitkomsten van een model (in dit geval een voorspelmodel van wisselstoringen). En dat ze ook verbaasd waren dat de belangrijkste features van het model anders waren dan verwacht.
Tegelijkertijd ontmoette ik vaak mensen die last hadden van datafobia. Soms durven mensen niet op data te vertrouwen, ook in situaties waarin modellen aantoonbaar betere beslissingen nemen dan de mensen zelf. Een soort koudwatervrees voor ai. Wat is de oplossing? Ligt hier een taak voor het onderwijs?
Organisaties
Bijna iedere organisatie is tegenwoordig onderdeel van een keten, of – om een hippe term te gebruiken -een ecosysteem. Hierbij is het soms balanceren op het koord van privacy en datasolidariteit. Te vaak gebruikt men het privacy-argument op een oneigenlijke manier. Zo was ik in het verleden betrokken bij een project waarin vliegvelden, luchtvaartmaatschappijen en pakketvervoerders moesten samenwerken om bagage thuis te laten ophalen (bagage-as-a-service). Het idee was hierbij om een gezamenlijke blockchain op te zetten. Het is alweer een paar jaar geleden, maar er was destijds on de luchtvaartmaatschappijen nauwelijks bereidheid om (passagiers-)data met elkaar te delen. Met als argument dat dit volgens de AVG/GDPR-wetgeving niet mag, terwijl de passagier hier zelf juist mee gediend is. De werkelijke reden was dat betrokkenen deze data uit commercieel oogpunt niet wilden delen.
Proces
Bij processen zie ik een groot verschil tussen kleine (wendbare) organisaties en grote (logge) organisaties. In kleine organisaties zijn it-mogelijkheden vaak het uitgangspunt bij het inrichten van processen. Bij grote organisaties is het precies andersom en is er vaak sprake van verouderde backoffice-systemen. En daarmee ook verouderde processen. Grote organisaties hebben daarom in de regel meer moeite met datagedreven werken dan kleine organisaties.
Ik hoop echt dat we in 2023 meer succesvolle voorbeelden van datagedreven werken gaan zien. Daarbij zijn datakwaliteit, datanieuwsgiergheid en datasolidariteit essentiële ingrediënten. Daarnaast moeten echt eens iets gaan doen aan datafobie.