‘Eat your own dog food’ en ‘practice what you preach’. Dit zijn voor mij favoriete uitspraken. Als je ergens in gelooft, dan moet je het ook kunnen bewijzen. In mijn dagelijkse praktijk, die bol staat van data en analyses, hebben we dit gegeven echter te lang kunnen negeren. Maar nu is het moment toch echt aangebroken om daar verandering in te brengen: analyseer je analytics!
Ik ben er van overtuigd dat op een slimme manier inzicht krijgen in hoe eindgebruikers omgaan met je data essentieel is om succesvol waarde te halen uit bedrijfsdata. Natuurlijk houden we ons al langer dan vandaag bezig met het analyseren van onze analyses. De meeste organisaties hebben mooie trendoverzichten van de groei van de data die ze beheren, overzichten van de dagelijkse doorlooptijden van alle etl-jobs en bijvoorbeeld hoeveel query’s er zijn uitgevoerd per applicatie, per gebruiker en per afdeling. Maar dit kan allemaal nog wel wat creatiever en slimmer.
Vergelijk het met de manier waarop we traditionele (en nog altijd essentiële) bi-dashboards en kpi’s zijn gaan aanvullen met self-service bi en allerlei nieuwe tools voor geavanceerdere analyses zoals machine learning, npl, graph en geospatial.
De opmars van self-service analytics is een belangrijke reden waarom een efficiëntere analyse van data noodzakelijk is. Voorheen werd het voorbereiden van data en rapporten gecontroleerd door de data engineers door middel van strakke processen en streng beheer. Maar naarmate je meer data beschikbaar stelt voor business-analytics, data scientists, app-bouwers en anderen, raak je al snel het overzicht kwijt van wie er wat doet met welke data, en waarom. Aan de andere kant willen we onze creatieve mensen natuurlijk ook niet afremmen met allerlei bureaucratische rompslomp. Dat is waar metadata goed van pas komt.
Volg de metadata
Alle analytische experimenten van mensen laten voetsporen achter in de vorm van metadata. Als je die goed analyseert, kan dat veel nuttige inzichten opleveren. Denk bijvoorbeeld aan welke data het meest gebruikt worden, of in welke combinaties. Passen gebruikers misschien veel eigen transformaties toe als ze bepaalde data gebruiken? Of wordt data vooral door gebruikers in de oorspronkelijke vorm uit het platform geëxporteerd? Dit soort vragen kunnen bijvoorbeeld inzicht geven in wie er wellicht kwaad zal worden als bepaalde data worden verwijderd. De analyse van metadata kan hier bij helpen.
Al deze analyses moeten het liefst automatisch en proactief gebeuren. En de resultaten hiervan moeten openbaar beschikbaar en goed doorzoekbaar zijn, zodat iedereen ervan kan profiteren. Deze informatie is namelijk nuttig voor veel meer mensen dan alleen de dba’s of de data engineers. Neem een analist die in zo’n overzicht ziet dat hij een andere join-conditie gebruikt dan de rest. Voor hem is het uiterst nuttig om te kunnen zien waarom dit het geval is.
Zelfgemaakte oplossing
Het aantal organisaties dat zich al bezig houdt met het analyseren van hun analytics is nog erg beperkt. Zij die dat wel doen, hebben hier vaak een zelf gemaakte oplossing voor. Dit geeft al aan dat dit nog in de kinderschoenen staat. Toch zijn er wel degelijk producten die zich richten op deze uitdaging.
Eén van deze producten, waar ik persoonlijk erg van gecharmeerd ben, is Alation. Deze tool gebruikt een aantal slimme trucjes om meer waarde te halen uit metadata, zoals het gebruik van Google’s pagerank-algoritme om te bepalen welke tabellen het belangrijkst zijn. Verder biedt Alation naast het geautomatiseerd analyseren van logs, ook de mogelijkheid om de resultaten aan te vullen met feedback van gebruikers. Dit maakt het een heel nuttige tool voor samenwerking, een andere belangrijk factor bij het succesvol implementeren van self-serivce analytics.
Investeren in data
Zoals gezegd, vind ik dat het analyseren van je analyses essentieel is om concurrentievoordeel te halen uit het gebruik van bedrijfsdata. Zonder deze informatie is het onmogelijk om je data op een efficiënte manier op te slaan en te beheren. Analytische ecosystemen bestaan daarnaast steeds vaker uit meerdere platformen en technieken, wat de complexiteit vergroot. We kunnen dus alle hulpmiddelen goed gebruiken om te bepalen of de investeringen in data, het beheer en gebruik daarvan, de juiste zijn.
Met behulp van metadata-analyses kun je bijvoorbeeld bepalen welke data minder belangrijk is en daarom verplaatst kan worden naar een goedkoper platform. Ook kan inzicht in waar eindgebruikers zelf nog veel transformatielogica toevoegen, een suggestie zijn om aanvullende datamodellering te doen. En, ten slotte, kan data die veel geëxporteerd wordt, een helder signaal zijn dat deze data zich wellicht op een platform bevindt met de verkeerde functionaliteit.
Net zoals slimme organisaties hun webverkeer analyseren om constant de opzet van de website te verbeteren, moeten we ook het gebruik van onze data beter gaan analyseren. Uiteindelijk komt het neer op een van mijn all-time favorites; ‘facts, not opinions’. Inzicht in het gebruik van je data vraagt om feiten, en slimme ook.