Big data, business intelligence, artificial intelligence, data-gedreven organisaties. Terechte hot topics, want met data is veel te behalen. Dit zie je terug in het grote aanbod tools dat op de markt beschikbaar is. Maar hoe aantrekkelijk het aanschaffen van zo’n state-of-the-art tool ook mag zijn, er gaat iets essentieels aan vooraf: organisatie-breed zorgen voor datakwaliteit- en consistentie.
Niet aanlokkelijk om mee aan de slag te moeten, wel minstens zo belangrijk, zo niet belangrijker. Een schoon en compleet datalandschap leidt tot betere rapportages en analyses, verhoogt de efficiency en verlaagt de kosten. Bovendien zijn nieuwe projecten, oplossingen en systemen sneller te implementeren. Kortom, goede data laten je als organisatie groeien.
Toch blijken de resultaten die deze tools leveren nog weleens last te hebben van vervuiling, onvolledigheden en onverenigbaarheden. Daarom is het goed de euforie te temperen en te kijken naar hoe te komen tot een consistent datalandschap.
Blauwdruk
Uit een rapport van International Data Corporation (IDC) in mei 2020 blijkt bijna 46 procent van de organisaties minder dan de helft van de datapotentie te benutten. Bovendien vindt tachtig procent data-wildgroei een probleem dat moet worden aangepakt. Data volledig benutten vraagt om een bedrijfsbrede visie en een strak beleid, ook ten aanzien van de bedrijfsprocessen.
Goed is om standaarden vast te leggen en de visie en beleidsregels duidelijk te formuleren én te communiceren. Daarmee leg je een basis, een blauwdruk, waarbij de interne organisatie wordt gedefinieerd en beschreven – van de mensen, producten, systemen, diensten tot de middelen en begrippen. Dit kan door middel van twee methoden: een bedrijfsdatamodel en beschrijvingen van bedrijfsprocessen.
Samenbrengen van structuren
Een bedrijfsdatamodel brengt de middelen, diensten en producten van de organisatie visueel in kaart, samen met hun eigenschappen en onderlinge afhankelijkheden. Een voorbeeld is een functioneel entity-relationship diagram (functioneel erd). Het maken van zo’n uitgebreid model is geen sinecure, maar dit soort modellen zijn wel dé manier om een bedrijf, wat het is en wat het doet, in kaart te brengen. Het vastleggen van de dynamiek hoe een bedrijf iets doet, vraagt weer om een ander model, zoals business process modeling notation (bpmn). Met de analyse van een functionele erd komen vaak problemen of vraagstukken boven water die intern zijn op te lossen, waardoor bedrijfsprocessen weer efficiënter worden, de resultaten verbeteren en kosten verlagen.
Bedrijfsprocessen in kaart
De tweede aanpak is het beschrijven van alle bedrijfsprocessen, zoals inkoop- en verkoop of in- en uitdiensttreding. Dit kan door middel van een bpmn-diagram, dat beschrijft hoe een organisatie te werk gaat. Neem als voorbeeld een indiensttreding als bedrijfsproces: wat is het start- en het eindpunt; wat zijn de acties en in welke volgorde moeten deze acties worden uitgevoerd; wie of wat voert de acties uit en wat is nodig voor iedere actie? Zo maak je duidelijk welke data (mensen, middelen, producten en diensten) in zo’n proces worden ingezet en doorgeschoven en is inzichtelijk welke data wanneer en door wie/wat nodig is.
Om data te maximaliseren, is het dus belangrijk alle stappen in een bedrijfsproces van begin tot eind in kaart te brengen. De focus hierbij ligt op het vastleggen welke medewerker en welk systeem de eigenaar zijn van welke data. Om conflicten te vermijden moet per data-element één eigenaar te zijn.
Is bovenstaande eenmaal gedefinieerd, dan zijn per proces de vereiste werkmethoden, informatiestromen en volgorde van bedrijfsactiviteiten scherp. Ook heeft men alle relevante informatie voorafgaand aan de implementatie van een specifiek proces of systeem beschikbaar. Een enorme winst voor die medewerkers die verantwoordelijk zijn voor de procesuitvoering. Is bijvoorbeeld een computersysteem aan vervanging toe of moet een interface worden gebouwd, dan is vóórdat het project van start gaat, al duidelijk waarmee het compatible moet zijn. De kans dat de oplossing past en volledig kan opgaan in het systeemlandschap neemt hierdoor aanzienlijk toe. Bovendien wordt de kloof tussen de it-afdeling en andere afdelingen (zoals management) kleiner en staan de neuzen sneller dezelfde kant op: de data maken het immers inzichtelijk wat kan en nodig is.
Wildgroei
Binnen elke organisatie draaien meerdere computersystemen als silo’s: erp, crm, logistieke en financiële systemen. Volgens hetzelfde genoemde IDC-rapport hebben organisaties gemiddeld 23 datasilo’s; vijftig of meer schijnt zelfs geen zeldzaamheid zijn. Al die silo’s bevatten hun eigen data en bedrijfsprocessen: gegevens en informatie worden ontvangen, bewerkt, opgeslagen, getoond en ook uitgewisseld met andere systemen. Data uit één silo halen en gebruiken, levert nog een prima resultaat. Denk aan een eenduidige financiële rapportage of een duidelijk klant- of voortgangsoverzicht. De crux is het weten te combineren van data uit meerdere silo’s. Zolang de bronsystemen voor data niet op één lijn liggen en elk systeem zijn eigen data, definities en standaarden heeft, kan dit maar beperkt en blijven vertaalslagen en interpretaties nodig, bij elke rapportage opnieuw.
Grote schoonmaak
Data volledig benutten, vraagt om grondige en nauwkeurige opschoning: verwijder verouderde data, ontdubbel, vul aan en corrigeer. Belangrijk is zoveel mogelijk datastructuren en datatypen te standaardiseren. Gebruik altijd het bedrijfsdatamodel als referentie. Ook al is de bedrijfsdatastructuur niet helemaal voor elk systeem toe te passen, functioneel compatible laten zijn of een subset is al een goed compromis. Weet op zijn minst wat de beperkingen zijn van een systeem in het landschap.
Waardevol
Onderschat slim data combineren en interpreteren niet. Het vraagt om specialistische kennis en technische vaardigheden om het maximale eruit te halen: betrouwbare en waardevolle data. Plus de daaruit vloeiende analyses die een schat aan kostbare management- en klantinformatie leveren. Cijfermatige informatie op basis waarvan beslissingen zijn te nemen. Immers, big data laten zien waar investeringen nodig zijn, waar in processen sturing nodig is of welke dienstverlening je aan een specifieke klant kunt aanbieden.
Wees scherp op vervuiling, onvolledigheden en onverenigbaarheden in data. Dit wordt nog vaak onderschat, maar het kan leiden tot niet volledig betrouwbare of zelfs foutieve resultaten. Handmatige of gecodeerde correcties zijn dan nodig om dit te verhelpen. Dit zie je vaak gebeuren bij bijvoorbeeld projecten die meer tijd vragen dan verwacht en waarbij steeds meer en meer databronnen worden gecombineerd. Dus ga als organisatie op zoek naar waar je data is opgeslagen, inventariseer en categoriseer alle informatie, schoon data op en zorg voor de juiste datamigratie.
Profiteer van big data, business en artificial intelligence door bij het begin te beginnen: breng de bedrijfsprocessen stapsgewijs in kaart. Duidelijk mag zijn, dat hoe meer de bronsystemen op een lijn liggen, hoe waardevoller de data. Voeg daar een bedrijfsbrede data- en procesarchitectuur aan toe en je creëert een gedegen, gezond en efficiënt fundament om het maximale uit data te halen.
Big Data gaat om het vinden van nieuwe verbanden waarbij datascientisten zich bezig houden met de magie van metadata en dataconversies. Twee termen die ik niet tegenkom in een verhaal van meer dan 1.100 woorden. En ook lees ik niks over machine gegeneerde data terwijl deze ontwikkeling voor de snel groeiende volumes aan data zorgt. Want groei van ongestructureerde data gaat aanzienlijk sneller dan de gestructureerde data terwijl deze steeds vaker de bewijslast in een proces is en daarom steeds langer en ongewijzigd bewaard moet worden.
“Verwijder verouderde data, ontdubbel, vul aan en corrigeer”
De fotorolletjes van Srebrenica zijn door een digitale equivalent vervangen die makkelijker te kopieëren en te verspreiden zijn. Rutte doctrine van Veel Vergeten Data levert dan ook een steeds groter probleem op. Classificeren en archiveren lijkt me dan ook een beter advies maar ook deze twee woorden kom ik niet tegen in het verhaal. Net zoals ik de term Information Lifecycle Management (ILM) mis in het verhaal want data is niet een IT probleem, de kosten van opslag is een IT probleem.