Wanneer je iemand vraagt of datakwaliteit belangrijk is, wordt deze vraag steevast met een volmondig ja beantwoord. Als het aankomt op het daadwerkelijk meten en verbeteren van datakwaliteit lopen de meningen en inzichten behoorlijk uiteen. Dit artikel geeft inzicht in het belang van datakwaliteit en de definitie van datakwaliteit aan de hand van een concreet voorbeeld uit de Formule 1 Grandprix. Vervolgens gaan we kijken naar de wijze waarop datakwaliteit op een continue basis gemeten en verbeterd kan worden binnen een organisatie.
Formule 1 Grandprix case
Om een beeld te krijgen van het belang van datakwaliteit en de aspecten die daarbij een rol spelen gebruiken we een voorbeeld van de communicatie tussen een coureur en de pitsbox van zijn team tijdens een race. In de onderstaande tabel is een deel van de communicatie tussen een Duitse coureur en een Amerikaanse pitsbox medewerker weergegeven in de cruciale fase van een race. De coureur staat op de eerste positie en weet dat dit de beslissende race is voor het gehele kampioenschap van dit seizoen. Hij merkt dat de olietemperatuur oploopt en wil graag weten wat zijn voorsprong is op de nummer twee in de race. Onderstaande data uitwisseling is de voorbode van een fiasco…
De coureur eindigt de race op de laatste positie met een uitgebrande auto in de grindbak! Hiermee behaalt de coureur deze race geen punten en valt terug naar de derde plaats in het totale klassement van het kampioenschap. Wat is hier mis gegaan? Bij een analyse van deze communicatie vanuit datakwaliteit perspectief vallen de volgende zaken op:
– In de communicatie wordt gesproken over de olietemperatuur en het wel of niet binnen de toelaatbare marges zijn van deze temperatuur. Onduidelijk is echter in de communicatie of gesproken wordt over graden Celsius of Fahrenheit! Uit het vervolg blijkt dat de Duitse coureur de temperatuur in graden Celsius bedoelde, terwijl de Amerikaanse pitsbox medewerker uitging van de olietemperatuur in graden Fahrenheit. De uitwisseling van data was in dit geval dus niet consistent, met alle gevolgen van dien.
– Er wordt informatie uitgewisseld over de positie van de nummer twee op de baan. Hier valt op dat in eerste instantie wordt aangegeven dat de coureur een halve ronde voorsprong heeft op de nummer twee, vervolgens dat er vermoedelijk een achterblijver achter de coureur rijdt. Uiteindelijk blijkt de vermoedelijke achterblijver de nummer twee te zijn! Hier is duidelijk sprake van een probleem met de correctheid en tijdigheid van belangrijke informatie. In eerste instantie heeft de pitsbox slechts een vermoeden dat het een achterblijver is. Te laat ontdekt uiteindelijk de coureur zelf dat het de nummer twee in de race was, die nu de race heeft gewonnen.
Wanneer de datakwaliteit in deze communicatie goed was geweest had de pitsbox de coureur kunnen aangegeven om iets langzamer te gaan rijden om de olietemperatuur niet verder op te laten lopen. Daarmee had de coureur op de tweede plaats in de race kunnen eindigen en zijn leidende positie in het klassement behouden.
Aspecten van datakwaliteit
Uit het Formule 1 Grandprix voorbeeld blijkt dat de kwaliteit van data heel bepalend kan zijn in de prestaties van een persoon of organisatie. Tevens zien we dat in de kwaliteit van data een aantal aspecten een rol spelen.
– Beschikbaarheid
Een eerste belangrijk aspect is het beschikbaar zijn van benodigde gegevens. Zonder beschikbare gegevens is het niet mogelijk om rationeel te sturen. In het Formule 1 grandprix voorbeeld was er slechts een vermoeden dat het een achterblijver betrof. Werkelijke data om dit te bevestigen was kennelijk (nog) niet beschikbaar. Dit scenario lijkt veel op de praktijksituatie in organisaties waar veelal op het onderbuik gevoel besluiten genomen worden bij gebrek aan betrouwbare data.
– Consistentie
In veel gevallen is binnen een organisatie data op meerdere plekken opgeslagen en aanwezig, vooral wanneer het gaat om afgeleide data voor besluitvorming. Niet zelden blijken gegevens die feitelijk gelijk zouden moeten zijn dit in de praktijk niet te zijn. Veelal wordt dit veroorzaakt door interpretatie verschillen bij de verwerking van orginele gegevens tot de afgeleide besturingsinformatie. Ook kunnen we hier te maken hebben met synchronisatie problematiek, gaat de data wel over hetzelfde tijdstip of over dezelfde periode. Om deze definitie verschillen zichtbaar te maken en te voorkomen is een goede definitie van begrippen en data elementen essentieel, ook wel master data management genoemd. In het voorbeeld van de Formule 1 Grandprix is een definitieverschil over temperatuur meting de coureur fataal.
– Tijdigheid
Om effectief te kunnen handelen wanneer de situatie daar om vraagt is het noodzakelijk gegevens tijdig paraat te hebben in een organisatie. Volledigheid en consistentie van data bereiken kan een tijdrovend proces zijn. De balans vinden tussen perfecte data en tijdige data is hierbij essentieel. Na de race melden dat de achterblijver eigenlijk de nummer twee was levert niets meer op. Als door tijdsdruk volledigheid en consistentie van data niet gewaarborgd kan worden moet dit altijd expliciet gemaakt worden. Deze onzekerheid kan dan meegewogen worden in eventuele besluiten op basis van deze gegevens. Wanneer in het Formule 1 Grandprix voorbeeld door de pitsbox aangegeven was dat de positie van de auto achter de coureur onbekend was, had de coureur wellicht nog een keer extra in zijn spiegel gekeken!
– Correctheid
Consistente, tijdige en beschikbare data klinkt al heel goed. Maar wat nu als de data de werkelijkheid niet goed weergeeft. Bijvoorbeeld door verkeerde invoer in een administratief systeem. Het probleem met de olietemperatuur in de Formule 1 Grandprix kan ook veroorzaakt zijn door een invoerfout van de temperatuur marge in de administratie van de pitsbox.
– Relevantie
Als laatste aspect, maar zeker niet het minst belangrijke, in datakwaliteit is de relevantie van de data. Vaak worden we tegenwoordig overstelpt met informatie, maar hoeveel van deze informatie is nu werkelijk relevant voor de beslissingen die genomen moeten worden of de vragen die beantwoord moeten worden. Dit is een veel voorkomend probleem in Datawarehouse omgevingen, hier wordt de gebruiker zo overspoeld met beschikbare data dat het selecteren van de relevante data een grote uitdaging is. De werkelijke waarde van de aanwezige wel relevante data wordt hierdoor onvoldoende benut.
Meten van datakwaliteit
Nu we bekend zijn met de aspecten die van belang zijn voor de datakwaliteit staan we voor de volgende uitdaging. Namelijk, hoe meten we de datakwaliteit in onze omgeving. Hierbij is het belangrijk om te beseffen dat datakwaliteit geen ICT probleem is. Het zijn de gebruikers en business eigenaren van de informatie systemen die verantwoordelijk zijn en baat hebben bij een goede datakwaliteit in hun systemen. Ook zijn zij de partij die kan beoordelen wat de datakwaliteit is en of die aansluit bij de noodzakelijke kwaliteit in de bedrijfsprocessen waarvoor zij verantwoordelijk zijn. Wel kan een ICT organisatie ondersteunen in het meten van de bestaande datakwaliteit, het verbeteren van bestaande datakwaliteit en het voorkomen van datakwaliteit problemen.
Toch kan het meten van bestaande datakwaliteit beginnen met een relatief eenvoudige inventarisatie van de data in de ICT systemen. Zeker wanneer deze systemen gebruik maken van een relationele database kan met eenvoudige queries een eerste overzicht gemaakt worden. Op basis hiervan kan door de ICT organisatie een lijst met verdachte situaties opgesteld worden die vervolgens door de systeemeigenaar en gebruikers verder geïnterpreteerd kan worden.
Voorbeelden van eenvoudig te produceren lijsten zijn:
– Aantallen verschillende waarden per attribuut in de tabel.
– Per attribuut de minimale, maximale en gemiddelde waarde.
– Van de tien meest voorkomende en minst voorkomende waarden in een attribuut het volledige record tonen.
– Controle van integriteit van de data in het model door het volgen van alle primary- en foreign key relaties.
– Het tellen van voorkomens van null-values in attributen.
– Totaal tellingen en sommaties op numerieke waarden.
– Voldoen de waarden in code attributen aan de gestelde domeinwaarden.
Op deze wijze kan met eenvoudige hulpmiddelen snel een groot deel van de datakwaliteit problemen geïdentificeerd worden. Op basis van de evaluatie van de resultaten uit deze eerste metingen door de systeemeigenaar en gebruikers kan verdere actie ondernomen worden. Wanneer de behoefte bestaat om verdere analyses uit te voeren kan gebruik gemaakt worden van specifieke hulpmiddelen. Deze hulpmiddelen vallen onder de categorie "data profiling tools" en zijn vaak onderdeel van een data integratie of data warehouse product portfolio. Zo bevatten bijvoorbeeld de data integratie en data warehouse producten van Oracle, IBM en Informatie allen een data profiling component. Met een data profiling tool kan op basis van complexe beslissingslogica de datakwaliteit diepgaander bepaald worden. Bijkomend voordeel van deze producten is dat de metingen die eenmaal ingesteld zijn als reguliere meet- en controle processen kunnen worden uitgevoerd.
Verbeteren van datakwaliteit
Op basis van het meten van de datakwaliteit kan besloten worden tot datakwaliteit verbetering op die plaatsen waar de grootste behoefte is vanuit de informatievoorziening in de bedrijfsprocessen van een organisatie. Het verbeteren van datakwaliteit kan uitgevoerd worden door het toepassen van business-rules op de bestaande data. Deze business rules worden bepaald door de systeem eigenaar en gebruikers en toegepast door de ICT organisatie op de beschikbare data. Hierbij kan ervoor gekozen worden om deze business rules toe te passen op de data en de data daarmee werkelijk te wijzigen. Ook kan ervoor gekozen worden op de business rules toe te passen bij het selecteren van de data, hierbij blijft de orginele data behouden en wordt de data getoond na toepassing van de business rule. Het voordeel van deze laatste methode is dat oorspronkelijk ingevoerde data altijd aanwezig blijft en herleidbaarheid van informatie op die manier maximaal gegarandeerd kan worden. Een tweede mogelijkheid is het verrijken van bestaande data op basis van externe informatie. Hierbij kun je denken aan het aankopen van persoons- of bedrijfsgegevens van partijen zoals de KVK (Kamer van Koophandel) of D&B (Dun & Bradstreet).
Voorkomen van datakwaliteit problemen
Het meten en verbeteren van datakwaliteit is een continu proces waarmee we het totale datakwaliteit niveau binnen een organisatie proberen te verhogen. Naast meten en verbeteren is het essentieel om datakwaliteit problemen aan de bron te voorkomen, anders blijft het dweilen met de kraan open. Een eerste belangrijke component hierbij is het goed inrichten van master data management. Met een goede inrichting van master data management wordt een organisatie in staat gesteld haar data definities en onderlinge verbanden tussen de definities te documenteren en te beheren. Belangrijk hierbij is dat dit niet alleen een omgeving is waarin gedocumenteerd wordt, zoals vele van de huidige metadata management oplossingen, maar dat de omgeving ook geïntegreerd kan worden in de IT-systemen van een organisatie. Zodat bijvoorbeeld de domeindefinitie van een attribuut olietemperatuur actief gebruikt wordt om in alle operationele IT-systemen waar dit attribuut voorkomt automatisch deze domeindefinitie toe te passen.
Conclusie
Het proces van meten, verbeteren en voorkomen moet worden gezien als een integraal onderdeel van informatie management binnen een organisatie. Essentieel hierbij is de betrokkenheid van systeemeigenaren en gebruikers als business eigenaren van de gegevens. Zij zijn bepalend in het vaststellen van de bestaande datakwaliteit en het te bereiken niveau van datakwaliteit. Met een goede inbedding van datakwaliteit meet- en verbeterinstrumenten in de informatie architectuur, zoals weergegeven in figuur 3: Informatie architectuur, kan een ICT organisatie haar klanten hierbij ondersteunen. Hierbij onderscheiden we drie lagen. Ten eerste de datamanagement laag. Master Data Management en Datakwaliteit zijn hierin de randvoorwaardelijke componenten voor een goede invulling van een informatie architectuur. Op basis van een goede invulling van de datamanagement laag wordt de dataprocessing laag opgebouwd. Hier zijn alle gegevensverwerkende processen gepositioneerd zoals die voorkomen in data integratie, data migratie en Data Warehousing. Pas in de laatste laag moet de echte toegevoegde waarde blijken. Hier vindt het werkelijke gebruik van de data plaats in de informatieproducten voor een organisatie.