Data lineage (letterlijk: dataoorsprong of -afkomst) is geen nieuw begrip, maar staat op dit moment sterk in de spotlights. Met name organisaties die veel data verwerken of opereren in gereguleerde markten ervaren in toenemende mate het belang ervan.
Recente ontwikkelingen zoals BCBS 239 voor de bankensector of Solvency II in de verzekeringssector laten een trend zien waarbij instellingen moeten aantonen dat zij controle hebben over het gehele proces van databron tot besluitvorming. Dat stelt financiële organisaties voor een flinke uitdaging om binnen acceptabele kosten en tijdslijnen aan te kunnen tonen welke data en bewerkingen ten grondslag liggen aan een bepaald cijfer in een rapportage.
Een uitdaging die nog wordt gevoed door de exponentiële stijging van de hoeveelheid data die wordt gecreëerd, vastgelegd en gebruikt. Data die zich veelal beweegt door een grote hoeveelheid van (afdelingsoverstijgende) bedrijfsprocessen, applicaties en datawarehouses.
Vanuit onze praktijkervaring binnen de financiële sector willen we in dit artikel extra aandacht geven aan ‘data lineage’. Welke voordelen biedt het eigenlijk? Welke obstakels komen we tegen bij implementaties en wat zijn handvatten om de kans op succes te vergroten?
Wat is data lineage?
Data lineage wordt gedefinieerd als de data life cycle en omsluit het ontstaan van de data, transformaties en de bewegingen ervan door de tijd heen. Het beschrijft wat er met de data gebeurt in bedrijfsprocessen en systemen. Data lineage is sterk afhankelijk van de integratie met andere datamanagement domeinen zoals datakwaliteit, security management en business glossaries.
Goed ingerichte data lineage geeft mogelijkheden om te bepalen hoe datakwaliteit zich door een keten van processen en systemen heen ontwikkelt en kan metadata zoals definities, data eigenaren, bronsystemen, etc. koppelen aan datapunten waardoor meer waarde wordt gegenereerd voor gebruikers. Het kan met behulp van metadatamanagement tooling ondersteund worden, zodat het ETL-proces (extract-transform-load) tot in detail geautomatiseerd kan worden gepresenteerd (datalineage ‘as build’). Dit is overigens niet altijd mogelijk of nodig.
Data lineage kan ook handmatig vanuit ontwerpdocumentatie zoals source-to-target mappings worden vastgelegd (data lineage ‘as designed’).
Voordelen van data lineage
Data lineage initiatieven worden vaak gedreven door eisen uit wet- en regelgeving (omdat het moet). Er zijn echter ook interne drivers te benoemen (omdat het kan), zoals:
- Bijdragen aan een efficiëntere inrichting van it en beheer van it:
- Changemanagement
- Uniforme toepassing van business rules
- Terugdringen data redundantie
- System lifecycle management (migreren/uitfaseren van it-systemen)
- Verbeterde betrouwbaarheid en juistheid van data en rapportages
- Efficiënter opsporen en oplossen van fouten in rapportages
- Verbeterde DQ monitoring en analysis: het sneller kunnen vinden van oorzaken van DQ issues (waar in de keten gaat iets mis)
- Het beter kunnen valideren van de juistheid van rapportages en het afleggen van verantwoording daarover
- Het bijdragen aan consistent datagebruik binnen de organisatie (verschillende attributen worden voor zelfde doeleinde gebruikt of vice versa)
- Ondersteuning bij het inwerken van nieuwe medewerkers
- Efficiëntere en betere uitvoering van audits
Obstakels bij implementatie
Opgejaagd door de toezichthouder starten veel financiële organisaties enthousiast een data lineage project op. Al snel wordt duidelijk dat uitvoering een complexe aangelegenheid. De drie belangrijkste obstakels die we in de praktijk tegenkomen zijn het ontbreken van een visie en business case die daarop aansluit, gebrekkige governance en lage volwassenheid in het it-landschap.
1. Gebrek aan visie en een goede business case
Er is vaak geen visie op het functioneren en gebruik van data lineage binnen de organisatie. Als er al een business case voor data lineage is opgesteld, dan wordt daaruit vaak niet duidelijk wie nu precies welke business value krijgt. Het ontbreekt daardoor vaak aan draagvlak van betrokken stakeholders. Dit komt veel voor indien er sprake is van een externe trigger voor data lineage in een gereguleerde omgeving. Opgejaagd door deadlines, wordt begonnen met een data lineage project met als argument dat de business case de wettelijke verplichting is.
2. Gebrekkige governance
Bij aanvang van het project is vaak niet duidelijk hoe en waar dit moet gaan landen in de staande organisatie. De tijd dat data lineage enkel werd gebruikt door it, ligt achter ons. Wie zijn de beoogde gebruikers naast it? Audit, een datamanagement office, de business, allen? Wat zijn de diverse en mogelijk tegengestelde requirements die deze gebruikers stellen aan bijvoorbeeld de granulariteit, presentatie en integratie met andere data management domeinen? Wie treedt op als opdrachtgeverschap en wie is probleemeigenaar?
Data lineage is vaak een organisatie/afdelings-, proces- en systeem overstijgende aangelegenheid en het besturingsmodel en de cultuur zijn daar niet altijd op ingericht. Als het projectresultaat al positief is, bestaat het risico dat dit van korte duur is. Het eigenaarschap van data lineage is niet belegd en het ontbreekt aan borging door bijvoorbeeld architectuureisen te stellen aan de openheid en connectiviteit van nieuwe systemen.
3. Lage volwassenheid it-landschap
Maar zelfs met een goede business case, een opdrachtgever die ervan wakker ligt, een actieve gebruikersgroep en data eigenaren kan de implementatie van data lineage tegenvallen door de volwassenheid van het it-landschap:
- Blackspots in systeemketen waardoor lineage minder geautomatiseerd kan plaatsvinden
- Metadata is niet efficiënt te ontsluiten en samen te brengen t.b.v. ondersteuning van data lineage
- Achterblijvende performance om de gehele data lineage van een data element via diverse connecties te kunnen presenteren over een gehele keten.
Hoe dan wel?
Op basis van onze ervaring zien we een aantal handvatten waarmee organisaties de kans op een succesvolle implementatie van data lineage vergroten.
Visie/Business case
- Begin met een heldere visie op data lineage en definieer een lange termijndoelstelling.
- Zorg voor een solide business case die voortvloeit uit de visie waaruit blijkt welke benefits gerealiseerd worden en voor wie op welk moment in de tijd.
- Genereer business value voor elke schakel in de keten.
- Creëer draagvlak van betrokkenen in de keten en zorg dat het management het begrijpt.
Governance
- Zorg bij aanvang van het project dat tenminste de hoofdlijnen van de business as usual governance geaccepteerd zijn. Data lineage vereist in de meeste organisaties een centrale sturing omdat het afdelingen, processen en systemen overstijgt.
- Combineer probleemeigenaarschap en opdrachtgeverschap.
- Het vorige punt kan in de praktijk vaak alleen effectief zijn, als er commitment is op directieniveau (ceo/cdo). De opdrachtgever heeft het mandaat en budget nodig dat aansluit bij de scope van de data lineage implementatie.
- Zorg dat vertegenwoordigers uit verschillende gebruikersgroepen zijn aangehaakt vanaf de start.
Aanpak
- Begin met een pilot die is gedefinieerd met een duidelijk afgebakende scope en wordt gedreven vanuit risico/business value. De scope zou altijd wel E2E moeten zijn (van bron tot rapportage), maar bijvoorbeeld beperkt kunnen worden tot data die voor een specifieke functie/rapportage wordt gebruikt).
- Hanteer per gebruikersgroep één of meerdere use cases de verschillende en mogelijk tegengestelde requirements duidelijk worden gedefinieerd. Een use case beschrijft een praktijksituatie met beoogde oplossing, waardoor een duidelijk beeld wordt verkregen van hoe data lineage gebruikt gaat worden en het product eruit moet zien.
- Zorg ervoor dat het data lineage product aansluit bij de verschillende gebruikersgroepen (managers, business analisten, gebruikers van rapportages etc.) door bijvoorbeeld verschillende detailniveau ’s te hanteren in de presentatie van data lineage.
- Maak een keuze t.a.v. de vastlegging van data lineage (‘as build’/’as designed’ of een combinatie) en laat deze beïnvloeden door de factoren zoals opgenomen in onderstaande tabel. Hierin is weergegeven in hoeverre de waarde (hoog/laag) van een bepaalde variabele bijdraagt aan de te maken keuze.
Variabele |
Laag |
Hoog |
Complexiteit om metadata te verzamelen (aantal blackspots, tijd/resources benodigd voor E2E metadata) |
as build* |
as designed** |
Change level data lineage (gemiddeld aantal changes in data / systemen) |
as designed |
as build |
Benodigd detailniveau (per data attribuut, entiteit, groepen) |
as designed |
as build |
Diversiteit van requirements (aantal gebruikersgroepen, aantal betrokken afdelingen, aantal verschillende doelstellingen voor gebruik data lineage) |
as designed / as build |
beiden |
Data governance volwassenheid (gebaseerd op data management volwassenheidsmodellen) |
as designed |
as build |
*As Build: automated from ETL supported by MDM tooling |
- Meet voor en na de pilot om beoogde effecten in de business case concreet aan te tonen. Bijvoorbeeld door aan te tonen dat data lineage bijdraagt aan het sneller kunnen bepalen van de impact van wijzigingen en zodoende de doorlooptijd van changes in het change management proces verkort.
- Data lineage implementaties zijn vaak onderdeel van een groter datamanagement programma en hebben dan ook een relatie met aanpalende onderwerpen zoals data definities, data kwaliteit, data governance en de realisatie van data warehouses. Risico is dat de data lineage implementatie meegezogen wordt in het logge programma. Zorg voor samenwerking, maar zo min mogelijk afhankelijkheden, zodat vanaf de start autonome voortgang geboekt kan worden.
Inbedding
- Maak data lineage een onderdeel van de project life cycle methodologie
- Stel vanuit architectuur eisen aan nieuwe systemen m.b.t. openheid t.b.v. het kunnen ontsluiten van metadata.
Deze factoren verhogen van de kans op een succesvolle implementatie van data lineage. Datagedreven organisaties die het potentieel van data lineage weten te benutten, zijn efficiënter in hun bedrijfsvoering, staan minder bloot aan risico’s door fouten en nemen betere beslissingen. Naast compliance met wet- en regelgeving zijn er dus voldoende redenen om data lineage op de agenda te zetten of bestaande initiatieven eens onder de loep te nemen.
Auteurs
Ben Pronk (programmamanager) en Thijs Grievink (management consultant) zijn werkzaam bij management en adviesbureau Bisnez Management. Beiden zijn actief op het gebied van datamanagement binnen de financiële sector. Ze zijn betrokken bij de ontwikkeling van datawarehouses en implementaties die gericht zijn op datakwaliteit en data lineage.