Met ons allen hebben we op deze planeet al voor miljarden euro’s aan datawarehouse-projecten uitgegeven. Sommige projecten slaagden, andere waren minder succesvol. Een van de bekende ‘showstoppers’, zoals de Amerikanen dat zo mooi kunnen zeggen, is de aanwezigheid van vervuilde gegevens in productiesystemen.
Het heeft weinig zin om een datawarehouse te bouwen als de aangeleverde gegevens zwaar vervuild zijn. Rapporten creëren die er mooi uitzien, maar waarvan de gegevens onbetrouwbaar zijn, heeft niet veel zin. Het kan zelfs gevaarlijk zijn voor de bedrijfsvoering.
De hoeveelheid vervuilde gegevens in productiesystemen is bij sommige organisaties groot. Zeker gegevens die ooit met de hand zijn ingetikt. Inconsistente waarden, inconsistente coderingen, foutief gespelde namen, onmogelijke waarden, het zijn allemaal veel voorkomende vormen van vervuilde gegevens. En dan hebben we het we nog niet eens over de vervuilde gegevens die we niet eens als vervuild kunnen identificeren.
Sommige organisaties hebben dit probleem onderkend en, belangrijker nog, hebben zich de waarde van schone gegevens gerealiseerd. In dat geval wordt er budget vrijgemaakt om die gegevens handmatig of met ondersteuning van software op te schonen. Maar het gaat slechts om een handjevol organisaties. De rest worstelt met dit probleem en heeft geen structurele oplossing.
Een categorie softwareproducten die we kunnen gebruiken voor het opschonen van gegevens is het data-profiling tool. Een data-profiling tool bestudeert de gegevens en geeft aan waar zij denkt dat er iets niet klopt. Hiervoor is geen metadata nodig. Dus het kan ook platte bestanden analyseren die ooit met talen als Cobol zijn aangemaakt.
Data-profiling tools bekijken bijvoorbeeld welke kolommen in een bestand of tabel potentiële primaire sleutels zijn. Ze kunnen bestuderen of de aangegeven primaire sleutel wel degelijk unieke waarden bevat, aan welke syntactische patronen de waarde van een kolom voldoet, welke relaties er verstopt zitten in bestaande tabellen en tussen tabellen, en wat de distributie van waarden in een kolom is. In feite geeft een data-profiling tool een objectief beeld van de toestand van de gegevens. Het helpt een analist gegevens op te sporen die waarschijnlijk niet kloppen.
Let wel, het tool repareert de gegevens niet. Het beperkt zich tot het signaleren van mogelijk vervuilde gegevens. Het blijft de taak en de verantwoordelijkheid van de analist om actie te ondernemen.
Het aantal commercieel beschikbare data-profiling tools groeit gestaag. Momenteel kennen we Ascential Profile Stage, Avellino Discovery, Evoke Axio, First Logic IQ Insight en Mosaic Imperative Profiler.
Data-profiling tools vervangen dus niet de zogenaamde ‘data-cleaning tools’, zoals die van ETI, Human Inference en Trillium. Grofweg zijn er twee grote verschillen. Ten eerste repareren data-cleaning tools – in tegenstelling tot data-profiling tools – wel degelijk de gegevens. Verder werken data-cleaning tools het best op gegevens die bestaan uit namen en codes. Data-profiling tools werken op allerlei soorten gegevens, zelfs de meest inhumane verzamelingen bytes.
Werkt een data-profiling tool alleen als er een datawarehouse gebouwd is? Nee, een data-profiling tool is nuttig voor elke verzameling gegevens die geanalyseerd moet worden. Dus ook als je slechts wilt kijken naar de kwaliteit van de gegevens in jouw productiesystemen, kunnen ze hun waarde hebben.
Kennen data-profiling tools geen zwakke punten? Uiteraard wel. De prijs van deze producten ligt veel te hoog. De meeste zouden een factor tien goedkoper moeten zijn. De prijs staat niet in verhouding tot de hoeveelheid en complexiteit van de software. Ook zijn enkele van de leveranciers nog erg klein. Investeren hierin houdt dan altijd een risico in.
Afgezien van deze nadelen geldt dat je jezelf tekort doet als je gegevenskwaliteit hoog in het vaandel hebt staan, maar nog nooit naar een data-profiling tool hebt gekeken. Elke organisatie hoort een strategie te hebben om de gegevenskwaliteit te waarborgen. En een data-profiling tool hoort in de gereedschapkist te zitten van diegenen die voor de gegevenskwaliteit verantwoordelijk zijn.< BR>
Rick F. van der Lans is onafhankelijk adviseur, een internationaal bekend spreker en auteur van diverse boeken, tevens gespecialiseerd in softwareontwikkeling, datawarehousing en internet.