Nagenoeg elke organisatie is druk bezig met het integreren van gegevens. De meeste beperken deze exercitie echter tot het integreren van hun interne gegevens. Dit is al een uitdaging, omdat die gegevens vaak niet passen. Er worden bijvoorbeeld, andere sleutels gehanteerd en namen zijn niet consistent gespeld. Het probleem wordt nog ingewikkelder als we gegevens van verschillende organisaties willen integreren.
Laten we als voorbeeld een fictief bedrijf nemen genaamd OpDePof. Klanten kunnen bij OpDePof een klantenkaart aanvragen. De klanten kunnen met hun kaart op krediet kopen, maar niet voor meer dan vijfhonderd euro op een bepaald moment.
Er kunnen simpele controles in hun systemen ingebouwd worden om te zorgen dat elke klant onder die limiet blijft. Maar hoe vinden we uit dat die klant misschien drie klantenkaart heeft aangevraagd? Hoe weten we dat die drie eigenlijk dezelfde klant zijn? Als de klant slim is dan heeft hij voldoende afwijkende gegevens op het aanvraagformulier ingevuld, zodat niet met een simpele query bepaald kan worden dat het om dezelfde persoon gaat. Geavanceerde technologie is noodzakelijk om klanten te identificeren. Er komen steeds meer producten op de markt die ons hierbij kunnen helpen. De Engelstalige term voor deze oplossing is identity resolution. Grote leveranciers, zoals IBM, maar ook kleinere, zoals FirstLogic, bieden hier met speciale software oplossingen voor.
De volgende stap is dat OpDePof wil weten of een groep verschillende mensen die een hechte relatie hebben allemaal een kaart aanvragen. Bijvoorbeeld, alle leden van een familie, of bijvoorbeeld een groep studenten die samenwoont. Misschien wil OpDePof voor zo’n groep ook beperkingen opleggen, zoals het aantal te verstrekken klantenkaarten. Hiervoor moeten klanten op basis van verschillende eigenschappen gerelateerd worden. Bijvoorbeeld, waar wonen ze (strasat, plaats, et cetera), van welke verenigingen en organisaties zijn ze lid, wat zijn de familierelaties? Is die informatie bekend, dan kunnen we relatienetwerken van verschillende klanten opbouwen en deze daarna met elkaar combineren en kijken of er veel overlap is. Dit wordt relationship resolution genoemd.
OpDePof wil nog een stap verdergaan. Ze willen hun gegevens relateren aan die van een concurrerend bedrijf. Stel dat laatstgenoemde een bestand heeft met klanten die zich niet zo netjes gedragen hebben. Het zou dan mooi zijn als OpDePof hun klantenbestand kan vergelijken met die zwarte lijst. Die concurrent zal echter niet staan te springen om zomaar deze gegevens te verstrekken. OpDePof wilt haar gegevens ook niet uit handen geven. Met anonymous resolution worden gegevens uit beide bestanden eerst omgezet naar algemene gegevens. Een naam als Rob wordt omgezet naar Robert, de afkorting voor de stad SF wordt omgezet naar San Francisco. Daarna worden beide bestanden naar neutrale codes omgezet, alsof er een encryptie plaatsvindt. Tenslotte wordt de vergelijking van gegevens uitgevoerd op basis van die anonieme codes. De overeenkomende klanten worden hierna naar de twee betreffende bedrijven teruggestuurd. Zij decoderen dan die binnenkomende gegevens en hopelijk vinden ze hiermee de klanten die ze liever geen klantenkaart willen verstrekken. De bedrijven zien elkaars gegevens niet, maar een vergelijking is toch mogelijk.
Dit zijn allemaal producten en technologieën die voor diverse commerciële en niet-commerciële organisaties de kwaliteit van de gegevens kunnen verbeteren, en zeker ook de informatiewaarde van gegevens kunnen verhogen. Helaas zet maar een klein percentage van de organisaties producten in om hun gegevens op te schonen. Deze nieuwe categorie producten gaat nog een stap verder, en de vraag is dan ook hoe succesvol zullen ze worden? De acceptatie wordt ongetwijfeld beïnvloed door wie erantwoordelijk voor de gegevenskwaliteit wordt. Eerst moeten organisaties personen of afdelingen aanwijzen die verantwoordelijk zijn voor gegevens. Daarna kan er pas over de kwaliteit van gegevens nagedacht worden en gaat men de waarde van identity resolution, relationship resolution en anonymous resolution inzien.
Een vraag die ik mijzelf wel stel is in hoeverre dit integreren van gegevens, anoniem of niet, in strijd is met de privacy-wetgeving. Maar dat deze nieuwe technologieën voor veel organisaties waardevol kan zijn, dat staat als een paal boven water.
Rick F. van der Lans is onafhankelijk adviseur, een internationaal bekend spreker en auteur van diverse boeken, tevens gespecialiseerd in softwareontwikkeling, datawarehousing en internet.