‘In plaats van te wachten op nieuwe organische programmeermethoden, kunnen datamijnen nu reeds profiteren van een integrale op ontologie gebaseerde aanpak.’ Mark Willems is niet onder de indruk van argumenten om te kiezen voor een ‘natuurlijke, organische integraal-oplossing’.
De heer König is het in zijn artikel ‘Ondoordachte ontologieën helpen de datamijn niet’ (Computable, 30 april) pertinent oneens met het gebruik van ontologieën bij het ontwerpen en onderhouden van de datamijn zoals de heren Jonkers en Sanders propageren (‘Het nieuwe gegevenspakhuis gaat bovengronds, 2 april). De argumenten die hij te berde brengt hebben echter een hoog ‘wanneer je niet nadenkt wordt het niets’-gehalte. Ja nogal wiedes.
De heer König is het wel eens met de uitspraak dat het probleem bij datamijnen te zoeken is bij de betekenis van gegevens, maar wil dit oplossen middels een ‘natuurlijke, organische integraal-oplossing’. Het ligt voor de hand om de heer König met zijn eigen woorden te bekritiseren: ondoordachte organische oplossingen helpen de datamijn ook niet. Dit lijkt me echter te eenvoudig.
Het begrip ontologie zoals die binnen de kennistechnologie wordt gehanteerd, is meer dan een simpele synoniemen-lijst. Voor bepaalde toepassingen, zoals bij zoekmachines op Internet, is die interpretatie inderdaad meestal wel voldoende, maar een datamijn vraagt om een grotere uitdrukkingskracht. Hiermee komt een op ontologie gebaseerde oplossing mijns inziens aardig in de buurt van een natuurlijke organische oplossing.
Een op ontologie gebaseerde aanpak voor een datamijn omvat namelijk meer dan alleen een business-ontologie. Het formaliseren van de wederzijdse vertaling tussen verschillende begrippen afkomstig van verschillende informatiebronnen (bijvoorbeeld die van de ‘business-man’ en die van de ‘IT’er’) is een minstens zo belangrijk onderdeel van ontologieën. En hier ligt nu precies het kennistechnologische aspect: een dergelijke vertaling tussen begrippenkaders (een meer Nederlands-klinkend woord voor ontologie) vraagt om regels waarvan de uitdrukkingskracht die van een synoniemen- of homoniemen-bijlage te boven gaat.
Relaties
Wellicht dat men op het verkeerde been is gezet doordat de heren Jonkers en Sanders het hebben over ‘het leggen van relaties tussen concepten’. Inderdaad suggereert dit eenvoudige binaire relaties als synoniemen en homoniemen. Echter, een logische relatie kan ook ingewikkelder zijn. Neem bijvoorbeeld de relatie tussen meeteenheden (bijvoorbeeld X °Fahrenheit = (X-32)*5/9 °Celsius) of de relatie tussen gegevens op verschillend aggregatieniveaus (bijvoorbeeld loon(JaarX) = SOM loon(MaandY) VOORALLE MaandY IN JaarX).
Als de uitdrukkingskracht van dergelijke transformatieregels maar groot genoeg is, kan een datamijn (of eigenlijk de informatiemakelaar) uitspraken doen over de vraag:
- of de datamijn een bepaalde vraag überhaupt kan beantwoorden;
- welke databases (of liever, informatiebronnen) hiervoor nodig zijn;
- of de benodigde gegevens al ingevuld zijn;
- of de gegevens uit verschillende bronnen consistent zijn.
Naast de boven geschetste ‘profiling’ (waar vind ik wat) zijn kennisrijke ontologieën ook te gebruiken voor: - het vertalen van gegevens: een bestelling uit de VS (in dollars en inches) vertalen voor Europese leveranciers (naar euro’s en centimeters)
- het valideren van gegevens: het jaarloon is groter dan een maandloon, autobezitters zijn ouder dan 15 jaar, de begindatum is eerder dan de einddatum, enzovoort.
- het (heuristisch) verbeteren of aanvullen van gegevens: ‘Mark’ is een mannen-naam, dus is de persoon met die naam (waarschijnlijk) een man.
Eigen woorden
Dergelijke toepassingen zijn niet puur het alleenrecht van ontologieën. Het grote voordeel van ontologieën is echter dat men de validatie- of verbeterregels slechts éénmalig hoeft te definiëren. Door nieuwe informatiebronnen met deze ontologieën te verbinden (middels transformatieregels) wordt het mogelijk om dergelijke functionaliteit te gebruiken. Het voordeel is dat ook ‘legacy’-systemen gerelateerd kunnen worden aan de kern-ontologie en derhalve gevalideerd of aangevuld kunnen worden.
Men kan natuurlijk zelf een kern-ontologie voor de eigen business opbouwen, maar het is ook mogelijk voorgedefinieerde ontologieën (zie voor een overzicht Ieee Expert, 1999) in te kopen. Deze ontologieën zijn vaak uitgewerkt voor specifieke domeinen (meeteenheden, configuratie, handel, financiële markten, wetgeving, etc.) en kunnen naar believen gecombineerd worden.
De kern van het betoog van Jonkers en Sanders is dat door een datamijn uit te rusten met een business-ontologie het mogelijk wordt om de informatiebehoefte in de ‘eigen woorden’ te formuleren. Dankzij de logische transformaties wordt deze behoefte vertaald naar alle onderliggende ontologieën van de IT’er. In plaats van te wachten op nieuwe organische programmeermethoden, kunnen datamijnen nu reeds profiteren van een integrale op ontologie gebaseerde aanpak.
Mark Willems, kennisanalist, Bolesian