Datamining als achtergrond-proces

Informatie zoeken in een ‘datamijn’ is een onderdeel van een interactief proces. Als het wordt aangepakt zoals Martin Healey beschrijft, wordt er juist meer informatie gegenereerd. En dat kan toch niet de bedoeling zijn vindt ir. E. van Hasselt.

Martin Healey wijdde zijn column op 3 oktober 1997 aan datamining, een boeiend onderwerp dat tot nu toe nog maar weinig aandacht in de media heeft gekregen. Een paar opmerkingen bij zijn column.
In een maatschappij waarin informatie met de dag een belangrijkere rol speelt, neemt de hoeveelheid informatie tegelijkertijd echter zo toe dat zij steeds minder hanteerbaar wordt. Datamining-technologie is met name ontwikkeld om deze problematiek het hoofd te bieden.
Healey schets in zijn column een situatie, waarbij datamining-agents als achtergrond-proces worden ingezet en in willekeurige richting gaan zoeken naar verborgen informatie. In dat geval echter wordt er nog meer willekeurige informatie gegenereerd. Op die manier vergroot datamining het probleem van grote hoeveelheden beschikbare informatie, terwijl het juist ontwikkeld werd om een oplossing te bieden voor dat probleem. Wellicht is het dan toch zinvoller om ’s werelds grootste priemgetal uit te rekenen, omdat de hoeveelheid beschikbare informatie dan met slechts één nieuw feit wordt uitgebreid.

Relevante informatie

Indien goed toegepast, wordt datamining gebruikt om binnen de beschikbare informatie relevante zaken naar boven te halen. Dat begint dus altijd met een bepaalde vraag, want zonder vraag is geen enkele informatie relevant. Datamining maakt hierbij deel uit van een volledig traject, waarin wordt gezocht naar nieuwe informatie binnen bestaande data. Binnen dit traject wordt, gegeven een bepaalde vraag en gegeven een bepaalde dataset, een zoekrichting vastgesteld alvorens de datamining-algoritmen aan het werk worden gezet. Vervolgens graven deze algoritmen niet alle kanten op, maar gaan gericht af op hun doel. Hierdoor wordt de slaagkans van het ‘mijn-graven’ aanzienlijk vergroot. En zo klopt de analogie met de mijnbouw ook weer heel aardig.
Datamining maakt dus onderdeel uit van een vrij interactief proces. Als een gebruiker een bepaalde vraag heeft geformuleerd en vervolgens de datamining-algoritmen aan het werk heeft gezet, wil die gebruiker ook snel een antwoord. Datamining fungeert daarom minder goed achtergrondproces. Er zijn dan ook weinig datamining-tools die de mogelijkheid bieden gebruik te maken van ‘background processing’.
Hoewel men bij datamining zelf bepaalt welke algoritmen op welk moment worden ingezet, is het niet nodig om de datamining-algoritmen tot op het bot te kunnen doorgronden en te begrijpen.

De meeste trefkans

Wel is het van belang om gevoel te krijgen voor welk algoritme in welke situatie de meeste trefkans biedt. Dit gevoel kan eigenlijk alleen door middel van ervaring worden aangekweekt.
Het boek ‘Data Mining’ van Adriaans en Zantinge (ISBN 0-201-40380-3) geeft overigens al een aardig overzicht om mee te starten.
Healey heeft tenslotte volledig gelijk met de opmerking "…de trend naar dunne PC-client, waarbij alleen de presentatie op de PC draait, moet echter worden aangemoedigd…". Daarom hebben Syllogic en Tandem dit gezamenlijk reeds gerealiseerd. Hierbij draait slechts de presentatie op de PC en kunnen de overige processen op een willekeurige machine draaien. Dat kan variëren van de PC zelf tot een zware MPP server. In dat laatste geval kunnen datasets van miljoenen records binnen seconden geanalyseerd worden.

Ir. E.J. van Hasselt
Consultant Syllogic