‘Datawarehousing’ is de kunst om gegevens uit verschillende databases bij elkaar te vegen voor bedrijfsbrede informatieverwerking. Dit proces moet zoveel mogelijk geautomatiseerd kunnen worden. En dat kan alleen als de spelregels voor de metadata vastliggen. Dáár zit ‘m de uitdaging voor de komende tijd. Jan Bakker mengt zich in de discussie over relationele databases.
Het succes van relationele databases in de afgelopen twintig jaren is niet alleen te danken aan het feit dat er transactieverwerkende systemen mee gebouwd konden worden, die redundantie en inconsistentie kunnen voorkomen. Twintig jaren geleden bestonden er andere systemen die zeer geschikt waren voor transactieverwerking en tot op de dag van vandaag een prestatie halen waar relationele databases niet aan kunnen tippen. Maar hiërarchische en netwerkdatabases hadden een groot nadeel: het was uitermate lastig om er gegevens uit te krijgen. Dat is een aspect waar Peter Teeuwen wel op wijst, maar waar ik wat meer de nadruk op zou willen vestigen. Een database is niet alleen een plek om gegevens in op te slaan, je moet er ook weer bij kunnen om wat met die data te kunnen doen: informatie, bedrijfsintelligentie creëren.
De afgelopen twintig jaren hebben we een interessante ontwikkeling gezien. Aan de transactieverwerkende kant werden de (zogenaamde) ‘oude’ databasesystemen opgeruimd, maar aan de informatieverwerkende kant kwamen er stiekem weer nieuwe databasesystemen bij. Zoals systemen voor zeer grote gegevenspakhuizen, waar de traditionele relationele databases te kort schieten. Of de multidimensionele databasesystemen voor olap. Binnen één relationele database kunnen we redundantie en inconsistentie wel voorkomen, maar ieder bedrijf kent meerdere (vaak zeer vele) verschillende relationele systemen. Wie gegevens bij elkaar wil vegen in één gegevenspakhuis heeft dan toch weer de grootste problemen om de redundantie en inconsistentie tussen de systemen glad te strijken! Wie bedrijfsbreed informatie wil gaan verwerven, zit dus weer met de gebakken peren.
Goede organisatie metadata
We kunnen wel veel leren van de successen van de relationele databases. Dat succes is vooral te danken aan SQL: een abstracte taal waarmee ‘eenvoudig’ gegevens zowel in de database gestopt als eruit gehaald kunnen worden. Dat kunnen we op een vrij abstracte manier doen, zonder dat we ons zorgen hoeven te maken wáár de data staan en hoe zij daar staan. Het succes van de relationele databases wordt veroorzaakt doordat de gegevens over de gegevens (metadata) goed georganiseerd zijn. We hebben geleerd dat de beschrijving van de gegevens minstens zo belangrijk is als de gegevens zelf. Dankzij een klaar en helder model van de metadata, kunnen we SQL gebruiken om de data zelf te benaderen. Het sterke punt van relationele databases is dat de metadata georganiseerd zijn op dezelfde wijze als de data, namelijk relationeel.
‘Datawarehousing’ is de kunst om gegevens uit verschillende databases bij elkaar te vegen voor bedrijfsbrede informatieverwerking. Dit proces moet zoveel mogelijk geautomatiseerd kunnen worden. En dat kan alleen als de spelregels voor de metadata vastliggen. Dáár zit ‘m de uitdaging voor de komende tijd: hoe combineren we automatisch gegevens uit verschillende databases? Het mag niet uitmaken wat voor type database we gebruiken, de applicatie bepaalt wat het best is. Zoals Peter Teeuwen terecht schrijft: "zaken als terugvindbaarheid, toegankelijkheid, prestaties, proceskoppelingen, onderhoudbaarheid" bepalen wat er gekozen wordt. Soms zullen netwerkdatabases of hiërarchische databases het geschiktst zijn, soms relationele databases, of aparte datawarehouse-databases, of multidimensionele databases. Of databases die goed met teksten om kunnen gaan. Gegevens uitwisselen moet automatisch kunnen: automatische ‘mapping’ is alleen mogelijk als de spelregels betreffende metadata beter begrepen en gestandaardiseerd worden.
Het is niet het einde van de relationele databases. Ze voldoen echter niet voor alle problemen die er momenteel zijn. Er zal ontwikkeling moeten komen in metadata-databases.
Jan G.M. Bakker, Ede