De enorme groei aan data is moeilijk een halt toe te roepen, maar er moet wel actie worden genomen. Classificatie en ontdubbeling is broodnodig.
De toename van de hoeveelheid elektronisch opgeslagen gegevens loopt uit de hand. Dit bleek in 2003 al uit onderzoek van de Amerikaanse Berkeley-universiteit, maar wordt nu nog eens bevestigd én versterkt door onderzoek van IDC in opdracht van opslagleverancier EMC. De Berkeley-onderzoekers kwamen uit op een wereldwijde dataproductie van 5 Exabyte (miljard Gigabyte), maar volgens IDC was het vorig jaar maar liefst 161 Exabyte. Daarnaast voorspelt het onderzoeksbureau een zesvoudige toename tot 2010.
Dit wereldwijde probleem speelt ook in Nederland: "We zijn een diensteneconomie, plus een handelsnatie, plus een breedbandland", zegt IDC-analist Marcel Warmerdam. "De aanmaak van digitale data is in Nederland zo'n 50 GB per seconde. Als je dat afzet tegen een gemiddelde harde schijf kom je uit op één volle per 2 seconden." Hij nuanceert lichtjes: "Niet alle gegenereerde data wordt ook opgeslagen; denk aan temp-bestanden en streaming video." Dan nog is het probleem groot, en groeiende.
"Het onderzoek kijkt wel wat breder dan alleen Nederland; er is bijvoorbeeld gekeken naar de datadichtheid van West-Europa. Die is hoog, maar in de Verenigde Staten is het nog wat hoger. In Duitsland is het bijvoorbeeld weer wat lager, want dat is meer een industrieland."
Een grote bijdrage aan die versnellende datagroei vormt tegelijkertijd ook een uitweg. "Driekwart van de data wereldwijd is gerepliceerde data", vertelt technologie-manager Hans Timmerman van EMC. "Dus moeten we ontdubbelen. Dat kan binnen de eigen organisatie vrij makkelijk. Denk aan het doorsturen van attachments in de mail, of het telkens meenemen van niet-veranderde documenten in de backup."
Op zich is dit een interessant onderwerp. Informatie Theorie speelt bij dit onderwerp een belangrijke rol.
Er zal mijns inziens, zoals ik reeds eerder voorspeld heb een hierarchie in de data aangebracht moeten worden om dit te kunnen realiseren.
Ook kan er een nadrukkelijk onderscheid gemaakt worden tussen data, informatie en kennis. Data op zich is betekenisloos. De data-stortvloed op dit niveau kan bijvoorbeeld opgelost worden met (lossless) compressie / decompressie en voorkoming van ongewenste redundantie.
Informatie heeft ten opzichte van data betekenis en deze betekenis kan geextraheerd worden, zodat op een hoger hierarchisch data niveau de informatie gebruikt kan worden als kennis in (geautomatiseerde) kennis intensieve systemen.
Een andere interessante invalshoek is te kijken naar de aanbieders van storage als een dienst. Hier is veel te winnen op het gebied van duplicatie. Versatel heeft b.v. een e-maildienst met Symantec e-mail archieving software in de markt gezet. Deze software zorgt dat de attatchments maar een maal worden opgeslagen en dat e-mails op goedkope storage worden gearchiveerd. Binnen een bedrijf reduceer je opslag van data substantieel, kan oplopen naar 60 procent. Maar zou het ook mogelijk zijn om data over bedrijven heen te reduceren?
De grootste reductie is te behalen indien we veel meer inzetten op webservices. Indien webdiensten door middel van soapkoppelingen gegevens alleen van de bron vandaan halen, hoeven we de data niet meer te dupliceren. Waarom moet b.v. elke applicatie nog zijn eigen postcodetabel hebben, indien deze via het web verkregen kan worden?
De groei is niet tegen te houden, maar we kunnen wel zoeken naar slimme oplossingen.