Ik vraag me af hoeveel van de miljarden bytes aan opgeslagen data bruikbaar is. Niet veel, denk ik. Nog erger: Hoeveel bruikbare data bestaan er, waar niemand iets van af weet?
Vroeger waren de data gerelateerd aan formele zakelijke transacties; een relatief klein volume volgens de huidige standaarden. Zelfs toen waren de gegevens zo verbonden met specifieke applicaties voor gegevensverwerking, dat het erg moeilijk was om ze te benaderen voor andere applicaties, met name ad-hoc ‘queries’ van gebruikers.
Momenteel zijn er veel complexere gegevensverwerkende (erp)systemen, met veel meer data, en enorme hoeveelheden historische gegevens opgeslagen in gegevenspakhuizen.
Maar daarmee houdt het niet op. Iedereen denkt dat het essentieel is om notities en brieven met tekstverwerkers te maken. Deze gegevens hopen zich op in pc’s die gigabytes aan data kunnen opslaan. Het merendeel betreft tekst, gegoten in grafische formats, zodat die er netjes uitziet. Dit betekent dat deze notities kilobytes groot zijn, in plaats van enkele honderden bytes. Tel hierbij op de enorme hoeveelheid spreadsheets en grafische presentaties.
Het wordt nog erger. Internet is niet meer weg te denken en dus worden Html-pagina’s toegevoegd aan de enorme hoeveelheid WP-documenten. De meeste WP-documenten zijn triviaal en zinloos, terwijl het merendeel van de Html-pagina’s direct aan de business is gerelateerd. Ze bevatten gegevens die blootgesteld worden aan het publiek. Als zodanig representeren ze het bedrijf in hun ogen.
Momenteel is het probleem niet zo groot, omdat de meeste web-pagina’s zo slecht zijn ontworpen dat fouten in de data verloren gaan. De meeste websites stellen bedrijven momenteel in een slecht daglicht, maar dankzij opgedane ervaring zullen de sites verbeteren. Als dat gebeurt, zal het essentieel zijn dat de inhoud van de webpagina’s vlekkeloos is. Het wordt dus tijd om aandacht te besteden aan de inhoud.
De eerste web-systemen waren eenvoudige vraag/antwoord-applicaties, die de gebruiker in staat stelden te bladeren door een set geprepareerde ‘brochure-pagina’s.
Het duurde niet lang voordat het een probleem werd om de pagina’s up-to-date te houden. Technieken werden volwassen om scripts toe te voegen aan web-servers, waarmee informatie van andere systemen was af te halen. Vaak moest een bedrijf dezelfde informatie in meerder formats produceren, in het bijzonder WP, PDF en Html. Soms moesten dezelfde gegevens worden vertaald en in meerdere talen worden gepresenteerd. Dit is een zware opgave gebleken. Maar al te vaak vind je inconsistente informatie. Het is al moeilijk genoeg om de kerngegevens accuraat te houden, en alle systemen synchroon te updaten. De nieuwe eisen maken de problemen alleen maar erger.
Het is nu dan ook belangrijk geworden om de aandacht te richten op het probleem van het beheer van inhoud (‘content’) bij alle systemen, en web-systemen in het bijzonder. Dat is een zware opgave; slechts weinig bedrijven doen er voldoende aan. In eerste instantie zullen er veel geïsoleerde pogingen plaatsvinden. In een later stadium moeten we proberen die te integreren. Er is bijvoorbeeld al veel werk verzet op het gebied van transactiedata vanwege de groei van ‘datawarehousing’. Gegevens in de verschillende systemen werden gedefinieerd in diverse dictionaires en dienden allerlei case-tools, databases en operationele systemen. Op de een of andere manier moest dat gecoördineerd worden om heldere, consistente data in het gegevenpakhuis te krijgen. Dat was niet eenvoudig, en ik zou niet willen beweren dat er nu schitterende oplossingen voor het probleem zijn.
Voor documenten en web-pagina’s bestaat een potentiële – tevens revolutionaire – oplossing: zet alle essentiële informatie om in XML-format. Als dat is gebeurd, zijn de Html-pagina’s, PDF- en tekstverwerkingsbestanden, en records allemaal te genereren uit één input-bron. Dat betekent dat we moeten accepteren dat tekstverwerkers verouderd zijn en dat XML-editors ze zullen vervangen. Maar dat zal nog wel even duren.
Er is een aantal producten op de markt die zijn ontwikkeld uit ‘suites’ van e-handelapplicaties. Ze richten zich op het beheer van web-inhoud, en zijn geïntegreerd met erp-systemen en gegevenspakhuizen. Dat is beter dan niets, met name voor bedrijven die artikelen via het Web aan het publiek verkopen. Waarschijnlijk zal het nog belangrijker worden om de inhoud accuraat te houden, wanneer er vorderingen gemaakt worden met de b2b-applicaties. Deze tools zijn essentieel voor de automatisering van het synchroniseren van data met wat de klant ziet. Er valt niets meer te doen met al die WP-troep. Vergeet het en wacht op de XML-editors!
Martin Healey, pionier ontwikkeling van op Intel gebaseerde computers en c/s-architectuur. Directeur van een aantal IT-bedrijven en professor aan de Universiteit van Wales.