Ben je ook zo vaak op zoek naar informatie of gegevens? Waar heb ik het gelaten, welke collega zou me hierbij kunnen helpen, heb ik wel de laatste versie en kloppen deze cijfers wel met de berichten die ik over dit onderwerp lees? Allemaal vragen die in veel organisaties leiden tot het zoeken naar informatie en veel tijdverlies. Deze tijd is uit te drukken in een minder snelle reactie op marktontwikkelingen (time to market). Ook productiviteitsverlies bij ondersteunende afdelingen speelt een rol. Decision makers nemen een besluit op basis van onvolledige informatie.
Terwijl ongestructureerde informatie in de vorm van teksten te vinden is in directory structuren en document management oplossingen (enterprise content management – ecm) en 80 procent beslaat, nemen managers in veel gevallen besluiten op basis van rapporten die voortkomen uit de gestructureerde data die slechts 20 procent in omvang beslaat.
Maar wat als die 20 procent je onvoldoende houvast geeft, als je beide typen informatiestromen nodig hebt en liefst gecombineerd, eenvoudig en snel? Welke mogelijkheden en nieuwe ontwikkelingen zijn er te verwachten vanuit de markt van de enterprise search oplossingen die dit vraagstuk voor de manager slechten? Is het al (bijna) zover of is het nog een brug te ver? We gaan hier op zoek naar een antwoord op deze vragen.
Informatiestromen
In de theorie rondom enterprise information management (eim) komt zowel gestructureerde informatie als ongestructureerde informatie samen. Dat wil zeggen dat beide informatiestromen gecombineerd gepresenteerd worden. Data (bi) gecombineerd met informatie (ecm) levert snellere en betere besluitvorming. Een integrale oplossing binnen de eim-gedachte gaat uit van het opslaan van content en data, in één index, zodanig dat met een zoekoplossing (esr) resultaten verkregen worden.
Is het al zover dat dit kan? De eerste producten komen nu op de markt waarmee eim werkelijkheid wordt. Wat is hiervoor nodig? Het belangrijkste is een gezamenlijk referentiekader. Dit kan worden ingevuld met metadata. Metadata is de Haarlemmer olie van de oplossing. Metadata heeft echter in gestructureerde omgevingen vaak een andere betekenis dan in omgevingen waar ongestructureerde data wordt vastgelegd. Hierin moet dus ook een goede afstemming in de organisatie plaatsvinden, zodat de metadata op een eenduidige manier kan zorgen voor de koppeling tussen beide informatiestromen.
Gebruiken de databaserecords en de ongestructureerde documenten dezelfde termen? Met andere woorden, komen relevante resultaten terug uit beide stromen als je op een term zoekt? Soms wel, maar meestal niet. Dit betekent dat veel aandacht besteed moet worden aan kwalitatief goede indexen waarbij synoniemen, gerelateerde termen en concepten aanwezig zijn.
Metadata moet op elkaar zijn afgestemd om de juiste informatie aan elkaar te kunnen relateren.Op basis van deze metadata kan men de informatie opleveren die bij elkaar hoort. Omdat alles in één index is gecentraliseerd, komt met één bevraging alle informatie beschikbaar. Het is niet meer relevant waar de gegevens vandaan komen. Hiermee creëer je dan een universele index ofwel unified information access (uia).
Onafhankelijk
De grote vraag blijft echter: Hoe vullen we nu de index zodanig dat de zoekschil van hieruit antwoorden kan genereren op onze vragen? Het komt er op neer dat de inhoud van de database wordt ingelezen (inclusief de metadata en de relaties tussen de elementen en dat daar de resultaten van de tekstanalyse vanuit ecm en wcm aan worden toegevoegd. Deze twee processtappen zijn onafhankelijk van elkaar. Als men dan zoekt naar 'Janssen' dan zijn er een aantal documenten waarin de naam voorkomt en komt de naam ook voor in de database. Op basis van de verwijzende sleutels die in de database gedefinieerd zijn (en die zijn overgenomen in de index) kan de bij 'Janssen' behorende detail-informatie worden opgehaald. Dit geldt zowel voor de transactionele als de dimensionele gegevens van 'Janssen'.
Doordat de informatie in het tool op eenzelfde manier wordt opgebouwd ongeacht de herkomst (gestructureerd dan wel ongestructureerd) kan deze worden gecombineerd en geïntegreerd op de manier waarop de gebruiker dat op een willekeurig moment wil.
Met andere woorden: 'Ladies and Gentlemen, We have the technology, we can and must rebuild the information environment'.
Cruciaal
Wat wordt dan de bottleneck voor de implementatie? Omdat metadata zo'n prominente rol in de oplossing heeft, is het afstemmen van deze informatielaag door de totale organisatie wellicht een cruciaal onderdeel. Metadata management wordt noodzakelijk. Hiermee kan worden bereikt dat iedereen met dezelfde metadata zijn informatie samenstelt. Net als bij gewone data betekent dit dat er kwaliteitsaspecten moeten worden onderkend, dat het centraal beschikbaar moet zijn, et cetera.
Een andere uitdaging is de autorisatie van de betreffende informatie. Wie mag welke informatie onder welke condities zien? Autorisatie is van groot belang voor de acceptatie van de zoekapplicatie door de gebruikers (niemand wil gevoelige informatie delen met onbevoegden). Daarbij speelt de snelheid waarmee de resultaten gevonden en gepresenteerd kunnen worden een grote rol. Een document dat is weggeschreven met beperkte rechten moet door de zoekmachine als zodanig worden gerespecteerd, dat wil zeggen de rechten moeten worden 'overerfd' en in de index bij het document worden opgeslagen. Hiermee hebben we ongetwijfeld niet alle aandachtspunten onder de loep genomen, maar wel een beeld geschetst van hetgeen men waarschijnlijk tegen zal komen.
De ondertitel van dit artikel luidt: een brug te ver? Het antwoord is NEE! Het samenbrengen van ongestructureerde en gestructureerde informatie in een gezamenlijk toegankelijke index met gecombineerde resultaten is al wel degelijk mogelijk. Het wordt tijd onder de randvoorwaarden van zorgvuldige implementatietrajecten hiermee te gaan werken. De voordelen zullen niet lang op zich laten wachten.
Anja van der Lans MKM, business consultant ESR, en Peter van Til, business consultant BI en auteur van het boek 'Business Intelligence, de eenduidige informatieomgeving en de gevolgen voor de business'. Beiden werken bij VLC Enterprise Information Management