Ecm betreft het beheer van ongestructureerde informatie. De achilleshiel van het zoeken in ongestructureerde informatie is het feit dat dit is gebaseerd op tekst. De zoekresultaten worden nadelig beïnvloed door de complexiteit van taal, bijvoorbeeld door het gebruik van synoniemen en homoniemen. Een thesaurus biedt mogelijkheden om het zoeken en vinden van relevante, ongestructureerde informatie aanzienlijk te versnellen en te verbeteren.
Informatie in een organisatie bestaat voor ongeveer 20 procent uit gestructureerde informatie Onder gestructureerde informatie wordt in dit verband informatie verstaan zoals die is vastgelegd in vooraf vastgestelde datastructuren, bijvoorbeeld in tabellen in databases. Het overgrote deel van informatie in organisaties bestaat echter uit ongestructureerde informatie, informatie die is vastgelegd in documenten (in de meest ruime zin van de betekenis). Deze ongestructureerde informatie is het domein van enterprise content management (ecm).
Wikipedia definieert ecm als volgt : 'Enterprise content management (ecm) betreft het beheer van ongestructureerde informatie binnen een onderneming. Ongestructureerde informatie is alle informatie die niet direct als veld in een database benaderbaar is. Hierbij kan het gaan om allerlei soorten documenten (bijvoorbeeld Office-documenten van het type Word (.doc), Excel (.xls), etc., maar ook pdf, xml, e-mailberichten, afbeeldingen, video's en geluidsfragmenten).'
Zoeken en vinden
In gestructureerde informatie wordt gezocht op basis van sleutelkenmerken, zoals bijvoorbeeld burgerservicenummer, kenteken, klant- of studentnummer, factuurnummer, bankrekening, polisnummer, etc. Met deze kenmerken wordt de gewenste gegevensset uniek en eenduidig geselecteerd en aan de zoeker gepresenteerd. Bij het zoeken in ongestructureerde informatie ligt dit anders. Een eenduidige structuur zoals bij gestructureerde informatie ontbreekt per definitie. In ongestructureerde informatie wordt gezocht met zoekvragen die zijn samengesteld uit één of meerdere woorden. Hierin schuilen een aantal gevaren, waaronder:
– Er bestaan in veel gevallen verschillende woorden voor hetzelfde begrip (synoniemen), bijvoorbeeld fiets/rijwiel, voetpad/trottoir en fototoestel/fotocamera.
– Andersom kennen woorden soms meerdere betekenissen (homoniemen), bijvoorbeeld bank (zitbank of financiële instelling), jaguar (dier of automerk) en vorst (vrieskou of heerser).
– Woorden zijn er in verschillende talen.
– Een taal ontwikkelt zich: nieuwe woorden ontstaan (googelen, ontvrienden, biflatie, etc.) en door actualiteit worden woorden herontdekt, waarbij in sommige gevallen het woord ook een iets andere betekenis of lading krijgt. Zo waren woorden als 'tsunami' en 'bouwfraude' nauwelijks bekend ten tijde dat ze zich voordeden.
Het probleem is dat zoekmachines hierdoor een belangrijk deel van de relevante informatie niet aanbieden in het zoekresultaat. Dit probleem wordt bij zoekvragen op internet nog gecompenseerd door de omvang van de collectie, gecombineerd met het toepassen van relevante ranking, bijvoorbeeld op de manier zoals dat door Google wordt gedaan. In kleinere (bedrijfs)collecties, zonder geavanceerde algoritmen voor het bepalen van de relevantie van informatie, leveren zoekvragen veel minder relevante informatie op of raakt deze juist verstopt in een grote hoeveelheid ook niet-relevante informatie.
Thesaurus
Een thesaurus is een opsomming van woorden (termen) en hun onderlinge relaties. Zo kunnen in een thesaurus gelijkwaardigheidsrelaties worden aangegeven, bijvoorbeeld dat woorden synoniemen zijn van elkaar. In geval van synoniemen wordt in een thesaurus ook gedefinieerd aan welke term de organisatie de voorkeur geeft (vookeursterm).
Naast gelijkwaardigheidsrelaties worden in een thesaurus ook hiërarchische en semantische (of associatieve) relaties vastgelegd. Hiërarchische relaties geven een indeling of opdeling van een domein, bijvoorbeeld: Nederland bestaat uit provincies, provincies bestaan uit gemeenten, gemeenten bestaat uit één of meerdere plaatsen, etc. Semantisch of associatieve relaties geven de mogelijkheid om tussen domeinen te verwijzen. Zo wordt een auto (vervoermiddel) al snel geassocieerd met een file (verkeerskundig fenomeen).
Verbeteren zoeken en vinden van documenten
Een thesaurus kan op een aantal manieren worden gebruikt om het resultaat van een zoekactie te verbeteren:
– Door de gebruikte zoekmachine(s) te koppelen aan de thesaurus kunnen de gedefinieerde gelijkwaardigheidsrelaties worden gebruikt om bij een bepaalde zoekvraag ook op de synoniemen van de ingevoerde zoekwoorden te zoeken; in de trefferlijst worden zowel treffers op basis van het ingegeven woord getoond, als de treffers op basis van de synoniemen.
– In geval van meertalige content (zoals bijvoorbeeld in België, de Europese Commissie of een internationaal bedrijf) kan een meertalige thesaurus worden ingezet om, op basis van een zoekvraag in een bepaalde taal, een trefferlijst te genereren met treffers van relevante informatie in alle beschikbare talen.
– Een thesaurus kan als een vorm van 'spellingchecker' worden gebruikt om auteurs van teksten of brieven te attenderen op het niet gebruiken van voorkeurstermen, dan wel het gebruiken van termen die nog niet in de thesaurus voorkomen (termsuggestie). Hiermee wordt een standaardisering en uniformering van het taalgebruik in een organisatie bereikt; dit vergroot de terugvindbaarheid van documenten.
– Door het gebruik van een thesaurus kunnen stappen worden gezet op het gebied van het (semi-)automatisch classificeren of 'taggen' van documenten. Ook kan met behulp van 'tagclouds' op basis van thesaurustermen eenvoudig en snel een contextspecifieke vingerafdruk of samenvatting van een tekst worden aangeboden.
– De thesaurus kan ook worden gebruikt bij het berekenen van de relevantie van een document voor een bepaalde zoekvraag; naarmate meer thesaurustermen in een document voorkomen, krijgt het document een hogere relevantiescore (hogere positie) in de trefferlijst in zoekvragen op basis van deze termen.
– Zoekvraag(be)geleiding: door gebruik te maken van de hiërarchische relaties kunnen aan de zoeker meer omvattende zoektermen (breder zoeken) of minder omvattende zoektermen (specifieker zoeken) worden aangeboden. Associatieve relaties kunnen worden gebruikt om de zoeker te attenderen op aan de zoekvraag gerelateerde termen of om in de aangeboden informatie te grasduinen ('browsen').
Revival
Thesauri zijn in het verleden vooral ontwikkeld en gebruikt voor het categoriseren en ontsluiten van grote collecties boeken en (wetenschappelijke) publicaties. De tekortkomingen van taal als zoekingang voor de exponentieel groeiende digitaal beschikbare (maar ongestructureerde) informatie, maken dat voor dit oeroude hulpmiddel voor het classificeren en ontsluiten van informatie een tweede leven begint. Een thesaurus biedt nieuwe kansen en mogelijkheden aan informatiespecialisten om zoekers sneller en beter te laten vinden waar naar ze op zoek zijn.
Ik heb in het verleden onderzoek gedaan naar technologieën die gebruikt zouden kunnen worden om een zeer kennisvolle Thesaurus op te zetten (inclusief relaties). OWL (http://www.w3.org/TR/owl-features/) bleek een zeer goede technologie te zijn. Helaas is deze technologie nog niet echt aangeslagen, maar in potentie is hij geweldig.
Wellicht brutaal, maar ik moet het toch even kwijt.
Wij leveren kant-en-klare software die precies dit doet. We hebben gespecialiseerde software om een thesaurus te bouwen, we kunnen deze thesaurus koppelen aan onze ECM-software. Deze software indexeert (met of zonder de thesaurus) automatisch alle aangeboden, ongestructureerde documentatie.
Als de documentatie in een ander ECM-systeem via bijvoorbeeld een filesysteem beschikbaar is, dan kan onze software ook worden gebruikt om deze documentatie met of zonder de thesaurus toegankelijk te maken. Onze software functioneert dan als gespecialiseerde zoekfunctie naast het ECM-systeem.