De laatste paar jaar heeft een enorme omwenteling plaatsgevonden, en deze vindt nog steeds plaats, wat betreft de wijze waarop mensen onderling met elkaar communiceren. Als ik denk ik aan de manier waarop er in mijn gezin wordt gecommuniceerd, dan zie ik mijn kinderen de gehele avond sms'en, e-mailen, foto’s uitwisselen en twitteren met vriendjes met hun mobiele, van internet voorziene, telefoon of iPad.
Ook zakelijk is communicatie met e-mail niet weer weg te denken en wordt steeds meer gebruik gemaakt van verschillende social media zoals Facebook, Twitter en Linkedin. Kortom: er worden steeds meer gegevens met elkaar gedeeld. Gegevens die interessant zijn voor bedrijven en instellingen. Het lastige van e-mail en de diverse social media is echter dat de gegevens ongestructureerd in vrije tekstvelden vermeld staan. Hierdoor is de inhoud lastig te analyseren. De toename van ongestructureerde data neemt door het gebruik van e-mail en social media echter wel explosief toe. Gartner meldt dat de hoeveelheid ongestructureerde data de komende vijf jaren zelfs zal stijgen naar 650 procent van wat er nu reeds geproduceerd wordt.
De nieuwe vormen van communicatie, waarbij gebruik wordt gemaakt van (vrije) tekst(velden), vragen nieuwe vormen van het analyseren van de enorme hoeveelheden aan gegevens. Taaltechnologie gebaseerd op natuurlijke taal biedt hiervoor een oplossing. Een voorbeeld is het geautomatiseerd kunnen analyseren van tekstberichten. Hierdoor kun je als bedrijf of instelling zien hoe er over jouw merk, product of dienst gedacht wordt en kun je op basis van deze gegevens voorspellen in welke richting deze meningen zich verder ontwikkelen.
Een ander voorbeeld is het gebruik van taaltechnologie bij het analyseren van e-mail. Door gebruik te maken van tools die geautomatiseerd kunnen onderscheiden welke e-mail klachten bevat of voorstellen voor productinnovatie, kan de e-mail daarna automatisch doorgezet worden naar de juiste afdeling, projectgroep of behandelaar binnen de organisatie. Hierdoor kan sneller ingespeeld worden op klantklachten of -wensen.
Informatie-overload
Daarnaast ontstaat er een overload aan informatie. Tijd ontbreekt om alle informatie volledig te lezen. Samenvatten is een mogelijkheid. Handmatig alle informatie samenvatten, is echter een te dure bewerking. Geautomatiseerd samenvatten op basis van taaltechnologie is dan een optie. Een ontwikkeling die steeds meer ingezet wordt op redacties van uitgeverijen om uit nieuwspagina's van over de hele wereld de relevante tekst in samengevatte vorm aangeleverd te krijgen. Deze toepassing zien we ook binnen organisaties waar veel met dossiers wordt gewerkt. Samenvattingen worden steeds belangrijker om in korte tijd grote hoeveelheden informatie efficiënt tot je te kunnen nemen. Daarbij is belangrijk dat de gebruiker de vrijheid heeft om de samenvatting naar eigen inzicht langer of korter gepresenteerd te krijgen en zelf kan bepalen welke onderwerpen voor hem in een samenvatting relevant zijn.
Zulke tools op basis van taaltechnologie hebben zich lange tijd in een experimentele sfeer bevonden. De laatste drie jaar is daar echter een radicale ommekeer in gekomen. Taaltechnologie wordt steeds vaker als middel ingezet om op basis van zinsanalyse, onderwerpbepaling, contextanalyse, etc. relevante gegevens effectief uit de berg ongestructureerde data te halen en te analyseren. En dat is niet altijd eenvoudig! Tekst is grillig en je moet goed kunnen analyseren wat er feitelijk door de gebruiker bedoeld wordt. De context is daarbij zeer belangrijk. Wanneer in een bericht over een garagebedrijf een zin staat als 'De service bij garage ABC is vet' dan heeft het woord 'vet' een andere lading dan het woord 'vet' in de zin 'Net een pot vet besteld'. Wanneer je een analyse maakt over de berichten die complimenten bevatten, dan moet de eerste, maar niet het tweede bericht worden meegenomen. Kortom: woorden krijgen relevantie in de context van andere woorden en het is belangrijk dat de samenhang daartussen wordt meegenomen in de analyse.
Taaltechnologie wordt ook steeds vaker ingezet in i-postkamers, waar gedigitaliseerde post of e-mail nu nog vaak door postkamermedewerkers fysiek gelezen en handmatig gemetadateerd moet worden. Het gebruik van goed opgezette en goeddoordachte metadata (data over data) is cruciaal om gegevens later weer snel terug te kunnen vinden. Wat betreft de metadata zijn verschillende standaarden voorhanden. Vaak wordt een combinatie van de volgende velden gehanteerd: documentsoort, datum, selectielijst, identificatienummer, dossiernummer, auteur, bewaar- of vernietigingscategorie, bewaartermijn, vernietigingsjaar, onderwerp toekenning, taalcode, etc.
In de markt zijn nu op taaltechnologie gebaseerde tools voorhanden die geautomatiseerd metadata kunnen toekennen. Het voordeel van het geautomatiseerd metadateren is dat het veel uniformer gebeurt. Nu komt het nog vaak voor dat door de handmatige toekenning van metadata fouten worden gemaakt of dat door verschillende interpretaties van soortgelijke documenten andere metadata worden toegekend. Door geautomatiseerd te metadateren kan echter veel tijd bespaard worden en kunnen fouten worden voorkomen. Ook kunnen bijvoorbeeld klachten sneller afgehandeld worden, doordat ze door de automatische inhoudsherkenning direct naar de juiste afdeling/behandelaar kunnen worden gestuurd.
Taal evolueert. Dat betekent ook dat taaltechnologische oplossingen blijvend getraind moeten worden. Trainen op nieuw vakjargon en trainen op nieuwe woorden of wijziging van de betekenis van woorden. Taaltechnologie gebaseerd op natuurlijke taal heeft de toekomst, omdat je op basis hiervan geautomatiseerd met ongestructureerde data kunt omgaan. Het is het niveau van experimenteren ontstegen. Met deze tools kunnen bedrijven en instellingen uit enorme hoeveelheden ongestructureerde data eenvoudig informatie halen en analyseren, waardoor zij sneller kunnen acteren in hun markt of daarbuiten.
Een zeer waardevolle bijdrage van Kees Groeneveld en ik kan alleen maar bevestigen wat hij in dit artikel beweert. Taaltechnologie wordt steeds belangrijker en geeft bedrijven steeds meer mogelijkheden belangrijke informatie op een efficiënte manier te ontsluiten. En dat geldt niet alleen voor taaltechnologie maar ook voor spraaktechnologie (samen TST). Ik zou willen wijzen op het congres Taal in Bedrijf 2011 dat op 29 november 2011 in de Doelen in Rotterdam gehouden wordt en waar u dat zelf zult kunnen constateren. De keynotespreker Bran Boguraev van IBM USA zal daar vertellen over hoe IBM DeepQA menselijke tegenstanders versloeg in de Jeopardy! Quiz en hoe taaltechnologie daarin een cruciale rol speelt. Een panel zal discussiëren over de mogelijkheden die TST biedt om in de enorme massa data uit sociale media, sites voor productevaluaties, officiële rapporten, vacatures en sollicitatie-aanbiedingen, etc. de informatie op te sporen die relevant is. In een gevarieerd parallel programma komt aan bod wat de rol van TST kan zijn voor verschillende commerciële en maatschappelijke gebieden. Op de bedrijvenmarkt zullen TST-bedrijven de technologie tonen die ze aanbieden en duidelijk maken hoe uw bedrijf/organisatie daarvan gebruik kan maken om allerlei bedrijfsprocessen efficiënter en beter te laten verlopen. Tot slot zal de keynotespreker Yuri van Geest (o.a. topteam Creatieve Industrie) ons een blik geven op de toekomst en de rol van TST daarin.
Voor meer informatie: Taal in Bedrijf website: http://www.taalinbedrijf2011.org/ waar u zich ook kunt registreren (toegang is dankzij sponsoring gratis maar registratie is verplicht)
Jan Odijk
Hoogleraar Taal- en Spraaktechnologie Universiteit Utrecht
Beste Jan,
Dank voor je reactie. Ik ben zelf de 29ste ook in Rotterdam. Wellicht kunnen we dan even een kop koffie drinken. Taaltechnologie is een zeer interessante markt en ik zie verschillende branches daar nu gebruik van maken w.o. verschillende verzekeringsbedrijven ihkv behavior targetting en tweet-analyse, of ziekenhuizen met samenvatten van medische dossiers en gemeenten met het samenvatten van dossiers en het automatisch metadateren van poststukken. Boeiende markten waar met taaltechnologie nog veel (meer) bereikt kan worden.
Beste Kees,
Leuk artikel. Ik vond het via het commentaar onder het artikel van mijn collega Johan v/d Kooij over Big Data. Ik denk ook dat textanalyse een grote vlucht gaat nemen en het is één van de speerpunten in onze Big Data visie. Wij hebben op dit moment inhouse een extensie ontwikkelt op de Google Search Appliance die ongestructureerde content van de GSA op een slimme manier nogmaals verwerkt om de essentie van de content te vinden en aan te bieden als metadata. Daar was Johans opmerking in zijn artikel op gebaseerd.
Kees,
Inderdaad is de toepassing van taaltechnologie aan het doorbreken.Het gaat langzamer dan we zouden willen.In de juridische wereld zijn enkele mooie voorbeelden, bijv. voor het automatsiche anonimiseren van vonnissen.
Wij (Think Legal) waren betrokken bij een Stevin project voor TST bij de rechtbank Almelo in sdmanwerking met Telecats.
Dit project zal ook aan de orde komen tijdens het genoemde Taal in Bedrijf 2011 seminar. Ik zal daar ook zijn.
Er is vorig jaar een leuk boek verschenen over de geschiedenis van taal- en spraaktechnologie in Nederland: van Rekenmachine tot Taalautomaat door Dr. Leonoor van der Beek (http://linqd.nl/book.html). Aanrader voor mensen die in dit onderwerp geïnteresseerd zijn.