Onderzoekers van de Rijksuniversiteit Groningen (RUG) hebben een techniek ontwikkeld om snel relevante informatie te filteren. Het gaat dan om lappen tekst die helemaal niet geschreven zijn om van a tot z te lezen. Dankzij de nieuwe methode kunnen nu ook nauwelijks gestructureerde teksten, losse notities en intern bedoelde documenten worden gescand.
De bedenker van deze vorm van kunstmatige intelligentie is Ashwin Ittoo. Hij verwacht dat de algoritmen die hij heeft ontwikkeld zeer breed toepasbaar zijn, tot zoekmachines als Google aan toe. Ittoo promoveert op 5 januari 2012 aan de Faculteit Economie en Bedrijfskunde.
Voor een computer is het vinden van woordjes of combinaties daarvan in grote hoeveelheden tekst heel eenvoudig. Maar om een computer een tekst te laten begrijpen en er een conclusie uit te laten destilleren, is een techniek die nog sterk in ontwikkeling is. Dat vereist zogeheten ‘Natural Language Processing' (NLP), een zijtak van kunstmatige intelligentie. Zo was het heel bijzonder toen de Watson-supercomputer van IBM een klein jaar geleden in staat bleek quizvragen beter te begrijpen en te beantwoorden dan de mens.
Kladjes
Niet geheel toevallig werkte informaticus Ittoo aan vergelijkbare technieken als het Watson-project, want NLP vormde daarvoor de grondslag. Zijn algoritmes ontsluiten echter een enorme hoeveelheid extra informatie. Het was al mogelijk een computer goed leesbare teksten, zoals nieuwsberichten en wetenschappelijke artikelen, te laten begrijpen en er relevante informatie aan te onttrekken. Maar deze tekstanalyse kan nu ook worden toegepast op in telegramstijl geschreven informele kladjes, vol spel- en grammaticafouten, zoals klachtenformulieren van klanten of interne memo's.
Ittoo testte en ontwikkelde zijn zoek-algoritmes onder meer bij Philips Health Care en Bang&Olufsen. Beide bedrijven gebruiken inmiddels prototypes van zijn zoektechniek om hun bedrijfsinformatie, bijvoorbeeld over klanttevredenheid, te verfijnen.
Hoewel de techniek is ontwikkeld bij bedrijven in consumentenelektronica, is deze veel breder toepasbaar, onder meer in medische dossiers, in financiële documenten, in terrorismebestrijding en in zoekmachines. Ittoo stelt vast dat zoeken via Google vaak zeer veel resultaten oplevert, waardoor de behoefte bestaat die trefzeker te kunnen filteren. Hij verwacht dat zijn algoritmes daarbij behulpzaam zijn.
De verfijning van de bestaande NLP-technieken is niet alleen een wetenschappelijke stap voorwaarts, maar ook een commercieel interessante vinding. Alleen al in de Verenigde Staten wordt de markt voor dit soort tekstanalyse geschat op 835 miljoen dollar. En het aantal gebruikers van de benodigde software steeg in 2010 met 25 procent. Daarom streeft Ittoo naar spoedige commerciële toepassing van zijn algoritmes. Die zijn nu specifiek voor de Engelse taal ontwikkeld, maar ze zijn toepasbaar voor elke taal, als daar maar een goed model voor bestaat.
Curriculum Ashwin Itto
Ashwin Ittoo (Mauritius, 1979) studeerde aan de National University en de Nanyang Technogical University in Singapore, waar hij onder meer werkte als softwareontwikkelaar. Hij publiceert regelmatig in internationale tijdschriften over toepassingen van NLP-technieken. Sinds 2008 doet hij promotieonderzoek aan de Faculteit Economie en Bedrijfskunde van de RUG, waaraan hij nog steeds als onderzoeker verbonden is. De titel van zijn proefschrift luidt ‘Natural language processing meets business. Algorithms for mining meaning from corporate texts'.