Big Blue ziet zijn zakelijke zoektechnologie graag wijdverbreid in gebruik en geeft het daarom eind dit jaar via SourceForge vrij aan de open-sourcegemeenschap.
IBM geeft de broncode van zijn analysetechnologie voor ongestructureerde informatie, voorheen bekend onder de codenaam Webfountain, vrij aan de open-sourcegemeenschap.
Het gaat om zijn ‘unstructured information management architecture’ (uima), een technologie die is ontwikkeld om een nieuw soort applicatie te ondersteunen die informatie uit ongestructureerde documenten kan verwerken en de latente betekenis, relatie en relevante feiten ervan kan onderscheiden en is bedoeld voor zakelijk gebruik. Met de technologie is het mogelijk om voorbij te gaan aan de analyse van sleutelwoorden, de manier waarop bijvoorbeeld een zoekmachine als Google werkt. Webfountain converteert het oneindige aantal manieren om informatie op internet te presenteren naar een uniform, gestructureerd formaat dat vervolgens geanalyseerd kan worden. De technologie doet dat met behulp van XML. Voor webpagina’s en inhoud die deze standaard gebruiken, zet de technologie een stukje alchemie in: het transformeert niet-gelabelde data met ‘natural language processing’ in XML-gelabelde data.
De zoektechnologie is het resultaat van vier jaar onderzoek van IBM Research in samenwerking met de onderzoekstak, Darpa, van het Amerikaanse ministerie van Defensie. De technologie wordt gepresenteerd aan de Open Source Technology Group en zal tegen het einde van dit jaar beschikbaar worden via de SourceForge online ontwikkelaarsgemeenschap. Het uima-raamwerk is al beschikbaar via IBM’s AlphaWorks-divisie. Bedoeling van het vrijgeven van de broncode is een wijdverbreid gebruik van de IBM-technologie.
Vocabulaire
Natural language processing lijkt op het proces van ontleden van zinnen zoals iedereen op de basisschool leert, maar doet dit op een veel grotere schaal.
De unstructured information management architecture is een open en schaalbaar platform voor het maken, integreren en inzetten van oplossingen voor ongestructureerde informatie van combinaties van semantische analyse en zoekcomponenten.
Het uima-raamwerk kan gratis worden gedownload van IBM AlphaWorks op http://www.alphaworks.ibm.com/tech/uima.
Meer informatie over Webfountain vindt u in het Computable-archief: https://www.computable.nl/artikels/archief4/d16ra4qd.htm.