In de wereld van enterprise content management krijgt momenteel content analytics een steeds belangrijkere rol. In vele vraagstukken die bij klanten spelen zien wij dit onderwerp terugkomen en de grote ecm-softwareleveranciers hebben content analytics oplossingen ontwikkeld of gekocht en opgenomen in hun ecm-solutions en -suites.
Waar het vroeger een kwestie was van compliance en optimalisatie door middel van document- en recordmanagement, collaboratie, workflow en search, is nu ook het aspect content analytics essentieel. Alleen via deze weg is het mogelijk nog meer waarde uit de grote berg ongestructureerde content te halen. Standaard zoekmachines bieden geen soelaas, deze zijn niet uitgerust voor patroonmatching, trendherkenning en semantische analyse die hiervoor nodig zijn. Een belangrijke reden voor deze ontwikkeling is big data, of big content. Komend jaar gaat meer data gecreëerd worden dan tot nu toe in het totale bestaan van de mensheid gecreëerd is. Om uit deze hoeveelheid data context, betekenis en dus waarde voor je organisatie te halen is het essentieel content analytics toe te passen. We kunnen niet meer zonder.
Maar wat verstaan we nu precies onder content analytics. Het is een breed begrip, waaronder veel technieken vallen, maar wat je ermee wilt bereiken is patronen en trends blootleggen die ver verborgen zitten in de grote hoeveelheid ongestructureerde content. Met deze patronen en trends kunnen nieuwe inzichten verkregen worden en business beslissingen worden genomen. Ongestructureerde data is veelal tekst, dus voor veel van de technieken, zoals text analytics en sentiment analytics, is taal essentieel en dat maakt het meteen ook moeilijk. Taal is anders dan gestructureerde data, het is wat ons onderscheidt van de apen en zeer lastig om geautomatiseerd te interpreteren. De 'natural language processing'-technologie is dus zeer complex en pas sinds een aantal jaren op het niveau om in te zetten in reguliere oplossingen.
Misschien is IBM Watson bekend. Deze computer of kunstmatige intelligentie heeft vorig jaar met Jeopardy gewonnen van een aantal van de beste deelnemers in de historie. Bij Jeopardy wordt een antwoord gegeven en dient de deelnemer de bijbehorende vraag te verzinnen. Dit betekent dat je niet zomaar een database met tekst door kan lopen en resultaten terug kan geven, zoals (simpel gezegd) search oplossingen zouden doen, maar dat je de context en menselijke taal moet begrijpen. Watson was opgebouwd uit 750 servers met 16TB aan ram, misschien ietwat overdreven om de tweets van je nieuwe product te laten analyseren, maar de ontwikkelde technologieën worden nu toegepast in alledaagse oplossingen, een wat mij betreft erg interessante ontwikkeling binnen ecm.
Een voorbeeld waarvan ik erg onder de indruk was betreft een zorgverzekeraar in Amerika. Deze heeft content analytics ingezet om heropnames (readmissions) te verminderen. Door bijvoorbeeld aantekeningen van artsen en specialisten en geschiedenis van patiënten te analyseren en daar predictive analytics op toe te passen kon voorspeld worden of een patient een verhoogd risico had om weer opgenomen te worden. Van daaruit terugkijkend, kon vaak ook de oorzaak hiervan herleid worden. In veel gevallen bleek dat de zorgverzekeraar een dure opname met ambulance, intensive care et cetera kon voorkomen door bijvoorbeeld te zorgen dat de alleenstaande oudere een taxi kon bellen wanneer hij naar de huisarts wilde, of dat er twee keer per week iemand langskwam om te zorgen dat hij de juiste pillen nam. Veel goedkoper dan het tot een opname te laten komen.
Verder ken ik een oplossing waarbij sentimentanalyse op data van klanten (historie, maar bijvoorbeeld ook tweets en blogs) wordt gebruikt om de afhandeling van klachten en nieuwe aanvragen beter te laten verlopen. Een klant die veelal positief is geweest over de afhandeling zou bij drukte misschien niet de prioriteit hoeven te krijgen boven een klant die in het verleden zich negatief heeft uitgelaten over het product en die misschien bij zichzelf heeft bedacht: 'ik probeer het nog een keer en als ik nu niet snel word geholpen kom ik niet meer terug'. Er is voor dit bedrijf alles aan gelegen deze klant met voorrang te behandelen. Natuurlijk is ook marketing en commercie gebaat bij de mogelijkheden. Wanneer je een nieuw product launcht, wil je graag alle content die er over gecreëerd wordt analyseren en interpreteren om zo je verdere marketing en strategie aan te passen.
Nog een laatste interessante ontwikkeling. Veelal wordt met contentanalytics gedacht aan bovengenoemde zaken, direct zichtbaar voor de business. De enorme groei van data levert echter nog een probleem op waarbij contentanalytics een belangrijke rol speelt. Uit onderzoeken blijkt dat organisaties veelal maar liefst 50 tot 80 procent van hun content onterecht bewaren. Vaak omdat ze er niet zeker van zijn of het vanuit compliance of juridische redenen nog bewaard moet worden, of omdat het nog waarde heeft voor de business, of wordt er gewoon veel dubbel bewaard. Ook kent men allemaal de lokale repositories en of mailarchieven waarin gigantisch veel content staat van weinig waarde en die onterecht op dure tear 1 opslag bewaard wordt. Met behulp van contentanalytics kan worden bepaald of het content is die relevant is. Contentanalytics kan de contextbetekenis bepalen en vervolgens kan, gebaseerd op door de organisatie gedefinieerde regels, deze content verdedigbaar verwijderd of verplaatst worden, wat aanzienlijke besparingen op kan leveren. Deze implementaties zijn complexe trajecten door de vele stakeholders en complexe technieken. De businesscase echter is wel vrij eenvoudig, de helft of meer minder kosten aan opslag. Een kostenpost waar vele it-organisaties door verlamd zijn, waardoor innovatie moet wijken.
Contentanalytics is wat mij betreft standaard onderdeel van een professioneel ecm-landschap. De ecm-basis is op dit moment bij vele organisaties gelegd, de tijd is nu aangebroken om dit uit te bouwen en de echte waarde uit onze content te halen!
Hi Sjoerd, je hebt inderdaad een interessante ontwikkeling te pakken. Door Big Data mogelijkheden los te laten op grote content repositories kunnen nieuwe inzichten ontstaan. Een hele praktische toepassing is er al. Met de inrichting van search engines op grote content omgevingen worstelen metadata-specialisten vaak met de ontwikkeling van een taxonomie die een goede afdekking biedt van de beschikbare informatie. Dat proces is met Big Data toepassingen een stuk eenvoudiger geworden.
Door bijvoorbeeld Hadoop in te zetten bij de analyse van een taxonomie op de index van een zoekoplossing, ontstaat snel inzicht in de afdekking en verdeling van trefwoorden over de beschikbare informatie. Met wat tweaken en tunen is het op die manier een kwestie van een paar uur geworden om een optimale en op de doelgroep gerichte afdekking aan te bieden (via federated search), waar dit vroeger het specialistische werk was speciaal opgeleide personen die hier een steeds terugkerende dagtaak aan hadden. De Hadoop/Google integratie is er al, en in de nieuwste versie van Google zitten dit soort analysemethodieken zelfs al ingebouwd.
Hiermee is deze combi een fraaie motor van echte informatieproductiviteit.