Een paar jaar geleden was het al een hype: binnen het business intelligence en data warehousing domein zou ongestructureerde data (audio, video, tekst, et cetera) een steeds belangrijker rol innemen. In de praktijk hebben we het daarna nog nauwelijks meegemaakt.
Business intelligence (bi) en data warehousing blijven toch bij uitstek een toepassingsgebied voor goed gestructureerde en bovenal kwantitatieve data. Feiten en dimensies, duidelijk gestructureerde data om besluitvorming binnen bedrijfsprocessen te ondersteunen. Misschien komt het wel door de traditionele manier waarop er in Nederland in bi wordt geïnvesteerd.
En toch, de hype is terug, of misschien nooit weggeweest. Teradata maakte in maart melding van een belangrijke overname van software voor het verwerken van ongestructureerde data, en steeds meer mensen praten over ongestructureerde data als bi-topic.
Natuurlijk is er ook steeds meer ongestructureerde data in de wereld beschikbaar, dus het belang ervan neemt toe. Maar het blijft aan me knagen, volgens mij hoort ongestructureerde data thuis in de content management wereld. Je kunt het misschien wel in een data warehouse stoppen, maar ik ben benieuwd naar het concrete analytische biI'-gebruik ervan. Lijkt me leuk om eens te horen van goede toepassingen op dit vlak. Nata bene: Veel social media data is prima gestructureerd, dus hoort niet thuis in deze categorie.
Ik kijk uit naar jullie reactie.
Mijns inziens moet de hele discussie over ongestructureerde data verder gaan, en zich richten op de belangrijkste toepassing: Text mining. De meeste voorbeelden die ik heb gelezen over toepassingen van BI en ongestructureerde data gaan over het ontdekken van trends, en verkoopcijfers relateren aan social media (denk aan tweets over een nieuw gelanceerd product, opinie, problemen, etc).
Social media is op zich gestructureerd in die mate dat je wel een FB ‘like’ kunt herkennen, en een tweet is altijd datzelfde stukje korte tekst.
We moeten hier dus meer denken aan het ontsluiten van keywords en herkennen van patronen in tekst, dan dat we het hebben over ‘ongestructureerde data’.
De echte toegevoegde waarde zit in het geautomatiseerd herkennen van trends, en daarop razendsnel inspelen.
Tot op heden is deze grote berg aan data nog onontgonnen gebied, en ik ben dan ook benieuwd wanneer we de eerste praktijkcases zullen tegenkomen. Ik ben bang dat dit niet uit Nederland zal komen, omdat wij inderdaad vrij conservatief zijn als het gaat om toepassing van nieuwe technieken. Maar houdt de Amerikaanse bedrijven in de gaten, IBM en eBay zijn al vergevorderd met het ontwikkelen van text mining en social media integratie (Hadoop). Het blijft op dit moment toch nog vooral een academische exercitie. De tijd zal het leren!
Heb zelf een tweetal ervaringen opgedaan bij klanten waar ongestructureerde data ontsloten werd voor het data warehouse. Bij de ene ging het om freetext data, die callcenter agents noteerden tijdens het gesprek met een klant en de andere zijn PDF en Word files die opgestuurd werden door distributeurs. Bij de freetext data van de callcenter agents ging het om zeer bruikbare informatie over de beleving van het product en het merk. Dit laatste was het beste te ontrafelen met behulp van textmining. Bij de tweede klant handelde het over belangrijke doorverkoop transacties (van distributeur naar eindklanten). Hierbij is met behulp Informatica Data Transformation de ruwe data gestandaardiseerd en beschikbaar gesteld voor het data warehouse .
Eerdere pogingen om deze data gestructureerd te krijgen zijn mislukt. Er namelijk aan de data leveranciers (callcenter applicatie en distributeur) gevraagd om in de gestructureerde targetformaten aan te leveren. Dat is om meerdere reden niet gelukt.
Goede toepassingen zijn er wel degelijk en die zie ik alleen maar toenemen. Het aansluiten van ongestructureerde data zou een standaard component in de solution architecture moeten zijn.
Ongestructureerde data vormt, samen met gestructureerde gegevens, de bron voor belangrijke beslissingen op alle niveaus in de organisatie. De harde cijfers geven de feiten, veelal uit het eigen presteren van het bedrijf: onze omzet, onze marges, soms zelfs ons marktaandeel in een specifieke markt. De ongestructureerde data is er vaak in de vorm van nieuws, persberichten, sentimenten (social media) e-mails etc. Die gegevens zijn weliswaar ongestructureerd maar alles behalve waardeloos. Ze vormen voor alle werknemers de context waarin zij ‘harde’ gegevens verifiëren. Ze zijn het ‘inzicht in de markt’. Organisaties koppelen die ‘ongestructureerde data’ dan ook steeds vaker aan de feiten en cijfers uit BI. In een dashboard dat niet is gericht op het rapporteren van cijfers, maar dat is gericht op het ondersteunen van besluitvorming. Want waarom zou je beslissingen alleen laten afhangen van de gestructureerde data? Steeds meer organisaties faciliteren hun medewerkers daarom met een dashboard waarin zowel de feiten als ook de context wordt gepresenteerd.
In mijn werk bij Dink Intelligence maken we precies die koppeling tussen Business Intelligence en ‘Competitive Intelligence’. Dat is niet zo nieuw als je wellicht zou denken. En ook zeker niet alleen voorbehouden aan grote bedrijven uit de VS. Er zijn in Nederland legio voorbeelden van grote en kleine organisaties die bijvoorbeeld hun sales mensen de weg op sturen met gestructureerde gegevens uit BI en CRM systemen, aangevuld met ongestructureerde (en zeer waardevolle) gegevens over klanten en concurrenten. Of waar het management niet iedere dag zelf het web op hoeft op zoek naar ‘het laatste nieuws’, maar waar men 24/7 toegang heeft tot relevante ‘ongestructureerde’ data die keurig op datum, thema en concurrenten gesorteerd zijn. Ongestructureerde data hoort daarom zeker niet thuis in een content management systeem, maar in ieder dashboard en elke rapportage die medewerkers ondersteunt bij het nemen van beslissingen.
Voor meer specifieke voorbeelden en businesscases mag u me gerust mailen : a.vantspijker –at –dinkintelligence.nl
Helemaal eens met Arent (Dink Intelligence?),
BI is, vanuit het verleden, vooral ontstaan vanuit de intrinsieke behoefte om de meetbare prestaties te meten en compliantproof te kunnen zijn. Omdat het meestal om gestructureerde data gaat uit meerdere systemen is het vaak complex (ook organisatorisch) om een en ander geintegreerd te krijgen en presentabel naar businessusers.
Echter er is geen enkel (commercieel) bedrijf dat voor het nemen van strategische beslissingen niet naar de buitenkant van het bedrijf kijkt. Zelfs een startende zelfstandige ondernemer kijkt naar ‘zijn’ markt, concurrentie, lokale nieuws, persberichten, zit misschien op facebook of linked en wil natuurlijk ook graag weten hoe er over hem of zijn diensten gesproken wordt en feitelijkheden tegenover perceptie kunnen afzetten.
Kunst is nu…..hoe krijg je deze twee werelden geintegreerd? Ik denk dat ieder management ervan droomt om een totaalbeeld te hebben van feitelijke prestaties en/icm zicht op analyses van dynamische marktomgevingen. Kijk maar eens goed naar een Balanced Score Card, hierin zitten zowel intrinsieke meetbare waarden in als externe faktoren…..BI en CI geintegreerd zou een ideaal fundament zijn om een BSC gevuld te krijgen.
Content Management is daarom idd niet de plek want dat heeft niet primair een analyse functie.