In deze blog wil ik aandacht vragen voor mijn visie op (big) data, business intelligence en het denken over de eigen gegevensstructuren.
Als ik mijn LinkedIn nieuwsoverzicht bekijk, valt iedere dag weer op hoeveel aandacht er is voor big data analytics, de kunst van het inzichten verkrijgen uit grote hoeveelheden diverse en ongestructureerde data. Natuurlijk is het zo dat, wanneer u zit met gigantische hoeveelheden data, en u geen idee heeft waar te beginnen, het opzetten van een proces om eindelijk inzichten te kunnen vergaren een valide keuze lijkt. Ik heb overigens diep respect voor die tovenaars die machine learning methodieken toepassen en zo inzichten kunnen destilleren uit die enorme data lakes.
Neergang van data-centrisch denken
De huidige trend om artificial intelligence (ai), machine learning (ml) of andere zogenaamde slimme algoritmes te gebruiken om inzichten te verkrijgen uit data, hoe nuttig ook, gaat me soms toch ietsje te ver. In de afgelopen jaren, waarin ik als cto startups en scaleups begeleid, heb ik meer mensen over big data analytics horen praten dan over een degelijke data architectuur. En dat kun je een probleem noemen…
Ten tweede signaleer ik al langer een trend waarin data weg geabstraheerd wordt van de dagelijkse praktijk van developers. Zie de populariteit van Microsoft Entity Framework (EF) en andere object role moddeling (orm)-frameworks, die developers het idee geven dat data onbelangrijk of in ieder geval secundair is en focus leggen op zogenaamd ‘code first’ orm-mapping.
Ten derde: de laatste jaren kom ik steeds meer developers tegen die de overstap hebben gemaakt naar NoSQL databases, waar je niet eens hoeft na te denken over het structureren van je data. Waarom zou je ook? De cloud is immers oneindig, dus waarom zou je je bezig houden met structureren, normaliseren en optimaliseren van data opslag?
Data weer belangrijk maken
Als iemand die meer dan 25 jaar in software development zit, denk ik toch niet dat ik alleen ouderwets ben als ik zeg dat een solide architectuur ook begint bij het nadenken over de data, en dat het zeker zin heeft uw datastructuren sterk te optimaliseren voor het intelligent kunnen doorzoeken, zonder dat daar externe oplossingen als data mining of fulltext search voor nodig zijn.
Als u een startup bent, en uw data is onlosmakelijk verbonden met uw intellectual property (ip), zou u dus tijd moeten besteden aan het opzetten van een degelijke data architectuur. Chocola maken van alles wat u aan data verzamelt, gaat echt een stuk makkelijker als er vooraf over nagedacht is.
Je data centraal stellen, echt de tijd nemen om de architectuur van uw data domein op te zetten, betekent ook dat u kijkt naar de business propositie en data scenario’s, precies zoals u dat doet met functionele requirements. Uw data bevat tenslotte het goud waar u naar op zoek bent. En het goud voor het oprapen hebben is toch handiger dan de weg ernaartoe te moeten graven?
Dit artikel is een (vrije) vertaling van mijn artikel ‘Data intelligence is not an afterthought‘ op Medium.com.
Goed artikel :O)
Wat ik telkens en stelselmatig niet tegen kom is de duidelijke differentiatie tussen bedrijfs specifieke gegenereerde data en generiek beschikbare data stromen, lees, al de rest via het www. Ik blijf eenvoudig warsvchuwen voor die twee werelden namelijk dat je met corporate big data heel precies en gericht kunt werken met geproduceerde big data en die andere oceaan van data, met enorme terughoudendheid zult moeten benaderen.
Vervuilde data
Het is eenmaal een gegeven dat ruwweg en minstens 40% van al die ‘generiek beschikbare’ data met van alles en nogmaals is vervuilt. Die vervuiling is dusdanig dat je dat met de beste wil van de wereld, ook niet met ai, kunt differentieren en klasseren. Natuurlijk kun je doublures voorgeprogrammeerd filteren, natuurlijk kun je tot op bepaalde hoogte criminele handelingen zoals identteits diefstal, tot op een bepaalde hoogte duiden.
Heb je het over betrouwbaarheid van tal van commerciele data, commerciele uitingen, voorgekookte surveys, misrepresentatie, opzettelijk vervalsing van feiten, fake nieuws, hypes, voorgekookte voorstellingen van zaken als ogenaamd ‘feitelijk’ gepresenteerd, of de tal van (semi) wetenschappelijke voorstellingn van zaken, gewoon even als voorbeeld, kan ai je (nog) niet van dienst zijn laat staan dat je (zakelijk) het risico zou willen lopen te stellen dat je gebruik gaat maken van die enorme ‘gemelleerde’ data.
uiteraard zijn er nu heel veel commerciele geesten die voorgeven, roepen, dat dat allang ‘getackeld’ is, ik zou mezelf daat zakelijk/professioneel niet aan branden.
Wat is er toch geworden van die good old kenniseconomie; tegenwoordig wordt alleen nog maar gesproken van de data economie. En dat is niet te rijmen met de opkomst van kunstmatige intelligentie; dan verwacht je binnen het DIKW-model niet een verschuiving van Informatie-architecturen naar Data-architecturen, maar juist een verschuiving naar Kennis-architecturen.
Voor (kunstmatige) intelligentie heb je toch kennis nodig?