Het nieuwste buzzword op het gebied van data en kunstmatige intelligentie is 'data-gedreven'. Een organisatie moet data-gedreven worden. Om meer concurrerend te worden en een digitale transformatie te kunnen doorlopen en daardoor nog meer onderscheidend te worden. Wat betekent data-gedreven zijn nu eigenlijk? En wat komt er bij kijken?
Data verzamelen en centraal beschikbaar stellen via een modern datawarehouse klinkt relatief eenvoudig. Je sluit de bronnen aan, transformeert ze naar een eenduidig model en ontsluit dit naar dashboards. Dit kan tegenwoordig data zijn van allerlei variëteiten en volumes, dus ook niet-relationele. De cloud services om deze transformaties uit te voeren (ELT) zijn sinds de laatste paar jaar behoorlijk geavanceerd. Het probleem zit echter vaak in dingen als eenduidige data definities en datakwaliteit.
Ware data
Eenduidige data definities realiseren is een uitdaging die met name in een complex applicatielandschap ontstaat. Bijna bij elke organisatie dus. Landschappen waar bijvoorbeeld meerdere erp-systemen draaien. Omdat er aan fusies en overnames is gedaan.Wat betekent dan bijvoorbeeld ‘bruto prijs’ in zo’n geval? Is die definitie overal het zelfde? En zo niet (meestal dus), hoe krijgen we dat dan getransformeerd naar wel een eenduidige definitie in het datawarehouse? Zodat daarover gerapporteerd kan worden?
Datakwaliteit is weer een ander issue. Dit ontstaat vaak door slechte (maatwerk) applicaties. Meestal door invoerschermen die wat ‘relaxed’ zijn met invoercontroles. Of door het veel voorkomende ‘misbruik’ van velden in een database. Daardoor het ontstaat dat in de ene implementatie van de applicatie veld x betekenis y heeft en in de andere applicatie betekenis z. Hoe ga je daar nu eenduidig over kunnen rapporteren? En analyseren? Bij big data is het probleem nog wat groter. Want je kunt nog zo veel data verzamelen; als de kwaliteit niet goed is, kun je er ook niets fatsoenlijks mee voorspellen. Valt niet mee!
Dashboardjes kieken?
Veel datawarehouses, moderne of niet, worden gebruikt om rapportjes en dashboardjes te voeden. Natuurlijk is dat een belangrijke functie; menig manager stuurt zijn afdeling of bedrijf op basis van deze informatie, door in een wekelijkse of maandelijkse meeting op basis van deze informatie acties uit te zetten. Vaak heeft zo’n manager ook nog wel een goed onderbuik gevoel en ziet dat er iets niet goed is in zo’n rapport of dashboard. Omdat het niet goed aanvoelt. Er kan dan altijd handmatig bijgestuurd worden.
Maar wat gebeurt er als data niet alleen in een dashboard of rapport eindigen, maar ook gebruikt worden om automatisch actie te ondernemen? Dus bijvoorbeeld in predictive scenario’s. Of nog geavanceerder: In prescriptive scenario’s, waarbij de manager eigenlijk door de data verteld wordt wat hij moet doen om een bepaalde doelstelling te behalen. De manager zal de onderliggende logica vaak al niet meer doorgronden en zal dus volledig moeten vertrouwen op de data en de algoritmes. Dat zal in het begin even wennen zijn!
Echt sturen op data
In dit soort geavanceerde scenario’s zijn goede datadefinities en datakwaliteit dus cruciaal en is het zelfs gevaarlijk als dit niet op orde is. Dat betekent dat governance op het dataplatform de nodige aandacht vereist. Het dataplatform, bestaande uit technologie die overweg kan met zowel gestructureerde als niet-gestructureerde data, en zowel relationele als niet-relationele data, is het centrale punt waar je de governance op orde moet hebben. Zaken als architectuurprincipes, datatransformatiepatronen, kwaliteitsstandaarden, en onderhoud op de standaard modellen, is waar governance om draait. Dit is waar ook een onderwerp als masterdata zijn plekje moet hebben. En waar je de datacatalogus moet hebben draaien en up-to-date houden. Dit is waar betrouwbare data kan worden gevonden. En waar je op kunt sturen.
Net als bij security en privacy vraagstukken, geldt dat data-gedreven worden iets is wat niet alleen een technisch feestje is, maar juist ook een organisatorische uitdaging. Daarbij is strakke handhaving op het gebied van datacompleetheid en datakwaliteit nodig; iets waarop je door je leidinggevende en je collega’s aangesproken kan worden indien nodig. Dat is met name voor de cowboys (en girls) in de organisatie een uitdaging. Maar veel wordt juist gewonnen met het op een correcte manier ontstaan van data. Gelukkig ontstaat steeds meer data door iot-devices (internet of things) en niet door menselijk handelen, maar totdat dat 100 procent is zullen we hier volop aandacht aan moeten besteden, in de hele organisatie.
Het vergt een bepaalde gedrevenheid in de organisatie om dit voor elkaar te krijgen en te houden. Een data-gedrevenheid!
Mogelijk gaat Jack Jansonius aanhaken op het verschil tussen situational awareness en de contextual awareness maar mijn Observe-Orient-Decide-Act (OODA) loop van Boyd of het Intelligence-Design-Choice-Implementation model van Simon heeft alles te maken met het data-gedreven model dat al in de jaren 80 door Bemelmans werd vermeld in het boek Bestuurlijke informatiesystemen en automatisering.
Ik zeg dit even omdat in- en externe gegevensstromen in de Observe/Intelligence loop vanuit IoT steeds zwaarder gaan wegen in allerlei beslissingsmodellen. Als snelheidsmeter 100 kilometer per uur aangeeft dan is dat alleen maar een situational gegeven, het wordt pas contextuele informatie als we ook gepasseerde verkeersborden in de beslissing meenemen. Centraal Justitieel Incassobureau zal dan ook vast interesse hebben in de gegevens vanuit de intelligente cruisecontrol systemen. Een prescriptive scenario van een geautomatiseerd boetesysteem op basis van gedragscontrole in plaats van de trajectcontrole is binnen 10 jaar realiteit.
Ewout,
“Internet of Things (IoT)” is juist een reden te meer om over te schakelen van data-driven naar purpose-driven (zoals een medewerker van Motion10 onlangs in een uitstekend opiniestuk naar voren heeft gebracht).
Naast de processpaghetti (met bijbehorende complexiteit), die je met een data-gedreven IoT op alle niveaus in je applicatiestack kunt introduceren verzand je bovendien in een explosie van data.
Wel opmerkelijk (en bovendien een compliment!) dat je hier terugkomt op een reactie die ik al in 2015 heb geplaatst:
https://www.computable.nl/artikel/opinie/management/5412105/1509029/lean-it-beren-op-de-weg-naar-hot-spot.html
Jack,
Situatiebewustzijn gaat vooral om de perceptie van elementen en gebeurtenissen met betrekking tot tijd of ruimte. De link waarna je verwijst gaat om Lean Six Sigma wat een gelijkend model als de OODA-loop is waar het om het HOE van het proces gaat. De processpaghetti valt reuze mee omdat er uiteindelijk sprake is van een voortschrijdende verloop in tijd is. Data-gedrevenheid hierin is zoals de auteur stelt een noodzaak om te bewijzen dat je gedaan hebt wat je gezegd hebt te zullen doen. De winkel verlaten zonder het bonnetje voorkomt de Kafkaëske toestanden van een purpose-driven benadering welke meer om de WAAROM vraag gaat.
Ewout,
Je eerste reactie bevat alvast een mooie aanvulling op een opmerking die ik maakte in mijn reactie uit 2015. Daar verwees ik inderdaad naar het Intelligence-Design-Choice model van Simon, maar dit model blijkt dus nog een vierde fase te hebben, zoals jij aangeeft, namelijk de Implementation-fase. Ik ging steeds uit van 3 fasen op basis van de beschrijving van het model in het boek van Bemelmans:
“Een beslissingsproces kan men opdelen in fasen. Wij volgen in deze de opdeling van Simon, die de volgende fasen onderscheidt (11):
– een verkennende fase (intelligence)
– een probleemformulerende fase (design)
– een probleemoplossende fase (choice) “
waarbij (11) verwijst naar een publicatie uit 1960: H. Simon. The new science of management decision.
Deze vierde fase is er dus later aan toegevoegd; op internet kom ik zowel de 3 fasen als de 4 fasen-variant van het model tegen en op deze wiki-pagina worden zelfs 5 fasen genoemd: https://en.wikipedia.org/wiki/Decision_cycle
Maar ik neem die vierde fase graag van je over, want daarmee passen de OODA-loop van Boyd en de IDCI-loop van Simon nog mooier op elkaar!
Boyd: Observe – Orient – Decide – Act
Simon: Intelligence – Design – Choice – Implementation
Op een bepaalde manier vullen deze modellen elkaar erg mooi aan: OODA is toepasbaar bij snelle operationele beslissingen, terwijl het model van Simon meer tot zijn recht komt bij een rustige reflectie op problemen en oplossingen. Als je een kind ziet verdrinken ga je niet rustig bedenken wat hier nu het probleem is en welke oplossingsalternatieven zich aandienen; je wilt zo snel mogelijk tot actie overgaan en dan is de OODA-loop veel beter van toepassing dan het beslissingsmodel van Simon!
Andersom heeft het weinig zin om aan een arts te vragen om binnen x seconden met een diagnose te komen; hier komen we dus verder met het model van Simon. Het gezegde van een arts luidt wel: je moet aan de ziekte denken om de symptomen te kunnen herkennen. Op basis van eerste waarnemingen van symptomen (intelligence) denkt de arts aan de aandoeningen of ziekten die hiervan de oorzaak kunnen zijn (design) en worden de verschillende hypothesen door het doen van aanvullende waarnemingen (terugkoppeling naar intelligence!) bevestigt of ontkracht.
Je visie dat deze modellen data-gedreven zijn deel ik echter niet.
Daarmee ontken ik natuurlijk de wetenschappelijkheid van deze modellen; dat is precies waarom ze mij zo aanspreken! In beide modellen zitten nogal wat filosofische inzichten, en als je dan toch filosofie bedrijft kun je er maar beter bij nadenken 🙂
Nu kan ik hiervoor een filosofisch zwaargewicht als Heidegger inzetten (en die kant gaan we sowieso op), maar de datagedrevenheid (en dus wetenschappelijkheid) van deze modellen kan zelfs vanuit ontwikkelingen in de wetenschapsfilosofie ter discussie worden gesteld. Er zit namelijk een naïviteit in het model van Boyd die je ook kunt aantreffen in een recent vakgebied als data wetenschap, zoals hier beschreven: https://nl.wikipedia.org/wiki/Datawetenschap
De naïviteit zit precies in de processtap Raw Data Collected die je in het model van Boyd kunt terugvinden in de observe-fase: het idee dat je zonder kennis gewoon ruwe data kunt aantreffen, waaruit je dan naar believen kennis of acties kunt afleiden.
Dat alle waarneming kennis-geladen is, is wel op zeer aansprekende wijze naar voren gebracht door H. Koningsveld in het boek Het verschijnsel wetenschap. Een inleiding tot de wetenschapsfilosofie.
Enkele citaten uit dit boek, hoofdstuk 5: Begrip en waarneming (7de druk, 1984):
“Het is de creatieve mens – overigens niet op z’n eentje [..] – die op het aller-elementairste niveau met vallen en opstaan zijn begrippen vormt en daarin zijn werkelijkheid realiseert. Pas daarna is een uiteen rafelen van begrip en werkelijkheid mogelijk en dus ook een scheiding tussen subject en object. Van origine horen ze echter bij elkaar! “ (blz. 139).
“Pas met het begrip is ook waarneming van de verschijnselen die onder dat begrip thuishoren mogelijk.” (blz. 133).
“Een netwerk van begrippen kun je niet naar believen wel en niet gebruiken. “
“Begrippen brengen orde aan in een chaos van indrukken, maar ze kapselen je tegelijkertijd in, je kunt ze haast niet meer kwijt, ze vormen deel van je persoonlijkheid, richten denken en handelen. Ze bepalen wat je kunt denken en wat niet. “ (blz. 137).
Het bovenstaande toegepast op de OODA-loop:
een kind van 2 vindt het wel een grappig geluidje wat er uit dat witte kastje bij de CV-ketel komt; een volwassene ziet direct dat het een koolmonoxide-melder is en gaat over tot actie.
Laat ik tot slot nog even een knoop doorhakken ten aanzien van mijn reactie uit 2015:
“contextual awareness” is doodgewone onzin; het is een constructie van wetenschappers die niet (durven te) denken. En terecht heeft Heidegger gesteld: “Die Wissenschaft denkt nicht”.
Als we dan toch Engelse termen willen gebruiken kunnen we wel spreken van Ontology-Based Situation Awareness, waarbij je voor ontologie ook gewoon taal kunt lezen. Maar dan uiteraard wel in de zin van Heidegger!
Jack,
Ik ga geen boeken als reactie schrijven en stel dus dat de 5 fase van Simon om de uitfasering gaat, de lifecycle van data is niet veel anders hierin. Je voorbeelden van een actie=reactie met de OODA-loop missen de essentie van een beslissingsmodel dat uiteindelijk gedreven is op 2 autonome informatie cirkels. Ik sla wetenschappelijk visie hierin over en ga direct voor de klassieke filosofische stelling van Achilles en de schildpad.
Je ontkent namelijk het DIKW-model waarin de basis ligt van de paradox, hoe kom je procesmatig tot de wetenschap dat het geluid in je voorbeeld om een ongezonde hoeveelheid koolmonoxide ter plaatse gaat. De Grieken zouden dus vragen ‘Hoe ongezond?’ wat gezien de situatie een valide vraag is omdat je bij het horen van het signaal nog niet direct dood neer valt. Een ontology-based situation awareness gaat volgens mij dan ook uit van de meetbaarheid van het onderzoek wat uiteindelijk een data gedreven exercitie is die uiteindelijk leidt tot de wetenschap dat de mens niet zonder een gedefineerd percentage zuurstof kan.
Bedankt heren,
mijn verzameling van buzzwords en dooddoeners is weer groter.
Positief is de opmerking van Gijs over de kwaliteit van de data en de vrije interpretatie die gebruikers toepassen op de “veldnaam”.
Nieuw is dat alles niet, het heeft een andere naam gekregen.
Bedank @Jan
Het is alles niet nieuw, maar heeft nu nog grotere gevolgen.
Ewout,
als je in deze discussie het DIKW-model erbij haalt is dat natuurlijk koren op mijn molen!
Waar jij in dit model van links naar rechts gaat en daarbij in het geheel niet uitkomt bij de W van Wisdom (en in het Nederlands: Wereld, Waarheid, Werkelijkheid), daar ga ik in dit model juist van rechts naar links.
Waar jij blijft vasthouden aan een wetenschappelijke objectiviteit – het ‘meten is weten’ en ‘kennis is macht’ –, zet ik liever in op een filosofische objectiviteit die ook wel ontologie wordt genoemd. Behalve een kennisleer (epistemologie) ontbreekt er in jouw standpunt ook een zijnsleer (ontologie), waardoor je binnen het DIKW-model niet verder komt dan de eerste 3 letters.
Als je het begrip ontologie opzoekt in een willekeurig filosofisch woordenboek zul je onvermijdelijk de naam Heidegger tegenkomen. Sinds Heidegger is werkelijkheid, en daarmee ook objectiviteit, niet meer verkrijgbaar zonder de mens of het subject dat de vraag stelt naar deze werkelijkheid.
Hiermee zet Heidegger belangrijke stappen in het overwinnen van het bekende Cartesiaanse dualisme tussen subject (denkend ding, res cogitans, bewustzijn) en object (uitgebreid ding, res extensa).
Even zoeken op “DIKW Heidegger” levert nogal wat interessante treffers op (en let vooral op de interessante pdf’jes die voorbij komen).
https://files.eric.ed.gov/fulltext/EJ1164300.pdf
https://philarchive.org/archive/GORQAU
Als bij jou thuis het alarm van de koolmonoxide-melder afgaat schakel je deze uit en vertel je tijdens het avondeten aan de overige gezinsleden dat je s’avonds nog even gaat uitzoeken wat die waarde 925ppm in de display precies te betekenen heeft.
Jack,
Wisdom laat zich vertalen naar wijsheid, een deugd die je m.i. opdoet door ervaring. Leren van je fouten en het accepteren van je tekortkomingen is een van de kenmerken van het ouder worden. De K van (zelf)kennis staat in het DIKW-model in dat geval om het KUNNEN. Aangaande de waarheid en werkelijkheid betreffende een tijdsbeeld is er ook nog zoiets tussen als technologische vooruitgang. Betreffende de koolmonoxide hebben we nog een legacy systeem, valt de kanarie van zijn stokje dan zetten we de ramen open.