Deze rubriek heet ‘Data Revival’. Maar is er echt sprake van een hernieuwde belangstelling voor data, of zijn wat we nu ‘data’ noemen iets anders dan veertig jaar geleden?
Toen de Computable-redactie mij veertig afleveringen geleden vroeg of ik over de ‘Data Revival’ wilde schrijven leek dat geen probleem. Iedereen had het toen (en nu) over data. Data zijn overal. Iedereen is ermee bezig, zelfs politici. Toen Computable 50 jaar geleden ontstond waren data ook belangrijk en een decennium later helemaal. Maar zijn ‘data’ destijds hetzelfde ding als ‘data’ nu?
De direct zichtbare verschillen tussen toen en nu zijn evident: de hoeveelheid data is geëxplodeerd, met dank aan audio-, video- en sensordata. Maar daar zit niet de essentie. Wie terugdenkt aan lang geleden ziet magere ‘text and number’ data in een strak – soms té strak – uitgesneden keurslijf. Bestandsontwerp was een specialisme, eerst om veel informatie in weinig bytes te persen. Later werd bestandsontwerp datamodellering en werd het belangrijk om dezelfde data voor meerdere doeleinden te gebruiken en zo te besparen op data entry, data opslag en programmeerwerk.
Toen technische en economische beperkingen verdwenen, werd het kopiëren van data populair en kregen we data warehouses en data marts. Door tijdverloop en programmeerfouten (de staging-hel) werden data nu minder betrouwbaar, maar het ging om managementinformatie dus ‘soit’. Overheidsorganisaties maakten het nog bonter door onderling te ‘ketenautomatiseren’: data worden als in de jaren ’70 weer gezien als aanhangsel van processen. Kopiëren werd de norm terwijl aan controles en terugkoppeling weinig of niets werd gedaan. Waar de overheid met haar basisadministraties eens voorop liep met datakwaliteit zijn de puinhopen nu nauwelijks meer te overzien.
Twee werelden
Toch veranderde er al die decennia fundamenteel niets: brondata bleven strak gestructureerd en eenduidig gedefinieerd, terwijl de explosie van nieuwe, ongestructureerde data vooral neerkwam op onveranderd opslaan en presenteren; indexeren, bewerken of interpreteren was er nauwelijks bij. Pogingen om de twee werelden te integreren in object-georiënteerde-databases of object-relationele databases mislukten spectaculair. (Ikzelf zag Informix eraan ten gronde gaan.)
Maar nu maken we voor het eerst een echt fundamentele verandering mee in onze omgang met data. Door geavanceerde vormen van patroonherkenning los te laten op grote hoeveelheden ongestructureerde data vinden we patronen die we vertalen in geautomatiseerde oordelen. Zowel de menselijke gebruiker, die data (her)kent en invoert, als de database-ontwerper die de ‘datakorsetten’ definieert, dreigen door deze artificiële intelligentie (ai) 2.0 software te worden gemarginaliseerd.
Ondertussen is al overduidelijk dat aan die slimme statistiek-programmatuur (want dat is ai-versie 2.0) grote beperkingen kleven. Zo heb je weinig aan data om patronen in te zoeken wanneer die data zelf biased is. En je hebt sowieso veel niet of slecht gestructureerde data nodig om betrouwbare patronen te vinden. En zo krijgt de mens weer een rol, nu als data cleanser die de ene bias door de andere mag vervangen. Daarbovenop komt dat het gevonden patroon als zodanig niet vaak expliciet valt uit te leggen. We nemen dus beslissingen die we niet begrijpen op grond van data waarvan we de precieze betekenis niet kennen en die vaak ook onvoldoende representatief zijn. Cool!
Vage terminologie
De situatie heeft ondertussen alles in zich om nog erger te worden. Zo maakt de wetgever geen onderscheid tussen klassieke programmatuur die een bruto-netto berekening maakt en een machine learning engine die belastingfraudes opspoort op basis van door onze belastingambtenaren vastgestelde fraudegevallen en een berg, deels geheim gehouden gedragsdata. Voor onze Kamerleden zijn het allemaal ‘algoritmes’, terwijl ze ook alles wat ‘data’ heet op een hoop gooien.
We moeten snel stoppen met vage terminologie. We zouden onderscheid kunnen maken tussen klassieke (computer)programmatuur en moderne ai-toepassingen die we desnoods ‘algoritmen’ kunnen noemen. Hetzelfde zou moeten gelden voor data. Bij gebrek aan een goede term – iemand een voorstel? – duid ik slecht gestructureerde en gedefinieerde data maar aan met de term ‘d@t#’. Natuurlijk is de datawereld niet binair, maar laten we beginnen met twee termen, voordat we full LHBTIQ+ gaan.
Patroonzoekerij
‘Data’ van ‘d@t#’ onderscheiden is geen woordenspel. Zelf kreeg ik te maken met een situatie waarbij een machine learning algoritme werd losgelaten op een berg gestructureerde data. De d@t#-experts waren niet geïnteresseerd in de netjes in onze data dictionary beschreven betekenis van tabellen en rubrieken. Al onze data waren d@t#.
In plaats van op onze schouders te staan begonnen ze bij de grond met hun patroonzoekerij. Na een mislukte poging tot communicatie heb ik al mijn data maar platgeslagen. Patroonzoeksoftware die niet weet wat een domein of een verwijzende sleutel is, kan ik helpen door alle omschrijvingen in de master-data-tabellen en alle betekenissen van codes expliciet in de data op te nemen.
Of het heeft geholpen weet ik niet want zo werkt AI 2.0.
Er ligt hier een wereld van onderzoek en ontwikkeling braak! Wie pakt het op?
(Dit artikel verscheen eerder in Computable-magazine #02-03/22.)
Politiek he, dus waarom niet iets met dataspeed 130 tussen 19:00 en 06:00 en 100 daarbuiten. En betrouwbaarheid oplossen met blockchain 😉
Uitgaande van de vervanging is de eerste a een @ en de tweede een # waardoor er iets misgaat in de patroonherkenning. De menselijke intelligentie herstelt zo’n fout automatisch doordat we vaak aan een half woord genoeg hebben. Maar ik spreek voor mezelf want volgens een psychiater in Roden ben ik een dyslectische borderliner dus h3lp !k h3b 33n pr0bl33m.
Zelf herken ik me niet in de diagnose en anderen ook niet hoewel ik moet zeggen dat ik me soms dyslectisch voel als ik de communicatie lees van jongeren waarin combinaties van cijfers en letters een geheel nieuwe taal wordt. Mijn filosofische criticaster aangaande taal zal het volgende hopelijk niet vertalen in een wiskundige formule: 2b≠2b want kunst van communiceren is niet de taal maar het begrip ervan.
Zo ook met data want ik vrees dat Rene een beetje in het verleden is blijven hangen als het om de ‘ordnung muss sein’ van de gestructureerde data gaat. Want wat betreft de zoektocht naar patronen hebben we de Systems of Record vervangen door Systems of Collaboration met als gevolg dat we de sleutels kwijt zijn. Neem bijvoorbeeld NLxxxxxx639B01 wat een ZZP-er direct herkent als een BTW-nummer in plaats van een KvK-nummer. De dyslectische borderliners vermoeden hierin een BSN en doen een elfproef, een rekenkundige truc in hun zoektocht naar bevestiging.
Rekenkundige controles als digitale stempeltjes in Systems of Collaboration hoeven natuurlijk niet de cryptografische blockchain te zijn want aloude CRC om te controleren of de data niet aangepast is kan natuurlijk ook. Punt is wel dat we uiteindelijk steeds meer rekenkracht nodig hebben omdat we steeds minder vertrouwen in de ‘loketbeheerders’ krijgen.
Welke wereld van onderzoek en ontwikkeling ligt er nu eigenlijk braak.
Wat ook alweer een verwijzende sleutel is in een traditionele relationele DB ?
Bijzonder ook het onderscheid tussen klassieke programmatuur en algoritmen.
En de data in het geheugen van Rutte, is dat vanzelf ook meteen d@t# geworden ?
Explainable AI voor kamerleden, alleen kunt u het nogmaals een keertje uitleggen.
Hoe zou zoiets gaan ?
“Ik heb geen beta studie dus hoef het niet te snappen, als ik maar kan doen alsof.”
Van slimme mensen achter domme terminals naar slimme terminals met daarachter ..
En wie heeft verantwoording voor de kwaliteit van de data, de AI of de relationele DB ?
Wat betekent nou wat en hoe betrouwbaar is het dan ?
Lijkt erop dat de Rene met de platte 🙂 oplossing kwam.
“Na een mislukte poging tot communicatie”.
Dat belooft wat.
Gelukkig gaat het maar om zoiets onschuldigs als tienduizenden huishoudens beschuldigingen van fraude.
Tikkie terug Dino want geen blockchain maar wat dan wel als je de oorsprong van de data vast wilt leggen?
2B≠2B maakt van data het digitale residu van een handeling om het cryptisch te zeggen. Je digitale alibi in een wereld van onderzoek en ontwikkeling welke steeds meer om de profilering draait. De bekende datasyntheses buiten de relationele databases van René beginnen met een export waarna ijverige ambtenaren er de bekende discrimentoire algoritmen op loslaten.
“In plaats van op onze schouders te staan begonnen ze bij de grond met hun patroonzoekerij.”
Dat soort tendentieuze uitspraken geeft aan waarom degene die het probleem veroorzaakt hebben het niet op kunnen lossen want hoe betrouwbaar is de informatie in de database?
De oorsprong van data vastleggen.
daar noem je wat.
Knap lastig als onze president meerdere geheugens heeft en een doctrine mbt openbaarheid.
Heel goed dat Rene blijft hangen in zijn systems of records, of wil je uitgaan van de sms-jes die Rutte nog wel zijn nokia laat staan 😛
Functie elders voor wie kritische vragen stelt en niemand die weet welke oorsprong die data nou had.
Volgens mij bedoelt Rene dat je bij relationele databases op de schouders kunt staan van de vastgelegde relaties in je patroonherkenning ipv in wilde weg te gaan zoeken. Datadictionary. Toch weer die definities he.
Wie welk probleem veroorzaakt heeft is ook zo’n lastige.
Misschien kun je het met je psychiater in Roden bespreken.
Controlerende functies zijn niet alles want als het resultaat je niet bevalt zeg je bijvoorbeeld gewoon dat je je hierin niet herkent 🙂
De Chain of Custody (CoC) is misschien niet een algemeen begrip maar ook geen onbekende in de wereld van ECM. Punt is dat steeds meer informatie zich buiten de SoR bevindt doordat de nieuwe terminal in de Systems of Collaboration niet alleen om de SMS gaat als we kijken naar het feest van de visuele herkenning en het platslaan van data in QR-codes die zelfs een dyslectische borderliner niet kan lezen zonder de terminal van een smartphone. De nieuwe taal is machinetaal!