Nog steeds spreken we over het verschil tussen ongestructureerde en gestructureerde data. Maar dat verschil is niet meer relevant. Moderne technieken als kunstmatige intelligentie maken het mogelijk ongestructureerde gegevens inhoudelijk te ontsluiten en te gebruiken in geautomatiseerde analyses, zoals business intelligence.
‘Ongestructureerde data zijn data die niet een gespecificeerd format volgen […]. Het zijn data die niet verblijven in een traditionele rij-kolomdatabase. Ze zijn dus het tegenovergestelde van gestructureerde data die opgeslagen worden in velden in een database’, aldus een gebruikelijk onderscheid. Maar is dat verschil tegenwoordig nog relevant?
Nu de opslagcapaciteit van schijven vrijwel onbeperkt is geworden, zijn er geen hardwarematige beperkingen meer op documenten, grote bestanden, harde schijf of in een database op te slaan. We kunnen als we willen gestructureerde data en ongestructureerde dat in hetzelfde systeem opslaan. Of het nu een relationele database, Hadoop-cluster of een Data Reservoir is. Alle soorten data staan door elkaar heen in één opslagsysteem.
‘Gestructureerde gegevens houdt in dat voor alle gegevens de bron, betekenis en gegevenstype duidelijk zijn’, schrijft Dewt de Baat. En: ‘Ongestructureerde gegevens geven geen enkele aanduiding in welk formaat de data komt en geven ook niet aan wat de betekenis van het gegeven is.’ Maar een gegeven zonder duidelijke betekenis is een probleem, leert data management ons. Vanuit een metadata en datakwaliteits-oogpunt moeten we daar iets mee doen.
‘Metadata is de context en beschrijvingen van de data (het type, wat het betekent, waar het zich bevindt, hoe het wordt gebruikt, etc.)’, aldus Anne Marie Smith.
Machine-interpreteerbaar
In het tijdperk van big data en business-intelligence wordt ernaar gestreefd dat elk bestand machine-leesbaar is. Zolang de computerbestanden een bekende, of liever gestandaardiseerde, opbouw hebben, zijn ze machine-leesbaar. Formaten die we ongestructureerd noemen, zoals pdf, jpeg en mp3, zijn keurig genormeerd. Maar ook deze data hebben inhoudelijk structuur en ordening. Zo moet een tekst voldoen aan syntactische, semantische en andere regels. Dus structuur is ook de discussie niet, maar wat dan wel?
Wat wordt bedoeld, is dat de gegevens machine-interpreteerbaar zijn. Een computer kan het bestand niet alleen lezen, maar ook op een of andere manier begrijpen wat erin staat. De inhoudelijke structuur maakt dat mogelijk. Binnen data-management bedoelen we dat we de betekenis van de data kennen. Staat er een veld met het label ‘geboortedatum’, dan zal dat de geboortedatum van een persoon zijn. Als de context van dat veld inderdaad een persoon is. Deze context moet ook bekend zijn bij de computer. Pas als we de betekenis en context van gegevens weten, kunnen we de data correct interpreteren.
Kunstmatige intelligentie
Maar bij ongestructureerde data is het toch altijd de mens die de betekenis moet achterhalen, door bijvoorbeeld een tekst door te lezen? Naast het feit dat ook tabelvormige data tekstvelden kan bevatten die alleen mensen kunnen begrijpen, is het interpreteren van tekst, beelden en geluid altijd een menselijk activiteit geweest. Wat de verwerking van die types data bewerkelijk maakte.
Waar voorheen ‘intelligente’ algoritmes vooral werden gebruikt voor data-extractie, bijvoorbeeld een bsn, isbnof postcode, kan nu veel meer gedaan worden. De nieuwste kunstmatige-intelligentiesystemen extraheren ook data, maar gebruiken deze data niet (alleen) om documenten mee te categoriseren, maar ook om de tekst verder te herkennen. We zijn van de vraag ‘wat staat er in de tekst?’ naar ‘waarover gaat de tekst?’ gegaan. Dit beperkt zich niet alleen tot tekst, maar ook tot al dan niet bewegende beelden en geluid.
‘Slimme machines kunnen zien en horen, en afbeeldingen, spraak, teksten en gezichten herkennen. Tevens kunnen ze grote hoeveelheden ongestructureerde data doorploegen op zoek naar patronen of nieuwe inzichten’, aldus Jarno Duursma.
Op die manier kan aan wat we vroeger ongestructureerde data noemde betekenis worden gegeven. Niet alleen door goede metadata, maar ook door de inhoud van het bestand te interpreteren. Van de linguistische ontleding van teksten door IBM Watson tot de statistische correlaties van deep learning kunnen machines nu allerlei teksten begrijpen’, of beter: ‘interpreteren’.
Toepassingen
Het mooie is, dat dezelfde technieken ook zijn te gebruiken om gestructureerde gegevens te interpreteren. Al weten we bij metadata en data van goede kwaliteit op voorhand beter wat gestructureerde datavelden betekenen, de interpretatie van deze data is soms nog het probleem. De vertaalslag van een business vraag naar een statistische analyse moet nu nog worden gedaan door een professional. Maar binnenkort kan kunstmatige intelligentie dat ook zelf doen. Daarbij zijn gestructureerde en ongestructureerde gegevens in één analysemodel te combineren.
Er nu talrijke voorbeelden waarbij ongestructureerde gegevens op inhoud worden geanalyseerd. IBM had Watson for Oncology, waarbij medische literatuur werd doorzocht op aandoeningen die pasten bij de symptomen van een patiënt. De ECB gebruikt een tekstanalyseplatform voor ongestructureerde gegevens voor topic modelling, sentimentanalyse, automatische vertaling, tekstsamenvatting en insight engines. Bij de Kansspelautoriteit wordt automatische tekstanalyse gebruikt voor het signaleren van mogelijke gokverslaving.
Deze nieuwe technieken maken het mogelijk grote hoeveelheden ongestructureerde gegevens inhoudelijk te analyseren. En daar zit het grote voordeel: bestanden van allerlei formaat zijn niet langer ontoegankelijk en dus moeilijk bruikbaar, maar ze kunnen nu actief worden gebruikt voor Business Intelligence en kennismanagement. Gaat dit allemaal foutloos? Nee, dat nog niet. Net als mensen kunnen ook machines zaken anders of verkeerd interpreteren. Dus moeten we op dit moment de resultaten van KI-analyses en -aanbevelingen nog altijd zelf kritisch beoordelen.
Door gebruik te maken van kunstmatige intelligentie is de inhoud van ongestructureerde en gestructureerde bronnen te vinden, samen te vatten, te analyseren en te delen. Door alle vormen van gegevens te gebruiken, krijgen data-analyses en ‑inzichten meer diepgang, accuratesse en precisie. En daar worden de data-gedreven beslissingen alleen maar beter van.
De filosofische discipline die zich bezig houdt met de interpretatie van tekst heet hermeneutiek.
Zie bijvoorbeeld: https://nl.wikipedia.org/wiki/Hermeneutiek
Een persoon is niet een context maar een concept.
En een concept is niet een logisch begrip maar een ontologisch begrip.
Nummer 7+ heeft weer eens gesproken, de ontologie van het scorebord aangaande het concept reaguurder is wat onpersoonlijk in de waardering maar tekst en context zijn nog altijd twee heel verschillende dingen. Taal blijft dan ook een dingetje want de ontleding van literatuur, recht en religie kan uiteindelijk niet zonder de interpretatie van tijd.
Denken, doen en twijfelen want begrijpbare AI begint een maatschappelijke discussie te worden doordat steeds meer mensen tot het inzicht komen dat interpretatie van data zonder gevoel om een harteloze maatschappij gaat. Morele aspecten gaan een rol spelen omdat een onjuiste interpretatie van de data vervelende consequenties kan hebben.