Onlangs hield het Platform Linked Data Nederland (PLDN) een congres op de inspirerende locatie van Beeld & Geluid op het Media Park Hilversum. Behalve sprekers van het ministerie van OCW, het Kadaster en DUO, was datahub-leverancier MarkLogic uitgenodigd om te vertellen hoe organisaties de principes achter linked data zelf kunnen implementeren.
Organisaties beginnen de voordelen van linked data te ontdekken, zo blijkt uit de grote opkomst van het congres van Platform Linked Data Nederland. Ruim 150 vertegenwoordigers van overheidsinstanties, it-dienstverleners en bedrijven zijn aanwezig voor een middag vol presentaties, een interactief Linked Data-spel en om ervaringen te delen en kennis uit te wisselen.
De laatste jaren nodigt het platform wel vaker softwareleveranciers uit om te vertellen welke tools zij aanbieden voor het implementeren van linked data, en hoe zij omgaan met uitdagingen als performance en nieuwe standaarden als SPARQL. Voor deze editie is MarkLogic uitgenodigd, die als leverancier van een enterprise NoSQL-dataplatform de nodige ervaring heeft met linked data-projecten. Voorafgaand aan het congres verzorgde MarkLogic bovendien een drukbezochte workshop, waarin deelnemers binnen drie uur een semantische search-applicatie konden bouwen. En tijdens het congres zelf geeft Matt Turner, cto van het bedrijf, een presentatie over zijn visie op datagebruik binnen organisaties, en de rol die linked data en een multimodel-aanpak daarbij speelt.
Graph-database
Linked data is een methode om gestructureerde data op zo’n manier te publiceren dat ze onderling zijn te koppelen, en beter te gebruiken zijn door middel van semantische queries. Dit werkt op basis van bestaande webtechnologieën als http, rdf en uri’s, maar in plaats van enkel via webpagina’s informatie te ontsluiten aan lezers, is linked data erop gericht om informatie ook voor computers leesbaar te maken. Onderdeel van de visie achter linked data is dat internet uiteindelijk een wereldwijde database wordt.
Tijdens de opening van het congres wordt benadrukt dat 2018 het jaar is van de ‘graph-database’. Simpel gezegd zijn dit databases die op basis van een wiskundige diagram (graph) zijn opgebouwd, die een verzameling van gekoppelde data-nodes beschrijft. Elke node bevat bepaalde informatie en data-objecten, die in dit model flexibeler aan elkaar zijn te koppelen dan met een traditionele relationele database. Graph-databases en linked data worden door vrijwel alle grote technologiebedrijven ter wereld gebruikt, van Google en Facebook tot Apple en Amazon. Ook Nederlandse bedrijven en overheidsinstanties investeren in meer of mindere mate in deze nieuwe technologie. Onderzoeksbureau Gartner heeft de graph-database onder de noemer Knowledge Graphs opgenomen in zijn jaarlijkse HypeCycle, maar plaatst deze praktisch aan het begin van de cyclus. En dat terwijl de technologie nu al op grote schaal meerwaarde levert voor organisaties. Tijdens een interactieve rondvraag onder het publiek blijken de aanwezige organisaties zich in vrijwel alle fasen van de HypeCycle te bevinden, van voorzichtig kennismaken met de technologie tot geslaagde testprojecten, grote aanbestedingen en linked data-projecten in productie.
Semantiek in de praktijk
Matt Turner begint zijn presentatie met de opmerking dat hij het net als de rest van de aanwezigen niet eens is met de positie die de Knowledge Graph in de Gartner HypeCycle wordt toegedicht. Zo is MarkLogic al sinds 2012 met semantiek en linked data bezig voor een groot project rond het catalogiseren van media voor de BBC in het Verenigd Koninkrijk. Volgens Turner komt het zelfs voor dat klanten gedurende één project door de hele HypeCycle heen geleid worden.
Hij noemt het opmerkelijk dat het centraal stellen van data bij de bedrijfsvoering pas sinds kort echt speelt binnen organisaties. Slechts vijf jaar geleden waren mobiele applicaties en business-intelligence veruit de belangrijkste prioriteiten, en in veel mindere mate het integreren en koppelen van gegevens. Toch waren er ook in die tijd al visionairs als Sven Fund, die in 2013 een paper schreef, getiteld ‘We need integrated publishing’, waarin hij uitlegt hoe data in elk onderdeel van een organisatieproces gebruikt moet worden.
In 2016 poneerde marktanalist Shelly Palmer de stelling: ‘Data rich or data poor, companies with the greatest ability to put data into action are going to win.’ Volgens Turner was dit een oproep tot actie voor organisaties om serieus met hun data-infrastructuur aan de slag te gaan, met als doel gegevens over klanten beter te gebruiken. Maar hoe doe je dat?
Dit proces wordt door MarkLogic het ‘industrialiseren van data’ genoemd. Organisaties moeten hun data echt als een belangrijk middel gaan zien. Er wordt veel tijd gespendeerd aan processen en allerlei fysieke aspecten van de organisatie, maar uiteindelijk zou het werken met gegevens binnen een organisatie evenveel aandacht moeten krijgen.
Om te helpen bij dit proces ontwikkelde MarkLogic de Operational Data Hub, een specifieke toepassing voor het integreren van datasilo’s in een enkele database. Hiermee wordt een van de grootste uitdagingen van organisaties opgelost, namelijk dat informatie van allerlei applicaties binnen organisaties vaak verspreid is opgeslagen. Met een datahub worden deze gegevens binnen één omgeving verenigd en aangevuld met een semantische laag, waar alle onderliggende applicaties vervolgens uit kunnen putten. In feite kunnen organisaties met een datahub hun bestaande it-stack vereenvoudigen en moderniseren, en de principes van linked data en de graph-database implementeren.
Context is king
Een van de grootste voordelen van de flexibele datastructuur van een datahub is volgens Turner dat het gegevens voorziet van context. In een relationeel datamodel moeten gegevens in vaste kolommen gepast worden, waarbij de context in feite wordt verwijderd. MarkLogic gebruikt onder andere NoSQL-databasetechnologie en triples, waarmee bedrijven hun gegevens ongeacht het formaat en zonder verlies van context opslaan en onderling linken. Denk aan alle metadata of bijbehorende documenten. Linked data en semantische structuren geven context aan data, en die wil je als bedrijf absoluut behouden als je gegevens optimaal wilt gebruiken.
De operationele datahub is in die zin een gebruiksvriendelijke manier om gegevens bij elkaar te brengen, te cureren (specifieke content uit bronnen verzamelen en selecteren, meestal aangevuld met eigen aanvullingen of persoonlijke noten, en op eigen platformen publiceren), en deze vervolgens met elkaar te linken. Linked data is volgens Turner de lijm die alle gegevens met elkaar verbindt in de datahub. En deze aanpak blijkt succesvol, zo blijkt uit klantreferenties. ABN Amro implementeerde bijvoorbeeld een datahub om beter te voldoen aan wettelijke rapportageverplichtingen.
Aan de slag
Turner besluit zijn verhaal met de opmerking dat organisaties echt aan de slag moeten met hun data, en die moeten ‘industrialiseren’ om ook in de toekomst succesvol te blijven. Ze moeten hun gegevens bij elkaar brengen in een uniform dataplatform en voorzien van een semantische laag, om hun datagebruik veel slimmer te maken. Met name voor de aanwezigen die zich nog wel vroeg in Gartner’s HypeCycle bevinden, is dit een waardevolle boodschap.
Let wel dat op enterprise niveau dit soort structuren lastig te besturen is omdat graph-databases eigenlijk nog niet geschikt zijn voor echte grote enterprise platformen. Daar wordt hard aan gewerkt en elk jaar komt er verbetering in. Het is vaak dan ook aan te bevelen om die data deels te ontsluiten via additionale search engines zodat je het gemak hebt van die brede context en ook snel kan zoeken.
Ben nu al zo’n 5 jaar met diverse graph databases en het is toch echt een heel ander beestje dan RDBMS. Zeer zeker de moeite waard om eens door te nemen want het is erg leuk speelgoed.
Beste Johan,
Je punt is terecht. Scalability van data met miljarden triple is (en blijft?) een behoorlijke uitdaging. Je geeft zelf eigenlijk een heel goede oplossing waar we bij MarkLogic volledig achter staan. Combinatie van de juiste technieken voor de juiste toepassingen. Zeg maar… de schroevendraaier voor de schroef in de muur. Omdat MarkLogic een multi-model database is, ondersteunen we in dezelfde database zowel document als graph data. We maken het door de ingebouwde search engine ook mogelijk om gecombineerd te zoeken: gestructureerde queries, ongestructureerde searches en sparql voor de graph data gelijktijdig. M.a.w.: de (on)gestructureerde data gaat in documenten als JSON of XML, de relaties en feiten gaan in triples. Op die manier heb je het beste van twee (drie?) werelden met de best mogelijke performance. Een soort ‘schroevenhamer’ zeg maar