Een data steward is een opkomende en nieuwe functie. Het is iemand die (onderzoeks)data op een goede manier ontsluit en toegankelijk maakt, zodat anderen deze kunnen verrijken of inzetten voor een vervolgonderzoek. Dat kan vanuit een it-achtergrond, maar ook vanuit beleidsfuncties. Computable spreekt Mischa Barthel, docent informatica aan Hogeschool Leiden, over deze opkomende functie.
Een data steward kan vanuit meerdere contexten worden ingezet, maar is nu voornamelijk actief in de wetenschappelijke onderzoekswereld. Die sector kampte met problemen rondom de opslag, deelbaarheid en reproduceerbaarheid van onderzoeksdata, waardoor de rol van data steward tot stand is gekomen.
‘In de wetenschap worden veel data geproduceerd en opgeslagen. Ze worden niet enkel door wetenschappers gegenereerd. Ook hogescholen en universiteiten, het bedrijfsleven en de overheid creëren en verwerken onderzoeksdata’, legt Barthel uit. ‘De onderzoeksgegevens verschillen nogal in soort, omvang en opslagmethode. Zo kan de uitslag van een enquête onder twintig respondenten op een Excel-spreadsheet worden opgeslagen, terwijl een bioloog bijvoorbeeld gigabytes of terabytes aan data genereert tijdens het sequencen van het dna. Vaak worden de onderzoeksresultaten verwerkt, conclusies getrokken en alles samengevoegd en gepubliceerd in een rapport of wetenschappelijke artikelen.’
Datadeling
De opgedane data moeten beschikbaar en reproduceerbaar blijven. Enerzijds ter controle, bijvoorbeeld als het gaat over de werking van medicijnen. Anderzijds voor hergebruik in een vervolg- of ander soort onderzoek.
‘In de praktijk blijkt dat deze datadeling op meerdere vlakken moeilijk’, vertelt de docent. ‘Allereerst zijn de data soms niet meer toegankelijk. Dat gebeurt bijvoorbeeld als een wetenschapper de informatie op zijn laptop heeft opgeslagen en daarna van werkgever wisselt. Ook gebeurt het dat data wel beschikbaar zijn, maar dat deze enkel te bemachtigen zijn door ervoor te betalen. Dat gebeurt bijvoorbeeld bij wetenschappelijke uitgevers, waarbij de onderzoeksartikelen en bijbehorende -data achter een betaalmuur worden gezet. Dat is niet wenselijk voor de continuïteit van wetenschappelijk onderzoek. Tot slot kunnen de gegevens wel beschikbaar zijn, maar kan het zijn dat ze onbegrijpelijk voor anderen zijn. De ruwe data zijn dan bijvoorbeeld als een csv-bestand toegankelijk, maar de betekenis van de data is niet duidelijk.’
Fair
Om de problematiek rondom datadeling te adresseren, zijn een aantal jaar geleden de zogeheten fair-principes opgesteld. Fair staat voor findable, accessible, interoperable en reusable (vindbaar, toegankelijk, interoperabel en herbruikbaar). Deze methodiek wordt internationaal gehandhaafd door de zogeheten Go-Fair International Support and Coordination Office (Gfisco). En dat is ook precies waar de data steward een rol speelt.
Het Engelse woord stewardship betekent letterlijk vertaald naar het Nederlands rentmeesterschap. Dit is een ethiek die zorgt draagt voor een verantwoordelijke planning en het beheer van middelen (resources). Deze rol kan in meerdere vakgebieden worden toegepast, van het milieu, de natuur en de economie tot informatica en technologie.
It’er of wetenschapper?
In de onderzoekswereld zorgt de data steward dat de onderzoeksgegevens beschikbaar en toegankelijk blijven voor vervolgonderzoek. ‘De functie zweeft daarom tussen it’er en wetenschapper in’, concludeert Barthel. ‘Eigenlijk is de concrete invulling van het beroep nog niet bekend. Er wordt nog invulling aan gegeven. Dat betekent dan ook dat het concrete kennis- en takenpakket nog wordt opgesteld.’
Voor nu wordt de functie door zowel it’ers als wetenschappers bekleed. Zo zijn er bio-informatie-wetenschappers die via hun onderzoek een link met data hebben. Zij maken een verschuiving in hun carrière, waarbij de focus komt te liggen op het zorgdragen voor informatie. Aan de andere kant zijn er it’ers die zich bezighouden met datamanagement binnen de wetenschap. Zij verdiepen zich meer in de wetenschap om de onderzoeksdata van bijvoorbeeld een bioloog beter te begrijpen.’
‘De data steward met een it-achtergrond richt zich op technische zaken, zoals het opzetten van databases of het faciliteren van de juiste infrastructuur voor dataopslag en -uitwisseling’, vervolgt Barthel. ‘Daarnaast heb je de beleidsmatige data stewards. Zij houden zich bezig met processen en procedures, bijvoorbeeld op het vlak van privacy en security. Vanuit deze achtergrond moet de data steward de wetenschappers ondersteunen om op een juiste manier met data om te gaan. Denk hierbij aan privacygevoelige informatie, zoals patiëntdata.’
Welke organisatie?
Naast een verdeling in werkfocus (technologie of beleid), wordt de data steward op verschillende plekken binnen een organisatie ingezet. Zo kan hij of zij voor een gehele organisatie werken, bijvoorbeeld om een beleid op te stellen voor een universiteit of hogeschool. Een andere optie is om in een gespecialiseerde onderzoeksgroep te werken.
Voorlopig hebben vooral universiteiten en hogescholen data stewards in dienst, schetst de docent, maar alle organisaties hebben baat bij zo’n functie. ‘Eigenlijk is het een vorm van datamanagement. Hoe ga je om met gegevens op het gebied van privacy en security? Hoe ga je om met noodsituaties? Organisaties hebben een groeiend bewustzijn voor de noodzaak van datamanagement, maar er is nog te weinig aandacht. Het is dan ook van belang dat organisaties de data steward opnemen in hun functiegebouw, te beginnen bij de wetenschap en onderwijsinstellingen. Ik hoop dat over zo’n vijf tot tien jaar de data steward bij elk soort organisatie werkzaam is.’
Opleiding tot data steward
Momenteel zijn er nog weinig opleidings- en/of trainingsmogelijkheden beschikbaar voor het vakgebied Data Steward. Hogeschool Leiden heeft in samenwerking met de Gfisco een lesmodule ontwikkeld. Dit keuzevak, dat een kwartaal duurt, werd dit collegejaar (2019-2020) aangeboden aan zo’n tien derdejaars it-studenten binnen de specialisatie ‘business data management’. Volgend schooljaar wordt het keuzevak opnieuw gegeven.
Daarnaast gaat Hogeschool Leiden het lespakket extern aanbieden aan mensen die zich willen laten omscholen tot data steward. Hiervoor gaan in oktober twee pilots van start. Het vak wordt enerzijds in het Nederlands fysiek gegeven op een locatie van de Hogeschool Leiden en anderzijds via een onlinevariant in het Engels. Afhankelijk van de belangstelling, wil de hogeschool het vak vaker in die vormen aanbieden.
Dit artikel staat ook in iets gewijzigde vorm in Computable Magazine #4 2020.
Mischa Barthel
Mischa Barthel heeft een achtergrond in informatica. Na het behalen van zijn master of computer science heeft hij dertien jaar diverse it-functies bekleed, waaronder softwareontwikkelaar en it-architect. Dit deed hij bij zowel it-leveranciers als de Belastingdienst. In 2013 maakte hij de overstap naar het onderwijs. Daarna specialiseerde hij zich in de richting business datamanagement.
Data steward vertaald naar het Nederlands betekent gegevensbeheerder en dat is geen nieuwe functie, de Anglo-Amerikaanse buzzwoorden bingo in een studie informatica voor beleidsfuncties is daarmee veelzeggend voor het niveau. Verhaal doet me dan ook denken aan de discussie die ik ooit eens had over het ‘rentmeesterschap’ van (medische) data, privacy blijft in sommige onderzoeksgroepen namelijk een heikel punt. Academische ziekenhuizen zien patiënten tenslotte niet als mensen maar als onderzoeksobjecten. Linkse academische ideologie van delen is dus gewoon stelen als ik kijk naar de dr. Jekyll & mr. Hyde opzet van een charitatieve stichting die de goede ideeën uit gesubsideerd onderzoek exploiteert middels een BV. Ik ben dus benieuwd hoeveel studenten op de eerdere oproep van Computable gereageerd hebben:
https://www.computable.nl/artikel/nieuws/onderwijs/6859415/250449/nos-student-en-universiteit-in-patent-strijd.html