Bedrijven verzamelen meer en meer data, big data, en deze data moet geanalyseerd worden. De vraag naar data scientists groeit daarom snel. In Nederland staan er momenteel zo’n vijfduizend vacatures open voor dit ‘beroep van de toekomst’. Ik greep deze situatie aan om eens de functieomschrijving van de data scientist onder de loep te nemen. Wat blijkt? De opvatting van wat een data scientist is en moet kunnen loopt vaak uiteen. Drie misvattingen op een rij,
Branchekennis is vereist
Vaak wordt er van data scientists ervaring in de branche gevraagd. In mijn optiek is dat allesbehalve een goed selectiecriterium bij het vinden van een data scientist. Juist het gebrek aan branchekennis kan een voordeel zijn. Je moet iemand hebben die honderd keer ‘waarom’ durft te roepen. Die alle processen en activiteiten met een frisse blik onder de loep neemt. Iemand die geen genoegen neemt met onderbuikgevoel en branchekennis, maar data en statistiek laat spreken en samenbrengt met de reeds aanwezige branchekennis binnen een bedrijf. Een voorbeeld: De directeur van een retailbedrijf kent zijn klanten als geen ander. ‘Vaste klanten komen voor de weekboodschappen en de onregelmatige klanten komen bijna altijd voor de alcoholische dranken’, weet hij. Jarenlang baseert hij zijn marketinguitingen op deze ‘kennis’. Na data-analyse blijkt echter dat zijn acties op basis van onderbuikgevoel en intuïtie totaal niet stroken met de werkelijkheid. Die onregelmatige klant komt namelijk helemaal niet om alcohol te kopen. Dit betekent dat hij de kosten van dure campagnes had kunnen besparen en de marketing meer rendabel had kunnen maken. Hij werd hier gehinderd door zijn branchekennis, iets waar de onbevangenheid van statistiek geen last van heeft.
Ervaring met bi.
Business Intelligence en Business Analytics worden vaak door elkaar gebruikt, ook bij de vraag naar data scientists. Er zitten echter grote verschillen tussen. Het grootste verschil tussen een bi-specialist en data scientist is dat de tweede meer diepgaande kennis van statistiek en zelflerende algoritmen heeft. Verder meet je bij Business Intelligence wat ‘is’ of wat ‘was’, vaak met behulp van kpi’s. Deze zaken geef je vervolgens overzichtelijk weer in rapportages zodat deze gebruikt kunnen worden om te sturen. De data is gestructureerd. Bij Business Analytics gaat het daarentegen regelmatig om een vergaarbak aan diverse data en een vraag die niet afgebakend is. Een producent in de automotive branche rustte haar voertuigen uit met honderden sensoren. Doordat deze sensoren op verschillende momenten en plekken geplaatst werden, ontstond er een rommelige set aan data waar bi niet veel verder mee komt. Met behulp van machine learning, correlatieanalyse, patroonherkenning, time series analyse en anomaliedetectie kunnen echter motorprestaties geanalyseerd, foutoorzaken opgespoord, en onderhoudsnoodzaak voorspeld worden.
Met alleen een data scientist redden we het wel.
Bedrijven die op zoek zijn naar een data scientist, zoeken in werkelijkheid een combinatie van een programmeur, een business analist en een statisticus die in staat is om zijn vindingen krachtig te presenteren. Het is enorm belangrijk om de waarde naar de business te borgen: data zonder vertaling naar de business heeft geen enkele zin. De data scientist die gezocht wordt is een schaap met vijf poten. Ten eerste moet hij of zij verstand hebben van data(-logistiek); het proces van data vergaren, het ontstaan van data en hoe het door de organisatie geleid wordt. Ten tweede moet hij procedurele informatie verwerken en kunnen programmeren (denk bijvoorbeeld aan Mapreduce en Hadoop). Je ziet steeds vaker dat front- end en back-end developing samen gaan. Ten derde moeten ze natuurlijk een kei zijn in statistiek en ervoor zorgen dat de uitkomsten statistisch gezien ook hout snijden. In de vierde plaats is storytelling belangrijk. Hoe krijg je het verhaal tussen de oren van de stakeholders? Tot slot (poot vijf van het schaap) moeten de nieuwe inzichten in de organisatie ingebed worden. Welke processen moeten eventueel anders? Hoe zit dat met governance? Welke impact heeft het op de enterprise architectuur? Het gaat hier uiteindelijk om it change management. In de toekomst zal data science een onderdeel uitmaken van de enterprise architectuur, maar zo ver zijn veel bedrijven nog lang niet. Kortom: de vraag naar een data scientist is in werkelijkheid een vraag naar twee of drie mensen. Organisaties moeten ervoor waken dat ze niet van één persoon verwachten dat die het hele datastraatje moet kunnen doorlopen.
Conclusie
Wanneer we deze drie misvattingen aan de kant zetten zal de zoektocht naar een geschikte data scientist een stuk eenvoudiger worden. Vacatures zullen dan niet meer gevuld zijn met eisen voor een schaap met vijf poten en organisaties kunnen dan daadwerkelijke stappen maken met data analytics omdat ze weten wie en wat ze nodig hebben.
Mooi artikel Remko! Kijk uit naar een volgende.
Het eerste punt klopt echt niet. Het gaat er niet om of iemand wel of geen branchekennis heeft, het gaat erom dat iemand openstaat voor andere inzichten en ideeën. Ook iemand met branchekennis kan een open mind hebben, net zoals mensen buiten die branche ook vastgeroeste ideeën kunnen hebben over die branche.
Het derde punt klopt wel, maar in de praktijk zie ik data scientists altijd in een team werken waar juist al die poten inzitten. Ik vraag me dan ook af of het echt een misvatting is, of dat ik alleen beter georganiseerde organisaties ken?
Branchekennis wordt vaak enorm overschat. De meeste mensen doen net alsof wat de meeste mensen in een branche doen heel bijzonder of enorm ingewikkeld is. Zodra ik merk dat mensen complexiteit als “rookgordijn” gaan opwerpen ben ik op mijn hoede. Wat ze vaak bedoelen is “ik wil niet veranderen en ik loop hier al duizend jaar rond, dus wie ben jij” (ik charcheer!). Eens met Jelle, de andere kant moet openstaan, anders heeft geen enkele analyse zin.
Punt 2 is wat mij betreft definitie geneuzel.
Punt 3 vind in alle functies plaats. Het verbaasd me altijd weer dat “anderen” van jou eisen dat je alles weet. Vaak blijkt dat je al gauw meer inzicht en overzicht hebt in zaken waar de “eisende partij” sterk achterblijft. Ook ik word achterdochtig bij mensen die zeggen dat ze alles weten en nog achterdochtiger als mensen het gaan eisen. Geen wonder dat het “moeilijk” is om mensen te vinden in de ICT.
“De onbevangenheid van statistiek”
Mooi.
en diep.
Universeel toepasbaar.
“Je moet iemand hebben die honderd keer ‘waarom’ durft te roepen.”
waarom ?
waarom ?
waarom ?
Die fase had ik ooit ookt. Dan zei mijn moeder “omdat ik het zeg !” 😉
Dat was leerzaam.
In de beleving van een bedrijf komt een scientist met antwoorden, niet met vragen. Wie vraagt is lastig of dom, of beide. Bedrijven willen ook geen 3 specialisten, behalve als ze voor de prijs van 1 komen. De directeur zoekt een goedkope bevestiging voor zijn onderbuikgevoel en intuitie. Niet iemand die aantoont dat die niet stroken met de werkelijkheid. Dat de directeur het jarenlang bij het verkeerde eind had. Lastig en dom.
waarom ?
waarom ?
Business Intelligence is een paradox.
Daryl Huff heeft ooit het boek “How to lie with statistics” geschreven, dat is aan te raden en zelfs gratis van Internet te halen.
De problemen die komen wanneer iemand in de gezondheidszorg geen branchkennis heeft kan iedereen in het ziekenhuis ervaren waar IT belangrijker is als de zorg voor de patient, dat zal in andere branches niet anders zijn bijvoorbeeld de autobranche.
Een goede statisticus de wat van programmeren begrijpt kan het kodekloppen ook uitbesteden, de definitie van de algoritmen vragen wat meer kennis. Gezien de berichten hier in computable geloof ik dat die ontwikkeling niet erg snel gaat.
Blij te zien dat dit artikel veel herkenning, maar ook kritische vragen oproept.
Branchekennis doet natuurlijk niet altijd meer kwaad doet dan goed. *Eerlijke* 😉 statistiek kan echter zeer verhelderend werken men mag er toch vanuit gaan dat branchekennis reeds in overdaad aanwezig is! Ik zou aanraden om de primaire neiging om naar nog meer van hetzelfde te zoeken te onderdrukken en in plaats daarvan een data scientist als ‘frisse wind’ te zien. Synergie wordt juist bereikt door (zonder rookgordijnen en mèt open mind) specialismen aan te trekken en daarmee samen te werken.
@Jan van Leeuwen: Spijker op zijn kop. Een goede bedrijfsanalyse (business analist) helpt te voorkomen dat er “IT-oplossingen” gebouwd worden. Data scientist, branche strategist, statisticus, coding ninja, data infrastructure guru, business analyst, visualization artist… Als al deze rollen door één persoon vervuld moeten worden, ben ik benieuwd hoe diegene deze treinlading aan kennis up to date houdt èn al zijn stakeholders bedient. @Dino: Dit betekent niet dat er drie specialisten fulltime moeten komen, maar dat wellicht in projectvorm 3x 1/3 specialist gevraagd moet worden het probleem te kraken.
Ik hoop dat we die diversifiëring van rollen (zoals @Atilla Vigh aangeeft) zoals die in volwassen vakgebieden altijd aanwezig zijnmeer/vaker gaan zien die in . “Computerspecialisten” bestaan immers ook allang niet meer ;).