Liefst 98 procent van de generatie data scientists die nu van de universiteiten komt, gaat voor Google, Facebook, LinkedIn of startups werken. Er blijft dus weinig talent over voor de rest van het bedrijfsleven, zo blijkt uit een studie in opdracht van Deloitte. Ook aan ervaren data scientists is een groot tekort. Aan geen enkele beroepsgroep wordt zo getrokken als aan data scientists. Volgens de zakelijke recensiesite Glassdoor is data scientist momenteel het beste beroep in de VS.
Alle reden dus zuinig om te springen met het schaarse talent. Veel bedrijven zijn bovendien genoodzaakt om hun teams die werken aan data science and machine learning oplossingen, aan te vullen met ict’ers uit een andere hoek.
Tools
De behoefte ontstaat aan platforms waar ook mensen van buiten de data science mee kunnen werken. In opkomst zijn tools waarmee ook kleinere ondernemingen aan kunnen haken op de trend naar toepassing van kunstmatige intelligentie en data science.
Een kleine twintig grotere softwarefabrikanten heeft zich op dit soort platforms gestort, waaronder Dataiku. Sinds april 2016 is het Frans-Amerikaanse bedrijf in Nederland actief, recent ook met een lokale vestiging. Zijn product Data Science Studio (DSS) onderscheidt zich door een betere samenwerking tussen ict’ers van verschillende pluimage mogelijk te maken. De data scientist, data engineer en business analyst kunnen hiermee een hecht team vormen waarbij misverstanden worden uitgebannen. ‘Dit leidt uiteindelijk tot betere dataproducten,’ zegt Hylke Visser, directeur verkoop en business development bij Dataiku. ‘Junioren kunnen hierin samenwerken met senior-data scientists. Ook kunnen mensen worden ingeschakeld die zelf geen data scientist zijn maar wel de concepten van artificial intelligence snappen en een vertaling kunnen maken naar de business.’
Data-projecten worden data science-projecten wanneer extra data uit niet-traditionele bronnen zoals gebruiksgegevens, click data en sensor data aan het systeem worden toegevoegd. Ze worden met elkaar gecombineerd om een meer geavanceerde machine learning oplossing te krijgen. Bij dit soort projecten richten de data scientists zich op potentieel nieuwe databronnen en nieuwe voorspellende modellen. De data-analisten houden zich vooral met data uit klassieke bron bezig. De projecten worden meestal geleid door data scientists, die steun krijgen van de analisten die de ins en outs van alle data kennen. Daarbij worden over en weer stukjes code gedeeld.
Samenwerking
Dataiku DSS kent verschillende features voor samenwerking. De gebruiker kan kiezen uit drie verschillende profielen al naar gelang diens niveau. Minder vaardige gebruikers kunnen zich beperken tot een dashboard, een grafische user interface. Voor de wat meer gevorderde gebruikers bestaat er een visuele pipelining tool. Data scientists kunnen meer ingewikkelde coding tools waaronder shells kiezen. Hylke Visser spreekt in dit verband over ‘coders’ en ‘clickers’ die in één platform bij elkaar worden gebracht.
Naarmate een project complexer wordt en de hoeveelheid code en documentatie toeneemt, ontstaat de behoefte aan een meer formele project management interface. Data Science Studio beoogt ook het proces van ruwe data naar dataproducten te structureren. Nu zijn dataprojecten vaak sterk versnipperd. Veel mensen houden zich ermee bezig. Gebruik van een platform als DSS kan leiden tot een versnelling van bedrijfsprocessen. Daardoor kan een bedrijf beter inspelen op veranderingen in een markt.
EyeOn
Tot de eerste Nederlandse klanten van Dataiku behoort Eye On. Dit adviesbureau uit Aerle Rixtel is gespecialiseerd in verkoop- en operationele planning alsmede het maken van vraagvoorspellingen. Senior consultant Michiel Jansen: ‘Opdrachtgevers zijn merendeels grotere bedrijven. Met name de statistische prognoses die nodig zijn om voor elk product de niveaus van productie en herbevoorrading te bepalen, worden vaak uitbesteed. Dit gebeurt mede op basis van historische gegevens en informatie van de verkoopafdeling. De prognoses zorgen ervoor dat alle planners op één lijn komen en processen goed op elkaar worden afgestemd. Tot voor kort werd de planning vooral gedreven door mensen. Maar gebruik van data maakt de besluitvorming kwantitatiever. Ook worden meer data binnen afdelingen gedeeld. De invloed van bureaupolitiek is teruggedrongen. Plannen worden zo objectief mogelijk vastgesteld. Bedrijven kunnen hierdoor scherper aan de wind zeilen.’
Productieplanning
Verregaande automatisering van de productieplanning leidt er toe dat minder mensen hiermee bezig zijn. Jansen: ‘Vertragingen komen minder voor. Het wordt bovendien mogelijk meer alternatieven uit te werken en niet alleen basisscenario’s. Nu de forecasting sneller gaat, krijgen de betrokken managers ook meer tijd om over de uitkomsten na te denken. Zo kan een extra campagne worden overwogen om toch het verkoopdoel te halen. Het datamodel kan ook eventuele kannibalisatie op andere producten inzichtelijk maken.’
Toen Eye On tien jaar geleden met het maken van vraagprognoses begon, werd bij de afnemers alom Excel gebruikt. Maar als ieder in een bedrijf met zijn eigen spreadsheets werkt, wordt het lastig om het overzicht te behouden. Zeker in grote organisaties is het moeilijk om de correctheid van berekeningen in Excel te waarborgen als iedereen weer andere formules inbrengt. Daarna ging Eye On met eigen tools op basis van Delphi werken, maar samenwerking en hergebruik vormden een struikelblok. Naarmate de variëteit aan tools groter werd, kwam het plafond steeds dichterbij. Jansen: ‘Toen hebben we gezegd: zo kunnen we niet verder groeien.
Een jaar of drie geleden werd besloten alles op Python te standaardiseren, een programmeertaal voor data science. Ook Python heeft zijn beperkingen. ‘We zagen dat veel lokaal werden gedaan met de nodige fouten als gevolg. Ook zagen we verkeerde versies van scripts opkomen. Bovendien was de veiligheid van data een punt van zorg. Een ander probleem was de lage leercurve. Economen bijvoorbeeld hebben wel twee jaar nodig om zelfstandig een analyse uit voeren en een model op te zetten.’
Platform
Eye On ging daarom op zoek naar een platform op basis waarvan analyses zijn te doen met zo veel mogelijk open source. Men wilde de bestaande scripts en tools die in Python zijn ontwikkeld, blijven gebruiken. De keuze voor Dataiku werd met name ingegeven door het feit dat daarin gemakkelijk de eigen scripts en tools zijn onder te brengen.
Jansen ziet dat bij gebruik van Data Science Studio de grens tussen prototype en dataproduct vervaagt, waardoor in een hoger tempo valt te innoveren. ‘De iteraties worden enorm versneld. Bovendien zijn aan het analyse-model gemakkelijk kleine toevoegingen te doen. Je kunt die snel als prototypes uittesten en indien succesvol naar productie uitrollen,’ aldus Jansen.
Gartner
Toch kan DSS nog aanzienlijk worden verbeterd. Onderzoeksbureau Gartner wees in een rapport van begin dit jaar op klanten die enkele problemen hadden met het uitrollen van modellen in productie-omgevingen. In de praktijk schort het nog wel eens aan de oplevering, de prestaties en de schaalbaarheid. Eveneens laag is de score voor geavanceerde analytica zoals simulatiemodellen en beeldanalyse. Hier zijn inmiddels verschillende oplossingen voor uitgebracht. Dataiku zit in het segment van de visionaire spelers, maar het executievermogen is volgens Gartner nog een zwak punt.
Reactie
Visser reageert: ‘Wij zijn hard aan de slag gegaan met de feedback van Gartner, en dat heeft al tot veel verbeteringen geleid.’ Een voorbeeld hiervan wordt beschreven in een blog. ‘Daarnaast was de focus van Gartner sterk gericht op de ‘high-end’ automl functionaliteit en niet op de core focus van Dataiku ‘samenwerking’.’