Muziekdienst Spotify verhuist zijn infrastructuur naar het Google Cloud Platform (GCP). De komende maanden wordt de data van 75 miljoen gebruikers gemigreerd naar die cloud van de internetgigant. Bij die migratie worden data en diensten apart gemigreerd. Daarbij vervangt Spotify het open-source dataplatform Hadoop door datadiensten van Google.
Spotify meldt dat na uitgebreide tests is gekozen voor Google. De muziekdienst heeft een groot aantal microservices, waarvan de meesten nu worden verplaatst van ‘on premise’ datacenters naar Google Cloud. Daarbij wordt gebruik gemaakt van onder meer Cloud Storage en Google Compute Engine’, licht de leverancier toe. Spotify draagt bovendien petabytes aan gegevens over met Google’s Cloud Networking diensten, zoals Direct Peering, Cloud VPN en Cloud Router.
Spotify stapt voor data-analyse over van Hadoop, MapReduce, Hive en een aantal eigen tools naar Google Cloud Pub/Sub, Google Cloud Dataflow, Google BigQuery, en Google Cloud Dataproc. Google: ‘Met BigQuery en Cloud Dataproc kunnen teams complexe queries draaien en toch een antwoord krijgen in een paar minuten, in plaats van een aantal uur. ‘Hiermee kan Spotify vaker diepgaande interactieve analyses draaien, die helpen bij productontwikkeling, functietesten en intelligente functies die op de gebruiker zijn gericht’, aldus de leverancier.
Met streaming- en datadienst Cloud Pub/Sub moeten Spotify-teams honderdduizenden berichten per seconde gaan verwerken. De internetreus meldt dat om de datatransformaties extra kracht te geven ook dataprocessordienst Cloud Dataflow wordt ingezet. Zo moet Spotify kunnen rekenen op één cloud-gebaseerde beheerdienst voor zowel batchverwerking als streaming.
Over een andere boeg
Spotify beschikt momenteel over datacenters, hardware en netwerkbenodigdheden die gekocht of geleased zijn. Ook worden eigen engineers ingezet om de infrastructuur te onderhouden. Er is nu voor gekozen om die beheerfuncties uit te besteden en het ontwikkelen en innovaties centraal te stellen.
Daarvoor wordt onder meer Google’s Compute Engine ingezet. Dat moet zorgen voor consistente prestaties van iops, ssd en lokale opslagcapaciteiten. Google: ‘Dankzij autoscaling kunnen er elastische en kostenefficiënte toepassingen worden gebouwd met exact de juiste hoeveelheid middelen of mankracht die op dat moment nodig is. Voor opslag implementeert Spotify momenteel Google Cloud Datastore en Google Cloud Bigtable.’ Volgens de leverancier laat dat netwerk aan opslagdiensten engineers werken aan complexe backend logica en hoeven ze zich niet bezig te houden met het onderhoud van de database.
‘Hadoop is botte bijl’
Spotify ziet de concurrentie van andere muziekdiensten zoals Deezer en Apple Music toenemen. De Zweedse pionier wil zich onderscheiden door zijn aanbod nog beter af te stemmen op de persoonlijke profielen van gebruikers.
Eerder vertelde big data-architect bij Spotify, Wouter de Bie, aan Compuable dat hij niet tevreden was over de mogelijkheden van Hadoop. Hadoop is in zijn ogen ‘een botte bijl’ om data-analyses mee uit te doen. ‘Het moet intelligenter en sneller worden.’
De Bie: ‘Hadoop is gemaakt met het idee van data locality: haal de verwerking naar de data in plaats van de data naar de verwerking. Met de komst van snellere netwerken wordt die eis minder belangrijk. Als je net zo snel van een netwerk kan lezen als van een harde schijf, dan wordt dat minder relevant. Kijk bijvoorbeeld wat Google doet: het scheiden van ‘opslaan’ en ‘bewerken’ van data. Dat is nog niet zo doorgedrongen in de open source-wereld. Bovendien zie nog te weinig netwerkoptimalisatie om technieken te versnellen.’