Hele rijen start-ups hebben er reeds voor gekozen en ook binnen het reguliere bedrijfsleven groeit de belangstelling voor cloud computing. De forse storing die Amazon Web Services in februari kende, geeft echter aan dat we niet over één nacht ijs kunnen gaan.
Voor veel gebruikers van Twitter – de site om ultrakorte berichtjes te versturen – leek het in eerste instantie simpelweg een nieuwe storing van deze met groeistuipen kampende dienst. De avatars van de site kwamen op 15 februari ineens niet meer op. Wie echter al eens wat dieper in de technologie achter Twitter had gekeken, weet dat die avatars echter niet door het bedrijf zelf worden gehost, maar extern bij Amazon’s S3 storage-service.
S3 – wat staat voor ‘Simple Storage Service’ – maakt deel uit van wat inmiddels een reeks aan webservices van Amazon is geworden. Andere services zijn bijvoorbeeld ‘Elastic Compute Cloud’ (EC2, online verwerkingscapaciteit), SimpleDB voor het in realtime doen van queries op gestructureerde datasets en ‘Simple Queue Service’ (SQS) voor het opslaan van berichten die tussen computersystemen heen en weer gaan. Verder zijn onder andere services beschikbaar voor online betalingen.
‘Pay as you go’
Met deze verzameling webservices speelt het concern inmiddels een hoofdrol in de wereld van cloud computing. Met name start-ups maken graag gebruik van deze diensten. Het biedt namelijk een uitweg uit een klassiek dilemma van beginnende webondernemingen: eerst live gaan en verwerkingscapaciteit bijkopen zodra de vraag toeneemt? Of eerst flink investeren in een eigen datacenter voordat we de website openstellen voor het publiek? Door te kiezen voor de gehoste oplossingen van Amazon of andere aanbieders van cloud computing ontstaat een soort ‘pay as you go’-model waarbij de afnemer alleen betaalt voor de capaciteit die daadwerkelijk wordt afgenomen.
Deze trend heeft geleid tot een lange reeks zogeheten ‘serverless start-ups’, waar de zwaarste eigen machine steeds vaker de notebook is om demo’s mee te verzorgen. Daarnaast groeit ook binnen het reguliere bedrijfsleven de belangstelling voor cloud computing. Op 15 februari werd ineens pijnlijk duidelijk dat dit model ook flinke risico’s kent. Om half vier ’s nachts viel het beheerders in een datacenter van Amazon in Californië op dat het aantal ‘authenticated requests’ plotseling toenam. Dit fenomeen bleek zich bij meerdere gebruikers voor te doen.
Deze verzoeken vergen relatief veel verwerkingscapaciteit omdat hierbij sprake is van encryptie. Nog voordat de betrokken beheerders extra capaciteit konden bijschakelen, ging de authentication server al over zijn maximum capaciteit heen. Diezelfde server wordt bovendien gebruikt voor het valideren van accounts. Met als gevolg dat geen van beide meer mogelijk was en een aantal gebruikers dus geen contact meer kreeg met hun applicaties ‘in the cloud’.
Twee uur plat
De storing duurde uiteindelijk iets meer dan twee uur. Om precies te zijn van 04.31 am PST tot 06:48 am PST. Toen hadden de Amazon-beheerders weer voldoende capaciteit bij geplaatst en kwamen de getroffen delen van S3 weer online.
Op tal van internet-forums is de storing van minuut tot minuut gevolgd. Wat opvalt is dat de meeste betrokken ict’ers die aan deze discussies deelnamen vrijwel unaniem positief reageerden op de manier waarop Amazon de situatie aanpakte. Dit ondanks hun verbijstering dat de storage-service plotsklaps onbereikbaar was. De beheerders van de getroffen bedrijven werden voortdurend geïnformeerd over de laatste stand van zaken en het verwachte tijdstip van herstel.
Toch geeft het incident ook aan dat cloud computing dus niet zonder flinke risico’s is. Een van de punten die in alle discussies opvalt, is dat veel start-ups en andere S3-klanten volledig door de storing werden verrast. Dat spreekt voor de op menig plaats geroemde betrouwbaarheid en stabiliteit van Amazon’s webservices. Tegelijkertijd geeft het ook aan dat het werken met cloud computing nog in de kinderschoenen staat. Onderzoek naar de vraag hoe een cloud computing-oplossing het beste beheerd of geïntegreerd kan worden in een meer traditionele ict-omgeving komt nu pas op gang.
Classificeren
Deze storing geeft echter aan dat cruciale applicaties – hoe goede de leverancier ook is – plotsklaps offline kunnen gaan. Er zijn dus maatregelen nodig. De gedachtenvorming is op de diverse blogs die zich met cloud computing bezighouden al aardig op gang aan het komen. Belangrijk punt van inzicht is met name dat een classificatie van de betrokken applicaties nodig is.
Bijvoorbeeld een indeling waarbij een level één-toepassing voor dagelijks gebruik is, maar waarvan het wegvallen verder geen ernstige problemen oplevert. Een tweede niveau kan betrekking hebben op dagelijks te gebruiken cloud-toepassingen waar de bedrijfsproductiviteit wel degelijk van afhangt. Een derde categorie kan bijvoorbeeld gevormd worden door een groep applicaties die zo belangrijk zijn voor de organisatie dat er stevige financiële schade ontstaat als deze down gaan.
Kies voor gedistribueerd
Dit soort indelingen vormen een goede basis om service level agreements af te spreken. Daarbij is het sowieso een goed idee om te kiezen voor een aanbieder die gedistribueerde vormen van verwerking over meerdere datacenters en liefst over meerdere continenten mogelijk maakt.
Ook is het verstandig om de onderliggende contracten er nog eens goed op na te slaan. Amazon stelt dat het alle ‘commercially reasonable efforts’ zal doen om S3 een maandelijkse beschikbaarheid van 99,9 procent te geven. Lukt dat niet, dan heeft de betrokken klant recht op een zogeheten ‘service credit’. Dat klinkt wellicht mooi, maar als een belangrijk CRM-systeem een halve werkdag uit de lucht is, valt de schade waarschijnlijk niet te compenseren met wat service credits.