Too Big to Fail?

door 18 maart 2017

Begin Maart kwam Public Cloud nog maar eens in een slecht daglicht door een storing bij Amazon en menig jour­na­list kroop in de pen om met gevatte titels zoals “Amazon Cloud gaat de mist in” aan te geven hoe kwetsbaar het Internet is.
Ook werd er aange­haald dat het wereld­wijde web onder­uit­ging ten gevolge van deze storing en dat het herstel meer dan vier uren heeft geduurd. Toch is er blijkbaar niemand die het op durft te nemen voor deze Cloud Service Provider in minder goede tijden met de gedachte dat Public Cloud­dien­sten niet meer weg te denken zijn uit onze huidige maat­schappij en dat dit soort van diensten al jaar en dag (en nacht) beschik­baar zijn voor eenieder die er gebruik van wil maken.

Amazon​.com startte zijn acti­vi­teiten in juli 1995 en oorspron­ke­lijk verkocht men alleen boeken, maar later werd daar andere media aan toege­voegd en tot slot ook andere goederen. Onder­tussen is AWS een van de grootste aanbie­ders van cloud­dien­sten ter wereld. En u kent vast nog het spreek­woord “hoge bomen vangen veel wind”, en net daarom zal er vaak met de vinger worden gewezen als het een keer goed mis gaat. Immers er is geen beter vermaak dan leed­ver­maak, niet?

Misschien toch eerst even een recht­zet­ting dat niet het Internet zelf onderuit is gegaan tijdens deze storing, maar wel een groot deel van de virtuele servers die op hun beurt heel wat belang­rijke Cloud­dien­sten en appli­ca­ties laten draaien. Daarom leek het er volgens velen op dat het world wide web er de brui aan had gegeven, nog voordat de lente in ons land was. En voor diegene die wilden weten wat er nu eigenlijk wel aan de hand was, die werden op de status­pa­gina van AWS ook niet veel wijzer, want deze was zelf ook offline.

Een andere pakkende titel als gevolg van de uitval was “Storing bij Amazon te wijten aan typefout” Het begon blijkbaar met iets banaals. Omdat het subsys­teem van de cloud­op­slag­dienst AWS Simple Storage Service (S3) traag werkte, wilde een mede­werker enkele servers van S3 offline halen. “Eén commando werd echter verkeerd ingegeven, waarna veel meer servers verwij­derd werden dan de bedoeling was”, legt Amazon Web Services uit in een verkla­ring.  Als gevolg moesten flink wat servers volledig herstart worden en intussen is Amazon S3 zo groot geworden zodat het hele proces veel langer duurde dan de Cloud Provider had verwacht.  Amazon belooft nu een hele rits maat­re­gelen die moeten garan­deren dat derge­lijke storingen niet meer kunnen voorkomen.

Dit hele gebeuren zet ons wel aan het denken en bewijst wederom dat de “human error” nog steeds de meest voor­ko­mende is van alle zaken die mis kunnen gaan in het data­center en dus de Cloud. Maar de vraag blijft, hoe heeft dit kunnen gebeuren en vooral hoe kan men dit in de toekomst voorkomen? Wellicht dat arti­fi­ciële Intel­li­gentie door middel van robots een oplossing kunnen bieden, maar die moeten dan wel eerst gepro­gram­meerd worden door een mens en type­fouten zijn blijkbaar snel gemaakt 😉

Maar laten we anders eens kijken wat de gemid­delde downtime was van alle wereld­wijde Cloud­dien­sten bij elkaar in het afgelopen jaar volgens Cloud­har­mony, een bedrijf wat onderdeel uitmaakt van Gartner en dat continue Cloud Providers meet en de totale downtime in kaart brengt. We leren hieruit dat de tijd dat alle wereld­wijde Cloud­dien­sten niet beschik­baar waren varieerde tussen de 2 minuten en 2.5 uren per Cloud Provider. Dat lijkt veel, maar over alle servers heen gemeten in 365 dagen is dit een knappe prestatie. Als u als CIO of IT Manager dit soort cijfers op jaarbasis kan garan­deren binnen uw bedrijf, dan zal men dit meestal en afhan­ke­lijk van uw business wel aanvaarden, niet? Kortom ik zie het de beheer­ders van een on-premises omgeving niet veel beter doen, uitzon­de­ringen nagelaten. Maar ook hier geldt dat alles zijn prijs heeft en dat redun­dante oplos­singen vaak nood­za­ke­lijk zijn om de downtime tot een minimum te beperken.
Nu is gebleken wat de werke­lijke oorzaak was en dit werd overigens ook eerlijk door Amazon toege­geven, vraag ik mij soms af of wij als gebrui­kers van Cloud­dien­sten niet té afhan­ke­lijk zijn geworden? Of hebben de IT-afde­lingen die ons land telt zich er te gemak­ke­lijk van afge­bracht onder lichte druk van het mana­ge­ment met de melding “zet het maar in de Public Cloud want dat is trendy en kost een pak minder”? Niets blijkt minder waar, want ook de big 5 van de Cloud Providers kunnen het laten afweten, zoals is gebleken en dit was geen alleen­staand feit. Het beste is dan ook (en dit schrijf ik in opper­beste paas stemming) om “niet al uw eieren in één mandje te leggen”, zelfs niet in de Cloud. Ons advies is dan ook om eerst alle mogelijke oplos­singen te onder­zoeken voordat uw bedrijfs­kri­ti­sche appli­ca­ties uit gaat besteden en om optimaal gebruik te maken van de back-up opties die de Cloud Service Provider meestal aanbiedt, ook al is dit tegen een meerprijs. Een hybride Cloud oplossing kan hier het perfecte antwoord bieden om gelei­de­lijk uw data en appli­ca­ties te verhuizen naar de Cloud, maar onthoud dat geen enkel systeem onfeil­baar is en dat er altijd een plan B moet zijn in al uw stra­te­gi­sche IT-beslissingen.

Pin It on Pinterest

Share This