Too Big to Fail?

door Peter Witsenburg18 maart 2017

← Hybrid Clouds, what else? Cloud gaat de mist in →

Begin Maart kwam Public Cloud nog maar eens in een slecht daglicht door een storing bij Amazon en menig journalist kroop in de pen om met gevatte titels zoals “Amazon Cloud gaat de mist in” aan te geven hoe kwetsbaar het Internet is.

Ook werd er aangehaald dat het wereldwijde web onderuitging ten gevolge van deze storing en dat het herstel meer dan vier uren heeft geduurd. Toch is er blijkbaar niemand die het op durft te nemen voor deze Cloud Service Provider in minder goede tijden met de gedachte dat Public Clouddiensten niet meer weg te denken zijn uit onze huidige maatschappij en dat dit soort van diensten al jaar en dag (en nacht) beschikbaar zijn voor eenieder die er gebruik van wil maken.

Amazon.com startte zijn activiteiten in juli 1995 en oorspronkelijk verkocht men alleen boeken, maar later werd daar andere media aan toegevoegd en tot slot ook andere goederen. Ondertussen is AWS een van de grootste aanbieders van clouddiensten ter wereld. En u kent vast nog het spreekwoord “hoge bomen vangen veel wind”, en net daarom zal er vaak met de vinger worden gewezen als het een keer goed mis gaat. Immers er is geen beter vermaak dan leedvermaak, niet?

Misschien toch eerst even een rechtzetting dat niet het Internet zelf onderuit is gegaan tijdens deze storing, maar wel een groot deel van de virtuele servers die op hun beurt heel wat belangrijke Clouddiensten en applicaties laten draaien. Daarom leek het er volgens velen op dat het world wide web er de brui aan had gegeven, nog voordat de lente in ons land was. En voor diegene die wilden weten wat er nu eigenlijk wel aan de hand was, die werden op de statuspagina van AWS ook niet veel wijzer, want deze was zelf ook offline.

Een andere pakkende titel als gevolg van de uitval was “Storing bij Amazon te wijten aan typefout” Het begon blijkbaar met iets banaals. Omdat het subsysteem van de cloudopslagdienst AWS Simple Storage Service (S3) traag werkte, wilde een medewerker enkele servers van S3 offline halen. “Eén commando werd echter verkeerd ingegeven, waarna veel meer servers verwijderd werden dan de bedoeling was”, legt Amazon Web Services uit in een verklaring. Als gevolg moesten flink wat servers volledig herstart worden en intussen is Amazon S3 zo groot geworden zodat het hele proces veel langer duurde dan de Cloud Provider had verwacht. Amazon belooft nu een hele rits maatregelen die moeten garanderen dat dergelijke storingen niet meer kunnen voorkomen.

Dit hele gebeuren zet ons wel aan het denken en bewijst wederom dat de “human error” nog steeds de meest voorkomende is van alle zaken die mis kunnen gaan in het datacenter en dus de Cloud. Maar de vraag blijft, hoe heeft dit kunnen gebeuren en vooral hoe kan men dit in de toekomst voorkomen? Wellicht dat artificiële Intelligentie door middel van robots een oplossing kunnen bieden, maar die moeten dan wel eerst geprogrammeerd worden door een mens en typefouten zijn blijkbaar snel gemaakt

Maar laten we anders eens kijken wat de gemiddelde downtime was van alle wereldwijde Clouddiensten bij elkaar in het afgelopen jaar volgens Cloudharmony, een bedrijf wat onderdeel uitmaakt van Gartner en dat continue Cloud Providers meet en de totale downtime in kaart brengt. We leren hieruit dat de tijd dat alle wereldwijde Clouddiensten niet beschikbaar waren varieerde tussen de 2 minuten en 2.5 uren per Cloud Provider. Dat lijkt veel, maar over alle servers heen gemeten in 365 dagen is dit een knappe prestatie. Als u als CIO of IT Manager dit soort cijfers op jaarbasis kan garanderen binnen uw bedrijf, dan zal men dit meestal en afhankelijk van uw business wel aanvaarden, niet? Kortom ik zie het de beheerders van een on-premises omgeving niet veel beter doen, uitzonderingen nagelaten. Maar ook hier geldt dat alles zijn prijs heeft en dat redundante oplossingen vaak noodzakelijk zijn om de downtime tot een minimum te beperken.

Nu is gebleken wat de werkelijke oorzaak was en dit werd overigens ook eerlijk door Amazon toegegeven, vraag ik mij soms af of wij als gebruikers van Clouddiensten niet té afhankelijk zijn geworden? Of hebben de IT-afdelingen die ons land telt zich er te gemakkelijk van afgebracht onder lichte druk van het management met de melding “zet het maar in de Public Cloud want dat is trendy en kost een pak minder”? Niets blijkt minder waar, want ook de big 5 van de Cloud Providers kunnen het laten afweten, zoals is gebleken en dit was geen alleenstaand feit. Het beste is dan ook (en dit schrijf ik in opperbeste paas stemming) om “niet al uw eieren in één mandje te leggen”, zelfs niet in de Cloud. Ons advies is dan ook om eerst alle mogelijke oplossingen te onderzoeken voordat uw bedrijfskritische applicaties uit gaat besteden en om optimaal gebruik te maken van de back-up opties die de Cloud Service Provider meestal aanbiedt, ook al is dit tegen een meerprijs. Een hybride Cloud oplossing kan hier het perfecte antwoord bieden om geleidelijk uw data en applicaties te verhuizen naar de Cloud, maar onthoud dat geen enkel systeem onfeilbaar is en dat er altijd een plan B moet zijn in al uw strategische IT-beslissingen.

Too Big to Fail?

Pin It on Pinterest