Noodsystemen veroorzaken storing bij Google Cloud

Noodsystemen veroorzaken storing bij Google Cloud

Google heeft bekendgemaakt dat een recente zes uur durende storing in een van zijn cloudregio’s werd veroorzaakt doordat de UPS-systemen hun werk niet deden. 

De storing begon volgens The Register op 29 maart. Het geval was dat meer dan twintig Google Cloud-diensten in de us-east5-c-zone – gelegen rond Columbus, Ohio – verminderde prestaties vertoonden of in het geheel niet beschikbaar waren.

Volgens het incidentrapport begon de storing met het wegvallen van de reguliere stroomvoorziening in de getroffen zone. Normaal gesproken zijn hyperscale-datacenters hiertegen bestand. Ze beschikken over UPS-systemen die onmiddellijk stroom leveren wanneer het elektriciteitsnet faalt. Deze systemen houden dit enkele uren vol tot dieselgeneratoren het overnemen. In dit geval was er echter een kritieke batterijstoring bij juist die UPS-systemen. Daarom leverden die geen stroom. Uit het rapport blijkt bovendien dat de systemen vermoedelijk ook voorkwamen dat de generatoren stroom konden leveren. De technici moesten de UPS-systemen namelijk omzeilen voordat de stroomtoevoer werd hersteld.

Handmatige acties

Technici werden om 12:54 uur (Pacific Time) op de hoogte gebracht van het probleem. Pas om 14:49 uur startten de generatoren weer op. Google gaf aan dat het merendeel van de getroffen clouddiensten kort daarna weer draaiden. Wel duurde het herstel van enkele diensten langer. Dit, omdat in die gevallen handmatige acties nodig waren om de volledige functionaliteit te herstellen.

Het bedrijf liet weten dat het betreurt dat dit is gebeurd en benadrukte zich te zullen inspannen om herhaling in de toekomst te voorkomen. Om dat doel te bereiken wil Google de stroomvoorziening en het herstelproces van clusters verbeteren, zodat na een stroomuitval sneller en voorspelbaarder weer stroom beschikbaar is. 

Daarnaast worden systemen gecontroleerd die niet automatisch zijn overgeschakeld, zodat eventuele tekortkomingen kunnen worden verholpen. Ook zal het bedrijf in overleg treden met de leverancier van de UPS-systemen om de oorzaak van de batterijproblemen beter te begrijpen en op te lossen.

Noodstroomvoorzieningen en rampenherstelprocedures

Hyperscalers zoals Google beloven doorgaans veerkracht en slagen daar vaak in. Toch laat deze situatie zien dat zelfs de best voorbereide systemen niet onfeilbaar zijn. De belangrijkste les die hieruit te trekken valt, is dat het regelmatig testen van noodstroomvoorzieningen en rampenherstelprocedures, en wel inclusief plannen voor wanneer publieke cloudproviders zelf uitvallen, geen overbodige luxe is, maar noodzakelijk voor iedere organisatie.