Vanmorgen hebben we tussen 8.10 en 9.45 een storing gehad in ons netwerk.
RFO
8:30: We constateren dat een groot gedeelte van onze diensten niet
bereikbaar waren. Direct is er onderzocht waar het probleem lag. Wat
opviel is dat beide locaties (BIT-1 en BIT-2) wel bereikbaar waren vanaf
een aantal plekken op het internet, maar dat BIT-1 en BIT-2 elkaar niet
konden bereiken.
De symptomen leken op de symptomen van de storing aan het OpenPeering
netwerk vorige week, waardoor we even op het verkeerde been stonden. Na
de constatering dat BIT-1 en BIT-2 elkaar niet konden bereiken zijn we
direct naar het datacenter gereden.
8.45: Aangekomen in het datacenter blijkt dat een van de switches
uitstaat. De oorzaak zal hoogstwaarschijnlijk de voeding zijn. Een
poging om de switch uit- en weer inschakelen van de switch geeft geen
solaas.
De switch in kwestie verzorgt naast de connectivity van een heel aantal
servers ook de verbinding tussen BIT-1 en BIT-2. Doordat deze verbinding
wegviel ontstond een zogenaamde ‘split-brain’-situatie. Beide locaties
(BIT-1 en BIT-2) ‘werken’ op zich, maar trekken beide verkeer naar zich
toe waar ze vervolgens niet helemaal mee uit de voeten kunnen. Op
verzoek van Tuxis zijn de verbindingen op BIT-1 verbroken om de
split-brain situatie te stoppen. Een gedeelte van de diensten op BIT-2
is toen weer gaan functioneren.
8.55: De enige oplossing: De switch moet vervangen worden. Een grote
bundel kabels moet ook na de vervanging weer op de juiste plek
aangesloten worden. Terwijl Ronald aan de slag gaat met het fysiek
vervangen van de switch, begint Mark met het overnemen van de
configuratie op de nieuwe switch.
10.00: Het gros van de poorten is weer actief en functioneert weer
naar behoren. Wij verplaatsen ons naar kantoor om de configuratie
helemaal af te ronden en te controleren of alles weer naar behoren
functioneert.
Vragen die u wellicht hebt
- Waarom geeft het wegvallen van een switch zo’n groot probleem?
Bij het opzetten van het netwerk is een kosten-baten analyse gemaakt
op basis van risico’s en de gevolgen van calamiteiten. Voor deze
situatie is besloten een extra switch op voorraad te hebben (Cold
Standby) die in geval van problemen ingezet kan worden. We kunnen
constateren dat dit volgens planning gefunctioneert heeft. Binnen 2 uur
was alles weer operationeel.
- Zijn mijn servers herstart?
Nee. Een gedeelte van de machines is welliswaar zijn opslag even
‘kwijt’ geweest, maar dat heeft geen gevolgen gehad voor de werking van
de servers. Nadat de storage weer terugkwam is alles weer gaan
functioneren.
- Wat hebben jullie hiervan geleerd?
- We zijn in staat om snel te analyseren wat het probleem is en daarop
snel te acteren. De geplande oplossing voor dit specifieke probleem
voldeed.
- De split-brain situatie heeft meer kapot gemaakt dan nodig was. We
gaan onderzoeken hoe we dit beter op kunnen lossen zodat klanten die op
twee locaties diensten afnemen geen problemen ondervinden als zich op
een van de twee locaties een dergelijke storing voordoet.
- We zijn blij dat we een datacenter buiten de randstad en in de buurt
van ons kantoor hebben. De aanrijtijd van 5 minuten is een grote
bijdrage aan de snelle oplostijd van deze storing.