(Opgelost) Netwerkstoring

Printen

31-10-2014 07:30
- Storingen

Vanmorgen hebben we tussen 8.10 en 9.45 een storing gehad in ons netwerk.

RFO
8:30: We constateren dat een groot gedeelte van onze diensten niet bereikbaar waren. Direct is er onderzocht waar het probleem lag. Wat opviel is dat beide locaties (BIT-1 en BIT-2) wel bereikbaar waren vanaf een aantal plekken op het internet, maar dat BIT-1 en BIT-2 elkaar niet konden bereiken.
De symptomen leken op de symptomen van de storing aan het OpenPeering netwerk vorige week, waardoor we even op het verkeerde been stonden. Na de constatering dat BIT-1 en BIT-2 elkaar niet konden bereiken zijn we direct naar het datacenter gereden.

8.45: Aangekomen in het datacenter blijkt dat een van de switches uitstaat. De oorzaak zal hoogstwaarschijnlijk de voeding zijn. Een poging om de switch uit- en weer inschakelen van de switch geeft geen solaas.
De switch in kwestie verzorgt naast de connectivity van een heel aantal servers ook de verbinding tussen BIT-1 en BIT-2. Doordat deze verbinding wegviel ontstond een zogenaamde ‘split-brain’-situatie. Beide locaties (BIT-1 en BIT-2) ‘werken’ op zich, maar trekken beide verkeer naar zich toe waar ze vervolgens niet helemaal mee uit de voeten kunnen. Op verzoek van Tuxis zijn de verbindingen op BIT-1 verbroken om de split-brain situatie te stoppen. Een gedeelte van de diensten op BIT-2 is toen weer gaan functioneren.

8.55: De enige oplossing: De switch moet vervangen worden. Een grote bundel kabels moet ook na de vervanging weer op de juiste plek aangesloten worden. Terwijl Ronald aan de slag gaat met het fysiek vervangen van de switch, begint Mark met het overnemen van de configuratie op de nieuwe switch.

10.00: Het gros van de poorten is weer actief en functioneert weer naar behoren. Wij verplaatsen ons naar kantoor om de configuratie helemaal af te ronden en te controleren of alles weer naar behoren functioneert.

Vragen die u wellicht hebt

Waarom geeft het wegvallen van een switch zo’n groot probleem? Bij het opzetten van het netwerk is een kosten-baten analyse gemaakt op basis van risico’s en de gevolgen van calamiteiten. Voor deze situatie is besloten een extra switch op voorraad te hebben (Cold Standby) die in geval van problemen ingezet kan worden. We kunnen constateren dat dit volgens planning gefunctioneert heeft. Binnen 2 uur was alles weer operationeel.
Zijn mijn servers herstart? Nee. Een gedeelte van de machines is welliswaar zijn opslag even ‘kwijt’ geweest, maar dat heeft geen gevolgen gehad voor de werking van de servers. Nadat de storage weer terugkwam is alles weer gaan functioneren.
Wat hebben jullie hiervan geleerd?
- We zijn in staat om snel te analyseren wat het probleem is en daarop snel te acteren. De geplande oplossing voor dit specifieke probleem voldeed.
- De split-brain situatie heeft meer kapot gemaakt dan nodig was. We gaan onderzoeken hoe we dit beter op kunnen lossen zodat klanten die op twee locaties diensten afnemen geen problemen ondervinden als zich op een van de twee locaties een dergelijke storing voordoet.
- We zijn blij dat we een datacenter buiten de randstad en in de buurt van ons kantoor hebben. De aanrijtijd van 5 minuten is een grote bijdrage aan de snelle oplostijd van deze storing.

Deel via

Is dit artikel zinvol?

(Opgelost) Netwerkstoring

Gerelateerde artikelen

Categorieën

Tags