Vanmorgen is er tijdens de black building test van datacenter BIT een onderbreking in de stroomvoorziening opgetreden. De installatie van BIT bleek niet te functioneren zoals beoogd. Helaas hebben ook wij last gehad van deze storing, een van de datacenters waarin apparatuur van ons hangt was uitgevallen.
Het verloop van de storing
- 09:00 De stroom is volledig uitgevallen in BIT-2C. Een van de drie locaties.
- 09:02 Onze monitoring detecteert het probleem en notificeert ons
- 09:13 De stroomtoevoer is hersteld en fysieke servers zijn gestart
- 09:14 Wij arriveren in het datacenter om de impact in te schatten
- 09:17 We melden via Twitter dat er een probleem is
met het netwerk door een stroomstoring. Het netwerk in de overige
datacenters is nog intact maar door de stroomuitval lijkt het even op
een netwerkstoring. Een flink aantal servers is niet bereikbaar.
- De volgende diensten zijn niet beschikbaar:
- De meeste Kerio in de Cloud servers
- De resolving nameservers. Dit zijn de nameservers die door onze klanten gebruikt worden
- Onze eigen website
- De FilesOnline.eu servers
- Alle VPS’en die op een node draaien in BIT-2C
- Nodes van klanten die in BIT-2C draaien
- 09:33 Alle VPS’en worden opgestart. Alle apparatuur die noodzakelijk is voor de dienstverlening is weer online
- 09:45 Alles draait weer
Wat er goed ging
Het mag duidelijk zijn dat als de stroom uitvalt in een datacenter,
alle apparatuur in dat datacenter en alles wat op die apparatuur draait
ook uitvalt. Dit is een ingecalculeerde situatie. Onze infrastructuur is
opgebouwd in drie datacenters. Apparatuur buiten het getroffen
datacenter was via de andere datacenters online.
De stroomtoevoer is snel hersteld. De oorzaak van de uitval was een
black building test van het datacenter. Een test die ieder half jaar
uitgevoerd wordt waarbij het hele datacenter afgesloten wordt van de
stroomtoevoer en dus zelfstandig moet draaien. Het blijkt maar weer dat
het testen belangrijk is. Omdat dit een geplande test is, was er ook
voldoende personeel voorhanden en was de stroomvoorziening binnen 15
minuten hersteld.
Onze monitoring had snel in de gaten dat er problemen waren waardoor wij snel konden ingrijpen.
Wat er beter kon
Wij hebben twee resolving nameservers. Deze nameservers worden
gebruikt door apparatuur binnen ons netwerk, niet te verwarren met onze
nameservers die gebruikt worden voor geleverde domeinnamen door de rest
van het internet. Tijdens de stroomuitval bleek dat aanvragen niet
beantwoord werden door de resolving nameservers. De nameservers draaiden
welliswaar op verschillende nodes, maar -zo bleek- op nodes in
hetzelfde -uitgevallen- datacenter. Dat is een fout van onze kant. Het
gevolg was dat apparatuur die gebruikt maakt van die resolving
nameservers en een nieuwe naam wilde opvragen, geen antwoord kregen op
dat DNS verzoek. De overlast hiervan was wel minimaal maar
desalniettemin onhandig.
Wat er beter gaat worden
Uiteraard gaan we erop toezien dat nameservers niet in hetzelfde
datacenter draaien. Tevens gaan we een extra nameserver in Arnhem
inrichten.
Waarom starten de diensten niet op een een van de andere datacenters?
Dat is een bewuste keuze. Bij stroomuitval vallen de VPS’en op de getroffen nodes hoe dan ook uit.
Het automatisch opstarten van al die VPS’en op de overige nodes in de
andere datacenters gaat ook een belasting opleveren voor de nodes die
beschikbaar zijn. De overweging is dus of de downtime van korte duur is
of het een langdurige storing gaat worden. In dat laatste geval worden
de servers wel opgestart op de overige nodes. Is het echter een storing
met een redelijke oplostijd doen we dat niet. Dan zou de overlast niet
opwegen tegen de gewonnen tijd. In dit geval zou dat +/- 15 minuten
winst geweest zijn met als gevolg overlast op alle nodes.