Afgelopen nacht, rond 00.30 uur en vanmorgen rond 8.30 uur zijn er
storingen geweest aan de centrale storage van Tuxis. Tijdens beide
storingen (die ongeveer 10 minuten per stuk geduurd hebben) is gepoogd
te vinden wat het probleem is, maar doordat de storage zelf op die
momenten niet te gebruiken is is het debuggen ook niet mogelijk. In logs
en dergelijke is geen probleem te constateren.
Vanmorgen zijn van alle disken en controllers de statussen nog eens
uitgelezen, deze apparaten geven allemaal een ‘OK’ terug. Helaas is de
oorzaak van de storing dus nog niet gevonden.
En nu?
Op dit moment staat er vanaf een onafhankelijke machine een verbinding
klaar naar de storage-server. Door deze verbinding te gebruiken denken
we toch op de server zelf te kunnen kijken, omdat er voor het gebruik
van deze `shell` geen disk-IO nodig is. Daarnaast stuurt de
storage-server iedere vijf seconden een aantal statistieken door naar
deze onafhankelijke machine.
Met deze maatregelen is het probleem niet opgelost, maar we verwachten dat snel vastgesteld worden wat het probleem is. De genomen maatregelen hebben geresulteerd in een spoedonderhoud op 09-10-2014
In de afgelopen weken zijn er een aantal korte onderbrekingen geweest
in de storagelaag van de Tuxis diensten, waarvoor excuses. Gelukkig
kwamen deze storingen voor ’s nachts voor, waardoor de overlast voor
klanten minimaal is geweest.
Afgelopen nacht was er omstreeks half een weer een korte onderbreking, maar dankzij de maatregelen die afgelopen zaterdag zijn genomen is er wel duidelijk geworden waar het probleem ligt.
De oorzaak ligt niet in de hardware, maar in de ZFS-software.
Aanstaande nacht (woensdag 10-09-2014) zullen we de betreffende server
rebooten, wat zal leiden tot een downtime van ongeveer 10 minuten. Na
deze reboot zullen alle VPS’en gecontroleerd worden op juiste werking.
Tevens is er gisteren een nieuwe storagemachine besteld die
binnenkort gefaseerd in gebruik genomen zal worden. Dit zal de
performance en schaalbaarheid van de storage nog verder verbeteren.
Tevens worden daar verbeteringen doorgevoerd ten opzichte van de huidige
storage, in het kader van ‘voortschrijdend inzicht’.