Seit 12:04 Uhr heute Mittag sind einige unserer Dienste nicht mehr erreichbar.
Die genaue Liste der ausgefallenen Dienste:
- Mailserver inkl. Mailinglisten
- Redmine
- Wanninger
- PirateFeedback + PirateFeedback-Testserver
- LimeSurvey
- ownCloud
- Funkraum
- Moodle/OpenMeetings-Testserver
- BEO-Testserver
- SG-Event Server
Die Dienste sind aktuell noch offline und werden auch noch mindestens einige Stunden offline bleiben. Die Gründe dafür habe ich bereits auf Twitter dargelegt, aber da ist ja letztendlich doch nicht jeder, darum hier auch nochmal eine kurze Chronik:
12:04 Uhr: Das Monitoring informiert uns, dass Wigbold und die dort laufenden virtuellen Maschinen nicht mehr erreichbar sind
12:10 Uhr: Versuche, auf den Server zuzugreifen scheitern, Telefonate und Diskussionen mit BayernIT und Landesvorstand
12:28 Uhr: Ticket beim Provider eröffnet, ob vor Ort irgendwelche Gründe bekannt sind
12:50 Uhr: Reaktion vom Provider – keine Probleme bekannt
13:05 Uhr: Bitte, uns eine LARA-Konsole zur Verfügung zu stellen, um weiterhin Remote auf den Rechner zugreifen zu können
13:30 Uhr: LARA-Konsole bereit, Server zeigt massenhaft Fehlermeldungen zum Dateisystem, Neustart zeigt, dass beide Festplatten nicht mehr aufzufinden sind
14:38 Uhr: Provider hat auf unsere Bitte hin den RAID-Controller und die Kabel ausgetauscht. Nun ist eine der beiden Platten zugreifbar, die andere weiterhin nicht. Die noch verfügbare Platte zeigt jedoch trotzdem massenhaft Fehler an
15:00 Uhr: Server kann mit der fehlerhaften Platte wieder gestartet werden, läuft jedoch instabil
15:00 Uhr – 23:40 Uhr: Wir erstellen soweit möglich aktuelle Backups aller Dienste, um den potentiell anstehenden Datenverlust auf ein Minimum zu begrenzen, da die bestehenden Backups natürlich nicht exakt vor dem Ausfall erstellt wurden
23:40 Uhr: Bitte an Provider, die erste Platte zu tauschen
00:02 Uhr: Die erste Platte ist getauscht
00:45 Uhr: Resync läuft
Das weitere Vorgehen:
Der Resync wird ein paar Stunden dauern. Danach werden wir die 2. Platte tauschen lassen und dann versuchen, die Dienste wieder online zu bringen. Aktuell sieht es so aus, dass einige Server problemlos starten werden, andere jedoch Nacharbeit benötigen werden.
Damit verabschiede ich mich ins Bett und wir lesen uns morgen 🙂
Der nach 13 Stunden Serverwiederherstellung sehr müde IT-Beauftragte
Update 26.06. – 16:33 Uhr
So, inzwischen ist wieder einiges passiert.
09:55 Uhr: Weiterarbeiten, Resync der Platten hat nicht funktioniert, LARA-Konsole beantragt
10:30 Uhr: LARA-Konsole ist da, mit Mühen den Server wieder zum Laufen gebracht, aber Reparatur endgültig sinnlos
11:55 Uhr: Neuer Server ist bestellt, wir werden die Systeme aus den Backups wieder neu aufsetzen
12:20 Uhr: Neuer Server ist da
13:03 Uhr: Virtualisierungssystem Proxmox ist installiert
13:16 Uhr: Die ersten Backups auf den neuen Server kopieren
14:12 Uhr: Backup der ersten Maschine einspielen
14:20 Uhr: 23% des Backups sind eingespielt
14:34 Uhr: 60% des Backups sind eingespielt
15:15 Uhr: Erste VM ist online, somit wieder Zugriff auf die Mailpostfächer möglich, allerdings noch kein Mailversand/-empfang und keine Mailinglisten
15:31 Uhr: Zweite VM ist online, somit wieder Zugriff auf Wanninger
16:22 Uhr: Zurückspielen der dritten VM läuft, damit Mailversand/-empfang und Mailinglisten bald wieder verfügbar sind. Diese VM zählt allerdings zu den stark zerstörten, daher kein perfektes Backup der letzten Minute, sondern ca. 10 Stunden vor Serverausfall alt. Wer sich in dem Zeitraum in Mailinglisten ein- oder ausgetragen hat oder ML-Einstellungen geändert hat muss das leider erneut machen.
16:30 Uhr: dritte VM läuft wieder, die letzten Backups müssen aber noch eingespielt werden
Jetzt geht es weiter mit den nächsten Maschinen.
Update 26.06. – 22:26 Uhr
Wir sind fertig!
Alle Server wurden wiederhergestellt. Die PirateFeedback-Server sind allerdings noch nicht wieder gestartet, da müssen die zuständigen Admins noch Hand anlegen, da es diese besonders stark erwischt hat.
Alle anderen Dienste laufen aber wieder.
Hier der letzte Teil der Chronik:
16:54 Uhr: Mails können wieder verschickt und empfangen werden, auch die Mailinglisten sind wieder verfügbar
17:22 Uhr: Die Wiederherstellung der größeren Maschinen läuft, darum ist gerade mehr Wartezeit nötig
18:37 Uhr: Der neue Server hat etwas kleinere Festplatten, daher müssen wir bei einer Maschine die virtuelle Platte verkleinern, die bisher sehr großzügig dimensioniert war. Das artet in langes Starren auf einen sehr hypnotischen Fortschrittsbalken aus.
19:01 Uhr: ownCloud ist wieder online
19:30 Uhr: Redmine läuft wieder
20:08 Uhr: Funkraum läuft wieder
20:23 Uhr: LimeSurvey ist wieder zurück
20:30 Uhr: Landesvorstandssitzung startet mit zwischenzeitlichem Bericht über den Fortschritt der Serverrettung
20:49 Uhr: Moodle/OpenMeetings und die BEO-Test-Maschine laufen wieder
21:09 Uhr: Der Wanninger-Neubau ist wieder da
21:33 Uhr: Die SG-Event-VM ist wieder online, Restore der PirateFeedback-Server läuft
21:36 Uhr: PirateFeedback-VMs sind wiederhergestellt, bleiben aber vorerst offline
22:11 Uhr: Kündigung des alten Servers zum Ende des bezahlten Zeitraums ist raus
22:15 Uhr: Wipe des alten Servers startet
jetzt: Seit dem Ausfall sind 34 Stunden und 22 Minuten vergangen, davon waren wir insgesamt über 25 Stunden mit der Serverrettung beschäftigt, der Rest der Zeit wurde für Schlaf genutzt während der alte Server den Resync versuchte. Daher: Feierabend!
Kommentare
3 Kommentare zu Serverausfall „Wigbold“
Vielen, vielen Dank für euer Engagement und euren Einsatz.
Leider wird eure Tätigkeit hinter den Kulissen viel zu selten gewürdigt.
Was wären die Piraten Bayern ohne euch
Grüße
Willi aka icho40
Danke, dass ihr euer Bestes gibt!
Mist, wenn bei einem RAID beide Platten gleichzeitig den Geist aufgeben. Hat der Provider hier etwa zwei Platten derselben Charge im System eingebaut? Das wäre fahrlässig bzw. grob fahrlässig, da nicht Business Best Practice.
Hat das „hypnotische Anstarren“ irgendwie beim Schlaf geholfen? 🙂
Vielen lieben Dank für euren Einsatz und eure unaufhörliche Arbeit
Aleks
Ja, das kann sein. Aber da wir ja auf eine der Platten überhaupt nicht mehr zugreifen konnten, kann ich das jetzt auch nicht wirklich bestätigen oder dementieren 🙂
Alles in Allem hat es aber letztendlich ein Gutes, weil wir jetzt gesehen haben, welche Teile unseres Backup/Recovery-Systems gut sind und bei welchen wir nachbessern sollten, lieber jetzt als mitten im nächsten Wahlkampf 🙂
Es können keine neuen Kommentare mehr abgegeben werden.