Posted in Administration, Hardware, IT, Linux

4. März 2016

Wie konnte ich das vergessen?

Die Verwendung von RAIDs ist, abhängig vom Einsatz, ganz sicher eine sinnvolle Angelegenheit. Hier gehe ich nicht auf Philosophien, sondern ausschließlich auf den administrativen Teil eines laufenden RAID ein.

Läuft ein RAID erst, wird es gerne auch vergessen. Fühlt man sich doch sicher mit so einem echten Hardware-RAID. Vor allem, wenn man sich den Luxus eines RAID6 mit zusätzlicher Hot-Spare-Platte gönnt, lehnt man sich gerne im Schatten vermeintlich unzerstörbarer Daten zurück.

Datensicherheit, vor allem für hoch verfügbare Systeme, kann aber nie sicher genug sein. Denn bei allen Vorteilen, die so ein RAID bietet, es gibt mindestens einen ganz erheblichen Nachteil: Der Tod eines Controllers!

Gut, damit habe ich schon immer gerechnet und deshalb die Datenbasis auch mehrfach abgesichert, in dem die logische Partition des RAID6 per DRBD in Echtzeit auf ein zweites RAID6 in einem zweiten Server gespiegelt wird und zusätzlich führt noch ein BackupPC jede Nacht ein Backup aller wichtigen Daten auf File-Basis durch.

Und dann ist es letzten Sonntag passiert!

Ich habe festgestellt, dass unsere Systeme spürbar langsamer wurden. uptime zeigte mir an, dass der zweite Daten-Server, der zu diesem Zeitpunkt der aktive Server war, unter ganz erheblichem Load stand und alle anderen Systeme, die davon abhängig waren, ebenfalls auffallend hohe Load-Werte aufwiesen.

Schließlich fand ich den Grund: Auf dem Spiegel-Partner häuften sich kritische Fehlermeldungen des RAID-Controllers im System-Log. Er konnte schlicht die Daten nicht mehr verarbeiten und damit auch nicht mehr annehmen, die ihm vom aktiven Server gesendet wurden. In der Folge entstand ein Datenstau. Ein Shutdown mit anschließendem Kaltstart brachte zunächst Besserung. Der DRBD-Spiegel wurde schnell wiederhergestellt und alles normalisierte sich. Bis das Spiel nach etwa 10 Minuten von neuem begann. Die einzige Schlussfolgerung daraus: Der RAID-Controller hat sein Lebensende erreicht.

Der Server wurde abgeschaltet, wodurch sich das Gesamtsystem umgehend erholte. Alles war wieder im grünen Bereich, außer mein Bauchgefühl!

Ich habe natürlich umgehend einen neuen RAID-Controller bestellt, nebst Kabelsatz und BBU. Das gleiche Modell, wie es im etwas jüngeren, zweiten System zum Einsatz kommt. Und bei dieser Gelegenheit habe ich mir dann den Zustand des verbliebenen RAID einmal genauer angesehen und wurde erschreckt:

[root@xxxx-02 vz]# tw_cli /c0/u1 show

 Unit     UnitType  Status         %RCmpl  %V/I/M  VPort Stripe  Size(GB)
 ------------------------------------------------------------------------
 u1       RAID-6    REBUILDING*    12%(A)  -       -     256K    5587.9
 u1-0     DISK      DEGRADED       -       -       p2    -       1862.63
 u1-1     DISK      OK             -       -       p3    -       1862.63
 u1-2     DISK      OK             -       -       p4    -       1862.63
 u1-3     DISK      OK             -       -       p7    -       1862.63
 u1-4     DISK      WARNING        -       -       p6    -       1862.63
 u1/v0    Volume    -              -       -       -     -       5587.9

Au weia! Das RAID befand sich in einem Rebuild und eine Festplatte steht auf WARNING. Genauer betrachtet, sah das dann so aus:

[root@xxxx-02 vz]# tw_cli /c0 show

 Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
 -----------------------------------------------------------------------------
 u0    RAID-1    OK             -       -       -       2793.96   RiW    ON
 u1    RAID-6    REBUILDING     12%(A)  -       256K    5587.9    RiW    ON
 u2    RAID-6    INOPERABLE     -       -       256K    5587.9    Ri     ON
 
 VPort Status         Unit Size      Type  Phy Encl-Slot    Model
 ------------------------------------------------------------------------------
 p0    OK             u0   2.73 TB   SATA  0   -            WDC xxxx
 p1    OK             u0   2.73 TB   SATA  1   -            WDC xxxx
 p2    DEGRADED       u1   1.82 TB   SATA  2   -            WDC xxxx
 p3    OK             u1   1.82 TB   SATA  3   -            WDC xxxx
 p4    OK             u1   1.82 TB   SATA  4   -            WDC xxxx
 p5    OK             u2   1.82 TB   SATA  5   -            WDC xxxx
 p6    ECC-ERROR      u1   1.82 TB   SATA  6   -            WDC xxxx
 p7    OK             u1   1.82 TB   SATA  7   -            WDC xxxx

Und schlagartig wurde mir klar, dass ich bei der Systemwartung, bzw den automatischen Warnungen irgendwas übersehen – oder besser – vergessen hatte. Die üblichen Logfile-Auswertungen haben mich nämlich nicht darauf hingewiesen, dass es ein Problem mit einer oder mehrerer Platten geben könnte. Bei genauerem Hinsehen fällt dann deutlich auf, dass da einiges passiert ist, seit das RAID läuft.

Bei manueller Durchsicht der Logfiles fand ich durchaus Hinweise auf Probleme. p2 und p6 haben ECC-Fehler gemeldet. Jetzt nicht tausende, aber sie waren vorhanden. Und p7 war eigentlich die Hot-Spare Platte für das RAID6. Nun ist sie aktiv und p5 gehört nicht mehr zum RAID u1. Es hat also zwischenzeitlich schon mindestens einen Plattenausfall gegeben.

Die höchste Priorität hat nun aber die Wiederherstellung des ersten Servers mit dem neuen RAID-Controller. Außerdem erhält der Server dabei einen kompletten Satz neuer Platten. Und schließlich muss der Datenspiegel wieder hergestellt werden. Ist das erledigt, nehme ich mir den jetzt aktiven Server zur Brust und verpasse auch diesem eine Festplatten-Verjüngungskur.

Und schließlich bekommen beide Server von mir kleine Scripte verpasst, die per Cron regelmäßig auf Auffälligkeiten der RAIDs und der angeschlossenen Platten prüfen und mich ggf. zeitnah informieren. Einen täglichen Statusbericht über ihre RAIDs sollen beide Server grundsätzlich senden.

Die entsprechenden Scripte werde ich hier veröffentlichen.

Nur Schindluder

… und anderes sinnloses Zeug!

Wie schaut mein RAID aus?

Wie konnte ich das vergessen?

Und dann ist es letzten Sonntag passiert!

Ähnliche Beiträge

This article has 1 comment

Kommentar verfassen Antwort abbrechen