5 Warnsignale für einen kritischen Geräteausfall

Inhalt

Was ist MTBF?
Routing
Schalter
Belastbare Leistung
Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören
Geschützter Speicher
Server
MTBF: Es kann auch scheitern

Wegbringen:

Die Reduzierung von Ausfallzeiten durch sorgfältige Vorausplanung kann den Unterschied zwischen Wachstum und Rückgang des Geschäfts bedeuten. In diesem Fall tritt die mittlere Zeit zwischen zwei Fehlern ein.

Unterschätzen Sie nicht, wie sehr heutige Unternehmen jeden Tag auf kritische Systeme vertrauen. Deshalb ist es nur selbstverständlich, dass ein Unternehmen das Risiko eines Geräteausfalls einschätzen kann. Da nicht garantiert werden kann, wann ein Gerät ausfallen könnte, muss zumindest genau eingeschätzt werden, wann es nicht mehr als zuverlässig angesehen werden kann.

Ein ansonsten unsichtbares Gerät scheint für ein Unternehmen möglicherweise nicht kritisch zu sein. Wenn jedoch ein einzelner Lüfter ausfällt, gibt ein Generator den Geist auf und verursacht über einen längeren Zeitraum Zehntausende oder sogar Hunderttausende von Benutzern kostspielige Probleme Stellen Sie sicher, dass die Einschätzung, welche Komponenten Ihrer Infrastruktur wann ausfallen könnten, von größter Bedeutung ist. Das ist die mittlere Zeit zwischen Ausfällen (MTBF), die Methode, auf die sich IT-Experten verlassen, um genaue Angaben zu machen Schätzungen darüber, wann kritische Geräte ausfallen. Hier werfen wir einen Blick darauf, was letztendlich einige gängige Arten von kritischer Ausrüstung tötet und wie MTBF helfen kann, den Tag zu retten.

Was ist MTBF?

Jedes hergestellte IT-Gerät erhält eine eindeutige Modellnummer. Diejenigen, die eine Rolle in der kritischen Infrastruktur spielen, werden mit einer MTBF-Schätzung an Kunden geliefert. Die komplexen Berechnungen zur Ermittlung der MTBF für ein Gerät finden während der langen Testphase innerhalb einer Produktforschung und -entwicklung statt und sind relativ modellspezifisch.

Wenn Sie den MTBF für ein bestimmtes Gerät suchen, finden Sie ihn im detaillierten Datenblatt des Herstellers. Sie können sich auch direkt an den Hersteller wenden.

Routing

Ein Unternehmensrouter enthält viele Teile, einige bewegliche und andere statische. Netzteil und Lüfter haben bewegliche Teile und diese Elemente können zu Ausfällen führen, insbesondere wenn sich das Gerät nicht in einem relativ staubfreien Rechenzentrum befindet. Glücklicherweise melden sich die meisten Router mit einigen Administrator-Eingaben bei a SysLog Einrichtung, so dass alle ausgefallenen Komponenten gekennzeichnet werden können.

Schalter

In ähnlicher Weise ist die nächste Ebene innerhalb eines Unternehmensnetzwerks die Vermittlungshardware. Obwohl Switches der Enterprise-Klasse in der Regel auch auf Lüfter angewiesen sind, gibt es in der Regel weniger als in einem Router-Gehäuse. Wenn die Ventilator-Surring-Mechanismen intakt sind, verhält sich ein fehlerhafter Switch normalerweise auf Software-Ebene fehlerhaft, indem entweder ein Switch-Port unerwartet deaktiviert wird oder häufiger ein ungewöhnliches Verhalten auftritt, z Benutzerdefinierte Einstellungen, ohne dazu aufgefordert zu werden.

Das Netzwerk-Gigant Cisco gibt an, dass einer seiner Router eine MTBF von 188.574 Stunden für das Modell Cisco Catalyst 3750G-24TS hat. Wenn wir das durch 8.765.81277 (die Anzahl der Stunden pro Jahr) dividieren, sehen wir, dass dieses Modell eine MTBF-Schätzung von etwa 21,5 Jahren hat. Diese Zahl ist beruhigend, wenn man bedenkt, dass dieses Gerät rund um die Uhr einwandfrei funktionieren muss, obwohl es in Wirklichkeit natürlich nur ein Hinweis auf seine Zuverlässigkeit ist. Trotzdem gibt es Benutzern eine fundierte Vorstellung davon, wie lange dieses Gerät voraussichtlich halten wird.

Belastbare Leistung

Unterbrechungsfreie Stromversorgungen (USV), die an eine große Anzahl von Batterien angeschlossen sind, können während des kurzen Zeitraums im Unternehmen Notstrom liefern, bevor Generatoren während eines Stromausfalls hochfahren. Bestimmte Softwarefehler können in einer USV auftreten, wie bei jedem anderen Gerät. Im Allgemeinen sind jedoch die Batterien, aus denen sie Strom beziehen, am besorgniserregendsten. Wenn eine USV-Batterie häufig abgeschaltet und aufgeladen wird, verringert sich ihre Kapazität schneller und ihre Betriebszeit verkürzt sich dramatisch. Es ist nicht überraschend, dass USV-Batterien auch ganz ausfallen können. Eine USV kann über Modems und Netzwerke berichten, wenn Fehler auftreten. Ältere USVs lösen jedoch häufig akustische Alarme aus, wenn ein Problem zum ersten Mal auftritt.

Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören

Sie können Ihre Programmierkenntnisse nicht verbessern, wenn sich niemand um die Softwarequalität kümmert.

Geschützter Speicher

Die Festplatten, die wir heute verwenden und auf die wir uns in hohem Maße verlassen, sind in den letzten zehn Jahren erheblich zuverlässiger geworden. Sie sind jedoch alles andere als unfehlbar und scheinen, je nachdem, von welcher Studie Sie ausgehen, abhängig von einer Reihe von Faktoren, für einen längeren Zeitraum korrekt zu funktionieren. (Eine gute Meinung dazu finden Sie hier auf The Remarketer.) Wenn detaillierte Berichte aktiviert sind und das Laufwerk Feedback zu Fehlern liefert, sind beschädigte Sektoren und Lese- / Schreibfehler der Schlüssel zum Erkennen einer Festplatte in einem Speicherarray scheitert. Ein weiteres häufiges Problem bei Servern, die mehrere an einen RAID-Controller angeschlossene Festplatten verwenden, besteht darin, dass der Controller selbst ausfällt. Leider hören Festplatten manchmal einfach ohne Vorwarnung auf zu funktionieren, ein Problem, vor dem man sich nur schwer zuverlässig schützen kann.

Server

Abgesehen von den Laufwerken, die in Servern eingebaut sind, und den beweglichen Teilen, wie z. B. den oben genannten Kühlungslüftern und Netzteilen, können auch eine Reihe von Problemen innerhalb der Hardwarekomponenten eines Servers auftreten. Die Berichterstellung auf Software-Ebene (die sich normalerweise auf das BIOS oder andere Low-Level-Hardware-Komponentendiagnosen bezieht) ist der Schlüssel zum Erkennen von Fehlern oder, was noch wichtiger ist, Anzeichen von Fehlern. Ein Problem, das möglicherweise nicht sofort offensichtlich ist, betrifft Motherboards. Es macht durchaus Sinn, dass Maschinen zu viel Wärme nicht mögen. Aber selbst heute können Risse auftreten, wenn eine moderne Leiterplatte einem schnellen Wärmeverlust ausgesetzt ist - oder wenn sie sehr heiß wird oder plötzlich kalt wird -, was zu einem katastrophalen Ausfall der Leiterplatte führt. Dies ist ein Problem, das Sie berücksichtigen sollten, insbesondere, wenn Sie Geräte innerhalb eines unversöhnlichen Zeitrahmens für Wartungsfenster zwischen Gebäuden hin- und herbewegen.

MTBF: Es kann auch scheitern

Genauso nützlich wie MTBF-Vorhersagen ist es wichtig, das Ausmaß des akzeptablen Risikos für alle Geräte zu berechnen, auf die sich ein Unternehmen verlassen muss. Leider besteht die einzige Möglichkeit, die Verfügbarkeit der Geräte, auf denen kritische Systeme ausgeführt werden, trotz aller statistischen Zusicherungen der Hersteller zu gewährleisten, darin, sie zu verdoppeln, um ein Timeout-Failover zu ermöglichen.

Jede einzelne Hardware, die im Unternehmen verwendet wird, besteht aus vielen verschiedenen Komponenten, sodass die wahre MTBF keine triviale Berechnung darstellt. Es ist eindeutig von entscheidender Bedeutung, die Zukunft eines Unternehmens nicht auf diesen Wahrscheinlichkeitsmessungen auszuruhen, sondern sie stattdessen als Maßstab für fundierte Entscheidungen in Bezug auf Geschäftskontinuität und Notfallwiederherstellungsverfahren zu verwenden. Schließlich kann die Reduzierung von Ausfallzeiten durch sorgfältige Vorausplanung den Unterschied zwischen einem erfolgreichen Unternehmen und einem gescheiterten Unternehmen ausmachen.