5 Best Practices zur Automatisierung des Managements schwerwiegender Vorfälle

Autor: Roger Morrison
Erstelldatum: 27 September 2021
Aktualisierungsdatum: 1 Juli 2024
Anonim
5 Best Practices zur Automatisierung des Managements schwerwiegender Vorfälle - Technologie
5 Best Practices zur Automatisierung des Managements schwerwiegender Vorfälle - Technologie

Inhalt



Quelle: Pixtum / iStockphoto

Wegbringen:

Mit einer intelligenten Automatisierungsstrategie können Sie die Reaktion auf Vorfälle schneller und einfacher als je zuvor gestalten und Ausfallzeiten und potenzielle Sicherheitsverletzungen minimieren.

Täglich treten in Unternehmen schwerwiegende IT-Vorfälle auf. Während nur eine Handvoll Schlagzeilen macht, können Ereignisse wie Ausfälle und Sicherheitsverletzungen die Produktivität der Mitarbeiter erheblich beeinträchtigen, die Wahrnehmung der Kunden negativ beeinflussen und vor allem zu Umsatzverlusten führen.

Wenn es darum geht, größere IT-Vorfälle zu bewältigen, sollten Sie sich auf die geschäftlichen Auswirkungen und das Endergebnis konzentrieren. Laut dem Ponemon Institute beliefen sich die durchschnittlichen Kosten für Ausfallzeiten im Jahr 2016 auf 8.851 USD pro Minute - das sind mehr als 500.000 USD pro Stunde, und die typischen Ausfallzeiten betragen durchschnittlich mehr als 90 Minuten. Und das sind nur die unmittelbaren Kosten! Die längerfristigen Auswirkungen wie Reputationsschäden und Kundenabnutzungserscheinungen sind unvorhersehbar und können katastrophal sein.


Obwohl Sie nicht alle größeren Vorfälle vollständig vermeiden können, können Sie Ihr Unternehmen so rüsten, dass es so gut wie möglich darauf vorbereitet ist, sie zu beheben, wenn sie auftreten. Ein wesentlicher Bestandteil Ihrer Strategie sollte die Integration der Automatisierung sein. Unternehmen, die den Einsatz von Automatisierung bei der Behebung wichtiger Vorfälle maximieren, erzielen eine schnellere Wiederherstellung des Dienstes und weitaus weniger Fehler aufgrund menschlicher Fehler. Dies liegt daran, dass sich die Automatisierung direkt auf Ihre Fähigkeit auswirkt, die Dauer des Geschäftsauswirkungsfensters zu verkürzen - oder auf den kostspieligen Zeitraum, in dem Ihre Benutzer und Geschäftsabläufe die Auswirkungen eines Vorfalls tatsächlich spüren. (Weitere Informationen zur Automatisierung finden Sie unter Automatisierung: Die Zukunft von Data Science und Machine Learning?)

Um die Vorteile der Automatisierung zu maximieren, sollten Sie untersuchen, welche Aktivitäten während des Auswirkungsfensters stattfinden müssen, und herausfinden, wie alle anderen Aktivitäten vor Beginn des Vorfalls oder nach Wiederherstellung des normalen Betriebs ausgeführt werden können. Hier sind fünf hilfreiche Einstiegsmöglichkeiten.


1. Entwickeln und definieren Sie einen Prozess

Bei der Definition eines Prozesses für das Management wichtiger Vorfälle geht es darum, genau zu bestimmen, was während eines Vorfalls geplant, koordiniert oder ausgeführt werden kann. Dies kann beispielsweise bedeuten, dass Sie die wichtigsten Mitglieder des Supportteams anhand ihrer Fähigkeiten und ihres Zeitplans identifizieren, damit Ihr Service Desk sie so schnell und effizient wie möglich einbeziehen kann. Es bedeutet auch, herauszufinden, wie Sie relevante Informationen an Ihr Team weitergeben, damit dieses sofort mit der Lösung des Problems beginnen und die richtigen Stakeholder auf dem Laufenden halten kann.

Die Automatisierung ist für wichtige Aspekte dieses Prozesses von entscheidender Bedeutung. Beispielsweise können Sie die Aufnahme relevanter Informationen aus Ihren Überwachungstools in Ihre Service Desk-Tickets automatisieren oder Informationen aus dem Service Desk in Benachrichtigungen an die Störungsbehebungsprogramme einbeziehen. Sie können den gesamten Vorfall auch in einer einzigen Quelle umfassender Wahrheit dokumentieren, auf die alle zugreifen können. Denken Sie daran, dass Sie diesen Prozess üben können, um es richtig zu machen - Sie müssen nicht auf einen Vorfall in der realen Welt warten, um Ihren Ansatz zu testen.

2. Machen Sie Ihre Infrastruktur richtig

In der heutigen Zeit wachsamer Müdigkeit ist es wichtig, dass Sie Ihre Teams nicht mit irrelevanten Benachrichtigungen und Informationen bombardieren, die für sie nicht zutreffen. Durch das Anwenden von Filtern auf Ihre Überwachungswarnungen können Ihre Teams leichter die Nadel im Heuhaufen von Routinegeräuschen ausfindig machen. Dies ist der Schlüssel, um alle Ihre Erkenntnisse und Daten wirklich umsetzbar zu machen, anstatt nur die Informationsüberflutung zu erhöhen.

Zu den guten Möglichkeiten zur Automatisierung gehört die Verwendung einer APM-Lösung zum Crawlen aller Ihrer Anwendungen und Systeme, um proaktiv die Ursachen zu ermitteln, bevor es zu größeren Service-Ausfällen kommt. Sie können auch Ihre Überwachungs-, Service Desk-, Collaboration-Apps und Chat-Tools integrieren, um aktuelle Informationen in Echtzeit auszutauschen.

Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören

Sie können Ihre Programmierkenntnisse nicht verbessern, wenn sich niemand um die Softwarequalität kümmert.

3. MTTR genau messen

Wie messen Sie die mittlere Reparaturzeit (MTTR)? Basieren Sie es auf der Gesamtzeit, in der IT-Teams beschäftigt sind, oder auf der Gesamtzeit, in der das Unternehmen tatsächlich betroffen ist? Wenn Ihre Antwort die erste ist, sollten Sie die Messung des Auswirkungsfensters stattdessen anhand der Geschäftsperspektive überdenken. Dies ist ein viel genaueres Argument für Ihre Optimierungsbemühungen, da es Ihr Ziel ist, die Auswirkungen von Vorfällen zu minimieren und Ihrem Board nicht einfach bessere Antwortberichte zu präsentieren. (Weitere Informationen zu Ausfallzeiten und deren Behandlung finden Sie unter Was die mittlere Zeit zwischen Ausfällen wirklich bedeutet.)

Sie können automatisieren, indem Sie bei Bedarf einen vollständigen Überblick über Anwendungen geben, um die Uhr nachträglich zu starten, und eine vollständige Aufzeichnung Ihrer Abwicklungsaktivitäten und -kommunikationen für die Analyse und Prüfung aufbewahren, um Ihre Prozesse zu verbessern.

4. Die Interessengruppen auf dem Laufenden halten - ohne jedoch die Beschlussfassung zu unterbrechen

Die Interessengruppen erwarten eine effektive und zeitnahe Kommunikation und erwarten, dass Fachexperten sich weiterhin auf die Behebung von Problemen konzentrieren. Sie könnten zwar einen Kommunikationskontaktpunkt für die Überwachung und Einbeziehung von Geschäftsbenutzern festlegen, eine effektivere Strategie wäre jedoch die Erstellung einer Self-Service-Webseite mit Statusaktualisierungen. Dies gibt dem Stakeholder die Möglichkeit, selbst zu prüfen, ohne Ihr Team mit weiteren Anrufen und Aktionen zu belästigen. Denken Sie daran, Ihre Stakeholder in regelmäßigen Abständen zu aktualisieren, damit sie stets den neuesten Statusbericht erhalten und erwarten können. Vergessen Sie nicht, dass die Kommunikation nicht einfach unterbrochen werden sollte, weil der Service wiederhergestellt ist! Wichtige Stakeholder erhalten einen Überblick darüber, was passiert ist, was gelernt wurde und wie die Situation in Zukunft verhindert werden kann.

In diesem Fall kann die Automatisierung implementiert werden, um eine automatische Echtzeit-Statusseite für die Stakeholder zu erstellen und Schrägstriche in Ihr Chat-Tool zu integrieren, um diese Seite zu aktualisieren.

5. Sammeln Sie Daten, um das Problem Management zu unterstützen

Die Wiederherstellung des Dienstes bedeutet nicht das Ende des Incident-Managements! Tatsächlich treten einige der wertvollsten Aktivitäten nach der Lösung auf. Durch das Sammeln von Diagnose- und Auswirkungsdaten und die Durchführung von Ursachenanalysen können Sie eine vollständige Prüfung eines schwerwiegenden Vorfalls durchführen, einschließlich vorbeugender Maßnahmen, um ähnliche Vorfälle in Zukunft zu vermeiden. Selbst wenn ein erkennbarer Vorfall erneut auftritt, können Sie außerdem eine definierte Prozedur für die zu erfassenden Datentypen und die Schritte erstellen, die zum Auflösen des Laufwerks erforderlich sind. Auf diese Weise muss sich Ihr Team lediglich auf eine Checkliste beziehen und sich auf das Kernziel der Wiederherstellung des Service konzentrieren, anstatt sich Gedanken darüber zu machen, was und wann benötigt wird.

Durch die Automatisierung können Auflösungsaktivitäten, einschließlich Chat-Transkripten, in einem einzigen Aufzeichnungssystem zur Analyse erfasst und aufbewahrt werden. Darüber hinaus können Sie auf diese Weise einen Katalog mit bekannten Vorfällen oder Problemen erstellen, bewährte Vorgehensweisen für jeden einzelnen festigen und so die Lösungsgeschwindigkeit in Zukunft erhöhen.

Fazit: Smarter automatisieren, nicht mehr

Seien Sie gewarnt, dass mehr Automatisierung nicht unbedingt der bessere Ansatz ist! Es ist wichtiger, dass Sie verstehen, wann, wo und wie Sie Ihre IT-Systeme miteinander verbinden, um das Incident Management zu unterstützen. Sie möchten keine unnötige Komplexität hinzufügen, um automatisierte Prozesse zu beschleunigen. Denken Sie daran, dass das Ziel darin besteht, die Abläufe so weit wie möglich zu vereinfachen und zu konsolidieren, damit sich Ihre Teams befähigt fühlen, Probleme effizient anzugehen. Es geht darum, die Automatisierung intelligent umzusetzen, um eine gut koordinierte Abfolge von Prozessen, sachkundiges Personal und eine effektive Kommunikation mit den Interessengruppen zu ermöglichen, um die Gesamtauswirkungen größerer Vorfälle auf das Geschäft zu minimieren.