CC Suche Sitemap
Hochverfügbarkeit  / Komponenten  / Infrastruktur  / Enterprise Management  / System Management  /  Grundfunktionen

Monitoring (Überwachen)

Bond Interface OK (Nagios-Statusüberwachung)
Zur vergrößerten Darstellung anklicken

Kern des Systemmanagements ist das Überwachen von Ressourcen. Es werden alle zum Betrieb relevanten Daten erfasst und bewertet. Dies beinhaltet typischerweise die Überwachung von Hard- und Software-Komponenten, welche unabdingbar mit dem Geschäftsbetrieb verknüpft sind. Datenbanken, redundant ausgelegte Server und Backup-Systeme, Internetanbindungen und Funktionalitäten von Schutzmechanismen (Firewall/Spamfilter/AntiVirus-Software) sind nur ein kleiner Teil der Ressourcen, welche sinnvollerweise überwacht werden. Nachfolgend ein Beispiel, in dem der Status einer überwachten Ressource direkt abzulesen ist.

 

Diagnose

Aus der Überwachung verschiedener Ressourcen ergibt sich eine Diagnose bzw. eine Zustandsbeurteilung der IT-Infrastruktur. Diese kann für einzelne Teile oder auch für die gesamte IT-Infrastrukur gebildet werden. Die Diagnose beinhaltet verschiedene Zustände: Ausfall, Überlastung und wechselnde Zustände. Die Beurteilung dieser Zustände unterliegt verschiedenen Handlungskriterien und kann mit Hilfe der Systemmanagement-Software analysiert werden.

Ausfall einer Komponente

In diesem Fall dient das Systemmanagement als Analysewerkzeug, welches den Ausfall von Komponenten darstellt und deren Abhängigkeiten in der gesamten Infrastruktur aufschlüsselt. Somit ist eine Verfolgung fehlerhafter Komponenten oder Wegstrecken in der IT-Struktur auf einen Blick ersichtlich und hilft, die Zeit zur Fehleranalyse zu minimieren.

Überlastung einer Systemkomponente

Systemkomponenten, die an der Leistungsgrenze arbeiten, können mit Hilfe des Systemmanagement-Werkzeuges erkannt werden. Vor einem Systemkollaps können entsprechende Gegenmaßnahmen ergriffen werden, um die betroffenen Komponenten wieder in einen Zustand des einwandfreien Betriebs zu versetzten. Auch kann hier aktiv einem möglichen Totalausfall einer Hardware vorgebeugt werden.

Wechselnde Zustände

Hierbei gilt die Analyse oftmals einem nicht ständig auftretendem Hardware-Defekt oder einem Software-Fehler. Zeitfenster, in denen bestimmte Dienste oder Hardware nicht verfügbar waren oder deren Zustand nicht erfasst werden konnte, werden dokumentiert. Der Vergleich mit Ausgaben der entsprechenden Systeme oder Softwarekomponenten im Normalbetrieb liefert Informationen, die hilfreich sind, Fehlerquellen einzugrenzen und mögliche Verkettungen in einem Fehlerfall aufzudecken.

Notification (Benachrichtigung)

Alle Zustände einer Systemkomponente können über das Notification-Programm als Bestandteil der Systemmanagement-Software an Personen oder Personengruppen aber auch an externe Dienstleister weitergegeben werden. Zudem besteht die Möglichkeit, Frequenzen und Zeiträume einer Benachrichtigung in dem Notification-Mechanismus zu hinterlegen. Die Verschachtelung einzelner Eskalationsstufen bietet die Möglichkeit, Fehler zu gewichten und entsprechende Maßnahmen zu Benachrichtigung einzuleiten.

Zum Beispiel ist ein Systemausfall eine Benachrichtigung an den im Moment vor Ort arbeitenden Administrator. Wird der Fehler nicht von diesem in der ersten Eskalationsstufe definierten Kontakt bestätigt, wird anhand einer vorher erstellten Regel ein weiterer Kontakt oder eine weitere Personen über den Ausfall benachrichtigt, bis hin zur Verständigung eines möglicherweise externen Dienstleisters.

Anhand dieses Eskalationsmodels können Fehler in verschiedenster Weise behandelt werden. Dies betrifft die Benachrichtigungsart, deren Häufigkeit und die Dauer.