CC Suche Sitemap
Hochverfügbarkeit  / Komponenten  / Infrastruktur  / Enterprise Management  / System Management  / Nagios  /  Service-Checks

Service-Checks

Verhalten bei Ausfall
Zur vergrößerten Darstellung anklicken

Die Prüftiefe einzelner Service-Checks ist beliebig anpassbar. So kann z.B. auf einem Server sowohl überprüft werden ob der Dienst „MySQL“ aktiv ist, aber auch ob die Datenbank, die durch „MySQL“ bereitgestellt wird, für einen spezifischen Nutzer beschreibbar ist. Die Ergebnisse der Service-Checks geben damit Aufschluss über die Verfügbarkeit der zu überwachenden Ressourcen. Sie können auch für eine Benachrichtigung, z.B. über den Ausfall einer Komponente, verwendet werden.

Eine große Hilfe für die Fehleranalyse über Nagios bietet die Möglichkeit der Verknüpfung verschiedener Systemkomponenten und deren Abhängigkeiten in der Gesamttopologie der IT-Infrastruktur.

Beispiel: Eine zu überwachende Ressource ist nur über einen bestimmten Router erreichbar. Fällt dieser aus, zeigt Nagios in der Status-Map der IT-Infrastruktur die Fehlerstrecke an. Es erfolgt eine Benachrichtigung an einen zuständigen Kontakt über die ausgefallene Komponente. Geräte oder Dienste, die sich in Abhängigkeit von der fehlerhaften Router-Ressource befinden, werden im Status-Map als „unknown“ gekennzeichnet und es erfolgt über deren Zustand keine zusätzliche Benachrichtigung. Aufgrund der Abhängigkeiten zwischen den Ressourcen wird vermieden, unnötig viele Fehler-Benachrichtigungen zu versenden. Genauso kann natürlich auch über den Ausfall einer redundant ausgeführten Ressource benachrichtigt werden, obwohl noch kein Funktionsausfall vorliegt.

Nagios verfügt zusätzlich über eine Flap-Detaction-Funktionalität. Diese erlaubt es, wechselnde Zustände zu erkennen. Ist z.B. in einem Zeitraum X der Test für eine Ressource mal erfolgreich und mal fehlgeschlagen, so wird ab einem definierten Zeitraum diese Ressource als Flapping gekennzeichnet. Dies bedeutet, dass eine Kontaktperson oder Personengruppe über diesen Zustand, Flapping, informiert wird. Danach findet jedoch keine weitere Benachrichtigung mehr statt. Dadurch wird eine hohe Anzahl an Alarmmeldungen vermieden, die dieser Dienst, je nach  Konfiguration des Check-Zeitraums, sonst versenden würde.

Nagios kann im Prinzip alle Komponenten überwachen, deren charakteristischen Parameter sich in elektronischer Form messen oder zählen lassen. Speicherauslastung, Temperaturen, Systemlast oder auch ob sich z.B. zu einem bestimmten Zeitpunkt in einem Rechenzentrum Personen aufhalten - die Möglichkeiten sind kaum begrenzt.