ITEG FAQs zu Monitoring und Alarmnachrichten
Wie reagiert man auf Alarm-Nachrichten? Wie erkennt man Fehlalarme?
Glückerweise sind die meisten Alarm-Nachrichten Fehlalarme, die von geplanten Wartungsarbeiten seitens ITEG bzw. vor allem seitens der Housing-Anbieter und der globalen Carrier herrühren.
Leider gibt es nur eine zuverlässige Erkennung von Fehlalarmen: Eine händische Prüfung des angeblich gestörten Dienstes.
Typische Zeichen für Fehlalarme sind:
- nächtliche Störungen von weit entfernten Überwachern, wobei sich „nächtlich“ relativ auf die jeweilige Zeitzone bezieht
- Alarm kommt nur von einem Überwacher (nicht von 2 oder 3) und nur einmalig
Zeichen für echte Probleme sind:
- wiederholte Alarme
- Alarme von mehreren Überwachern zugleich
- werktags 6-24h (nach mitteleuropäischer Zeit)
Alle Alarm-Nachrichten tragen als Absender und/oder am Anfang des Textes den Kurznamen des alarmierenden Überwachers. Die Überwacher (Monitoring-Standorte sind):
- MonitorHtz, bei Hetzner in Frankenstein
- MonitorIPAX, bei IPAX in Wien
- MonitorNetcup, bei Netcup in Nürnberg
Welche Arten von Alarmnachrichten gibt es?
Grundsätzlich können E-Mails und SMS verschickt werden.
Der Versand von SMS verursacht aber Kosten und wird nur im Rahmen von besonderen Vereinbarungen aktiviert.
Leider ist es derzeit nicht möglich den Verteilerkreis von der Uhrzeit abhängig zu machen.
Welche Arten von Monitoring gibt es?
Icinga 2
Icinga ist ein fork des Open-Source-Monitoring-Klassikers Nagios.
Neben Standard-Plugins zur reinen Verfügbarkeits-Feststellung von Standard-Diensten kommen auch von ITEG entwickelte individuelle Plugins zum Einsatz, etwa zur Überwachung von Status-Webseiten von Applikationsservern.
Uptimerobot
Zur Überwachung der Verfügbarkeit bzw. Netzwerkerreichbarkeit generell eignet sich am besten ein externer Anbieter mit vielen Knoten.
Wir haben uns für uptimerobot.com entscheiden und das im Juli 2022 fertig eingerichtet. Auf uptimerobot.iteg.at gibt es eine öffentliche Status-Seite wo man auch Announcements anbringen kann und wo sich Kunden subscribieren können.
Lokale Resourcen
Auf den physischen Virtualisierungs-Servern wird noch einiges zusätzlich überwacht:
der freie Plattenplatz in allen Partitionen der freie Arbeitsspeicher der maximale Arbeitsspeicherverbrauch einzelner Prozesse der Zustand der RAID-Verbünde (=Erkennung von kaputten Festplatten) wo möglich die Netzteile und Stromversorgung (überall USV)
RKHunter und RID (Remote Intrusion Detection)
Auf besonders wichtigen Servern setzen wir Intrusion Detection ein.
Da eine lokale Intrusion Detection im Fall eines erfolgreichen Einbruchs potentiell selbst kompromittiert werden kann überwachen wir hier auch die Überwacher, und setzen zusätzlich eigene Checks ein.
Neben Standard-Mechanismen (Prüfsummen wichtiger Dateien) können auch Namensauflösungen, svn-Checkouts, sowie bei Bedarf individuelle Dinge (z.B. Formular auf PCI-DSS-relevanter Webseite) auf unerwartete Änderungen geprüft werden.
Zurück zur FAQ-Übersicht
