Monitoring und Observability gehen Hand in Hand

Cristina De Luca -

Februar 01, 2022

Technologieumgebungen stehen unter einem enormen Druck. Externe Faktoren ändern sich fast täglich und IT-, OT- und IoT-Infrastrukturen müssen in Bezug auf die von ihnen bereitgestellten Dienste genauso flexibel sein wie die Mitarbeiter im Unternehmen.

Bereits kleine Änderungen oder Infrastrukturprobleme haben erhebliche Auswirkungen – auf die Gesundheit, die Produktqualität, die Betriebszeit der Dienste und sogar auf die Sicherheit von Menschen. Deshalb ist es auch entscheidend, den Überblick über die Vorgänge im Rechenzentrum und im Netzwerk zu behalten, um schnell auf Veränderungen zu reagieren.

Wir werden nicht müde zu betonen, dass sich Dinge, die nicht sichtbar und dokumentiert sind, unmöglich monitoren und verwalten lassen. Oder wissen Sie wirklich, welche Geräte sich in Ihrem Netzwerk befinden und wie viele es sind? Welche aktiv kommunizieren und welche Protokolle sie verwenden? Oft ist unklar, welche Geräte mit wem oder was kommunizieren.

In großen Umgebungen mangelt es außerdem an Transparenz hinsichtlich der tatsächlichen Installationen und Betriebssystem-Versionen auf den Maschinen und Geräten. Das hat zur Folge, dass Schwachstellen unentdeckt bleiben.

Hinzu kommt, dass sich digitale Kundenerlebnisse zunehmend in einem komplexen und verteilten Ökosystem bewegen. Denn was so einfach aussieht – ein Benutzer verwendet eine App – ist in Wirklichkeit eine komplizierte Reise durch Heimnetzwerke, das Internet, Hybrid- und Multi-Cloud-Architekturen sowie SaaS-Anbieter-Netzwerke. Die Gefahr: Blinde Flecken in dieser Infrastruktur können den Unternehmen großen Schaden zufügen.

Aus diesem Grund sind Visibility und Observability für einen reibungslosen Betriebsablauf unerlässlich. Sie werden durch bestimmte Monitoring-Systeme erreicht.

Die Definition der Netzwerküberwachung ist dabei relativ einfach: Eine systematische Sammlung und Analyse von Daten, die den reibungslosen Betrieb von Infrastrukturen oder Anwendungen gewährleistet. Überwachungswerkzeuge zeichnen Leistungsstatistiken über einen längeren Zeitraum auf, sodass sich Nutzungsmuster erkennen lassen. Monitoring-Agents erfassen ausgewählte Metriken in bestimmten Intervallen und speichern die daraus resultierenden Daten in einem Zeitserien-Format.

Das Application Performance Monitoring (APM) ermöglicht die Überwachung des gesamten Kundenerlebnisses – von Browsern und mobilen Geräten bis hin zu den verschiedenen Schichten des Anwendungs-Stacks. Das APM beginnt beim Front-End-Monitoring: der Messung und Überwachung einer Kundenerfahrung über den Browser oder ein mobiles Gerät. Das Herzstück von APM, Anwendungserkennung, -verfolgung und -diagnose ist die Fähigkeit, den Teil einer Applikation zu identifizieren, der Leistungsprobleme verursacht – und den Grund dafür schnell zu ermitteln.

Das Infrastruktur-Monitoring ermöglicht es, Metriken und Protokolle aus einem Infrastruktur-Stack zu korrelieren. Dadurch können die Ursachen von Leistungsproblemen verstanden und behoben werden.

Digital Experience Monitoring (DEM) bietet hingegen Einblicke in die Erfahrungen des Endnutzers bei der Interaktion mit dem System, indem es die Aktivitäten des Browsers, der mobilen App oder der Sprachfunktion erfasst. Synthetische Transaktionen beinhalten Skripte, um das Verhalten des Endnutzers bei der Interaktion mit einem System zu emulieren. So kann es überwacht und getestet werden, auch wenn es nicht unter realer Last arbeitet. Real User Monitoring (RUM) kombiniert die Überwachung der Verfügbarkeit einer Website oder API für den Empfang von Anfragen aus verschiedenen Standorten in der Welt mit automatisierten A/B-Tests.

Das Monitoring macht Sie auf bekannte Probleme aufmerksam. Visibility geht darüber hinaus. Denn hierbei handelt es sich um den Prozess der Verwaltung unbekannter oder potenzieller Probleme. Demnach ist die Visibility quasi eine Folge des Monitorings. Mit der reinen Netzwerküberwachung fallen Vorfälle erst dann auf, wenn sie sich bereits zu Problemen entwickelt haben. Im Gegensatz dazu geht es bei der Visibility darum, Überwachungsdaten und andere Kenntnisse über IT-Systeme zu nutzen, um Leistungs- oder Zuverlässigkeitsprobleme vorherzusagen und zu erkennen, bevor sie vollständig eintreten.

Die Observability erweitert wiederum diese Überwachung und ermöglicht die Korrelation und Prüfung von Rohdaten, um tiefere Einblicke zu gewinnen. Denn in der immer komplexer werdenden Cyberlandschaft von heute ist es für Unternehmen wichtiger denn je, kontextbezogene Daten analysieren können. So lassen sich fundierte Entscheidungen hinsichtlich der eigenen Netzwerksicherheits-Politik treffen.

Vereinfacht ausgedrückt ist die Observability ein Maß dafür, wie gut etwas intern funktioniert – daraus abgeleitet, was extern geschieht. Die richtige Kombination von Kontextdaten kann verwendet werden, um ein tieferes Verständnis für die Bereitstellung von Netzwerkrichtlinien und jede Anwendung zu erlangen, die eine Kommunikation über das Netzwerk versucht. Mit der Observability-Funktion ist es für Angreifer schwierig, sich in Ost-West-Richtung zu bewegen oder sich im Rechenzentrum bzw. WAN zu verstecken. Im Gegenzug bietet die Observability einen Überblick über die Netzumgebung und einen visuellen Beweis dafür, dass die Sicherheitsstrategie wirksam ist und funktioniert. Darüber hinaus kann sie dabei helfen, Optionen auf Leistungsverbesserungen in der Cloud-Flotte aufzudecken und dadurch die Kosten zu senken.

Die rechtzeitige Erkennung eines Problems (vorzugsweise bevor es sich auf die Endnutzer auswirkt) ist die erste Stufe der Observability. Die Erkennung sollte proaktiv und vielschichtig sein, Alarme einschließen, wenn Leistungsgrenzen verletzt werden, und synthetische Tests sowie Anomalien-Detektoren beinhalten.

Visibility und Observability sind wertvolle Beiträge zur Diskussion über die Netzwerküberwachung.

Um zu verstehen, welche Strategien umgesetzt werden sollen, brauchen Sie einen Monitoring-Partner, der die Abläufe in Ihrem Unternehmen genau kennt. Einen Partner, der eine praktische und detaillierte Analyse Ihrer aktuellen Systeme und zukünftigen Anforderungen sowie einen proaktiven Ansatz bietet.

Doch wie wählen Sie eine Monitoring-Lösung aus, die Ihren Anforderungen an Visibility und Observability entspricht? Ein guter Ausgangspunkt ist die Bewertung anhand dieser 12 wesentlichen Funktionen.

1 – Skalierbarkeit mit Ihrer Infrastruktur – Netzwerke beginnen oft klein, wachsen aber im Laufe der Zeit, wenn neue Systeme, Funktionen, Geräte, Anwendungen oder neue geografische Standorte hinzukommen. Das gewählte Überwachungstool muss mit Ihrem Netzwerk mitwachsen können.

2 – Überwachungsmöglichkeiten für mehr als ein Rechenzentrum sowie verteilte Netzwerke – Denn in einem realistischen Großszenario gibt es in der Regel nicht nur ein Rechenzentrum und auch mehrere geografische Standorte.

3 – Herstellerunabhängigkeit – Große Umgebungen mit Geräten und Systemen von verschiedenen Herstellern sind heterogen. Um alles unter einen Hut zu bekommen, sollte das Monitoring-Tool mit möglichst vielen Anbietern und Herstellern kompatibel sein.

4 – Unterstützung aller wichtigen Monitoringmethoden, -technologien und -protokolle – Es gibt viele Möglichkeiten zur Überwachung. Deshalb sollte ein gutes Überwachungsinstrument so viele Optionen wie möglich bereithalten.

5 – Breites Spektrum an Überwachungsfunktionen – Im Idealfall möchten Sie ein Tool, das mehrere Überwachungsprogramme ersetzen kann.

6 – Systematische Rechte- und Rollenverteilung ­ Es ist sinnvoll, die Möglichkeit zu haben, Benutzer eindeutigen Teams und Zuständigkeiten zuzuordnen. So ist jedes Team für seinen Teil der Infrastruktur verantwortlich.

7 – Erweitertes Alarmmanagement zur Reduzierung des Warnungs-Lärms – In einer großen Umgebung müssen Sie die Anzahl der Alarme auf ein Minimum reduzieren.

8 – Unterstützung branchenspezifischer Protokolle, offener APIs sowie von Vorlagen für individuelle Skripte zur Integration von Technologien jenseits der IT – Beispiele sind die Überwachung medizinischer Geräte im Gesundheitswesen, Maschinen in der Fertigung oder IoT-Konfigurationen.

9 – Interaktion mit anderen Überwachungs-, Sichtbarkeits- und Beobachtungstools – Wenn Sie sich einen zentralen Überblick verschaffen wollen, müssen Sie die Daten aus mehreren Systemen in einer zentralen Ansicht konsolidieren.

10 – Interaktion mit BI-Lösungen – Für eine erweiterte Analyse der Überwachungsdaten sollten Sie in der Lage sein, die Daten an Business-Intelligence-Anwendungen weiterzuleiten.

11 – Möglichkeit zur Modellierung, Verfolgung und Berichterstattung von SLAs auf der Grundlage von Geschäftsservices – In einer Unternehmensumgebung haben Sie wahrscheinlich interne Service Level Agreements für Ihre Teams und externe Service Level Agreements für Kunden oder Benutzer. Diese müssen nachverfolgt und dokumentiert werden können.

12 – Schnelle und einfache Einrichtung Sie müssen dazu in der Lage sein, das System so schnell wie möglich und mit minimalem Aufwand in Betrieb zu nehmen.

Teams, die gute Arbeit bei der Überwachung und Beobachtung leisten wollen, müssen deshalb über die entsprechenden Voraussetzungen verfügen:

  • Berichterstattung über den allgemeinen Zustand der Systeme („Funktionieren meine Systeme?“, „Haben meine Systeme genügend Ressourcen zur Verfügung?“)
  • Berichterstattung über den Systemstatus in Abhängigkeit von der Kundenerfahrung („Wissen meine Kunden, ob mein System ausfällt und sie eine schlechte Erfahrung machen?“)
  • Nachverfolgung der wichtigsten Geschäfts- und Systemmetriken
  • Tools, die dabei helfen, die Systeme in der Produktion zu verstehen und Fehler zu bereinigen
  • Werkzeuge, die einen Mehrwert an Information bieten (d. h. Sie können Dinge herausfinden, die nicht bekannt waren)
  • Zugang zu Tools und Daten, um Infrastrukturprobleme in der Produktionsumgebung zu verfolgen, zu verstehen und zu diagnostizieren – einschließlich der Interaktionen zwischen Diensten

Monitoring- und Observability-Lösungen sind auf die folgenden Funktionen ausgelegt:

  • Bereitstellung von Frühindikatoren für Dienstunterbrechungen oder -verschlechterungen
  • Erkennung von Ausfällen, Serviceeinbußen, Fehlern und unbefugten Aktivitäten
  • Unterstützung bei der Beseitigung bei Ausfällen, Dienstverschlechterungen, Fehlern und unbefugten Aktivitäten
  • Ermittlung langfristiger Trends zu Kapazitäts- und Geschäftsplanungszwecken
  • Aufzeigen unerwarteter Nebeneffekte durch Änderungen oder Hinzufügungen von Ressourcen