Skip to content

Monitoring und Alerting Minimum Viable

Ein gutes MVP für Monitoring/Alerting liefert schnelle, verlässliche Signale zu Plattformstörungen – ohne Alarmflut. Es ist besser, 10 hochwertige Alerts zu haben als 200 unklare.

  • Azure Service Health (Advisories/Incidents) für relevante Regionen/Services abonnieren.
  • Subscription Activity Log Alerts für kritische Ereignisse (z. B. Policy-Changes, Role Assignments, Key Vault Firewall/Access Changes).
  • einheitliche Benachrichtigungskanäle (On-Call, Ticketing, ChatOps)
  • klare Ownership (wer reagiert?)
  • Eskalation (nach X Minuten)

Beispiele für MVP-Alerts, die sich bewährt haben:

  • VPN/ExpressRoute: Tunnel down / BGP down
  • Firewall/NVA: CPU/SNAT/Throughput-Sättigung
  • DNS: Resolver nicht erreichbar (wenn eigener Resolver/Private DNS Resolver betrieben wird)
  • Key Vault: 4xx/5xx Peaks, Throttling, Access denied-Spitzen
  • Storage: Availability/Success Rate, Auth failures

Ein Alert ohne Runbook erzeugt Betriebsstress. Minimal:

  • “Was bedeutet der Alert?” (Impact)
  • “Was prüfe ich zuerst?” (3–5 Checks)
  • “Wann eskalieren?” (Ownership)

Praktisch hilfreich ist ein fester Runbook-Rahmen, z. B.:

  • Impact: Was ist kaputt, was ist betroffen?
  • Scope: Welche Region/Subscription/VNet?
  • Checks: 3–5 konkrete Prüfungen (Logs/Metriken/Statusseiten)
  • Mitigation: kurzfristige Maßnahmen (Workarounds)
  • Fix: nachhaltige Korrektur (IaC/Config)
  • Follow-up: Wie verhindern wir Wiederholung (Policy/Monitoring/Guardrails)
  • Metrik Alerts sind ideal für schnelle, robuste Signale.
  • Log Alerts eignen sich für Muster (z. B. viele 403/401), sind aber anfälliger für Noise, wenn Query/Schwellwerte nicht gepflegt werden.

Startpunkt: MVP zuerst auf Metriken + Activity Log, Logs danach gezielt ergänzen.

Wenn du priorisieren willst, orientiere dich an “Golden Signals”:

  • Latency: Latenzsprünge (wo messbar)
  • Traffic: unerwartete Drops/Spikes
  • Errors: 4xx/5xx, Auth failures, Throttling
  • Saturation: CPU/Memory/SNAT/Connection Limits

Das ist häufig wirksamer als eine Liste “pro Service alles”.

  • Standardisiere Schwellwerte, aber erlaube service-spezifische Ausnahmen.
  • Nutze Dämpfung/Severity und Wartungsfenster.
  • Prüfe Alerts regelmäßig: “Welche haben in 30 Tagen echten Wert geliefert?”