Monitoring und Alerting Minimum Viable
Ziel: Signal vor Vollständigkeit
Section titled “Ziel: Signal vor Vollständigkeit”Ein gutes MVP für Monitoring/Alerting liefert schnelle, verlässliche Signale zu Plattformstörungen – ohne Alarmflut. Es ist besser, 10 hochwertige Alerts zu haben als 200 unklare.
MVP-Bausteine
Section titled “MVP-Bausteine”1) Plattform-Health und Control Plane
Section titled “1) Plattform-Health und Control Plane”- Azure Service Health (Advisories/Incidents) für relevante Regionen/Services abonnieren.
- Subscription Activity Log Alerts für kritische Ereignisse (z. B. Policy-Changes, Role Assignments, Key Vault Firewall/Access Changes).
2) Zentrale Action Groups
Section titled “2) Zentrale Action Groups”- einheitliche Benachrichtigungskanäle (On-Call, Ticketing, ChatOps)
- klare Ownership (wer reagiert?)
- Eskalation (nach X Minuten)
3) Top-Alerts (typische Plattformbasis)
Section titled “3) Top-Alerts (typische Plattformbasis)”Beispiele für MVP-Alerts, die sich bewährt haben:
- VPN/ExpressRoute: Tunnel down / BGP down
- Firewall/NVA: CPU/SNAT/Throughput-Sättigung
- DNS: Resolver nicht erreichbar (wenn eigener Resolver/Private DNS Resolver betrieben wird)
- Key Vault: 4xx/5xx Peaks, Throttling, Access denied-Spitzen
- Storage: Availability/Success Rate, Auth failures
4) Runbooks und “Definition of Done”
Section titled “4) Runbooks und “Definition of Done””Ein Alert ohne Runbook erzeugt Betriebsstress. Minimal:
- “Was bedeutet der Alert?” (Impact)
- “Was prüfe ich zuerst?” (3–5 Checks)
- “Wann eskalieren?” (Ownership)
Praktisch hilfreich ist ein fester Runbook-Rahmen, z. B.:
- Impact: Was ist kaputt, was ist betroffen?
- Scope: Welche Region/Subscription/VNet?
- Checks: 3–5 konkrete Prüfungen (Logs/Metriken/Statusseiten)
- Mitigation: kurzfristige Maßnahmen (Workarounds)
- Fix: nachhaltige Korrektur (IaC/Config)
- Follow-up: Wie verhindern wir Wiederholung (Policy/Monitoring/Guardrails)
Metrik vs. Log Alerts
Section titled “Metrik vs. Log Alerts”- Metrik Alerts sind ideal für schnelle, robuste Signale.
- Log Alerts eignen sich für Muster (z. B. viele 403/401), sind aber anfälliger für Noise, wenn Query/Schwellwerte nicht gepflegt werden.
Startpunkt: MVP zuerst auf Metriken + Activity Log, Logs danach gezielt ergänzen.
Welche Alerts zuerst? (Golden Signals)
Section titled “Welche Alerts zuerst? (Golden Signals)”Wenn du priorisieren willst, orientiere dich an “Golden Signals”:
- Latency: Latenzsprünge (wo messbar)
- Traffic: unerwartete Drops/Spikes
- Errors: 4xx/5xx, Auth failures, Throttling
- Saturation: CPU/Memory/SNAT/Connection Limits
Das ist häufig wirksamer als eine Liste “pro Service alles”.
Noise-Management
Section titled “Noise-Management”- Standardisiere Schwellwerte, aber erlaube service-spezifische Ausnahmen.
- Nutze Dämpfung/Severity und Wartungsfenster.
- Prüfe Alerts regelmäßig: “Welche haben in 30 Tagen echten Wert geliefert?”