Stabilisierung der Connectivity-Plattform bei TeamViewer

Hintergrund

TeamViewer stand vor massiven Herausforderungen mit seiner Connectivity-Plattform. Die wahrgenommene Verfügbarkeit war niedrig, Kunden meldeten über Wochen und Monate zahlreiche Vorfälle. Klare Metriken fehlten, Prozesse waren unzureichend definiert und Verantwortlichkeiten unklar. Das Vertrauen in die Plattform und das Team schwand zunehmend.


Herausforderung

Die größte Schwierigkeit bestand in der fehlenden Messbarkeit. Ohne objektive Kennzahlen zur Verfügbarkeit basierten Diskussionen und Entscheidungen auf Annahmen und Gerüchten – eine solide Steuerung war unmöglich.


Lösungsansatz

Um die Plattform nachhaltig zu stabilisieren, wurde ein Maßnahmenpaket aufgesetzt:

  • Messbarkeit: Einführung klarer Metriken (Uptime, MTBF, MTTR, MTTD).
  • Transparenz: Monitoring-Screens für F&E, zusätzlich Anzeige der Plattformverfügbarkeit im Headquarter.
  • Prozesse: Etablierung von Incident-, Change- und Problem-Management.
  • Tools: Integration moderner Tools (Jira, Slack, OpsGenie, StatusPage; Monitoring mit Grafana, Prometheus, Zabbix).
  • Automatisierung: Automatisierte Kommunikations- und Eskalationsabläufe bei Incidents.
  • On-Call-Struktur: Einführung eines offiziellen Bereitschaftsdienstes (SREs, Operatoren, Entwickler).
  • Kommunikation: Einführung von Status-Updates und Kommunikationsregeln je nach Incident-Schwere.
  • Post-Mortems: Regelmäßige Reviews zur Ursachenanalyse und Nachverfolgung von Verbesserungen.
  • Reporting: Monatliche Reports zu Verfügbarkeit, Trends und Maßnahmen.

Ergebnis

Innerhalb weniger Monate konnte die Plattform stabilisiert und eine Verfügbarkeit von 99,9x % erreicht werden.
Die Kombination aus Messbarkeit, Prozessen und klaren Verantwortlichkeiten stellte nicht nur die technische Stabilität sicher, sondern stärkte auch das Vertrauen von Kunden und internen Stakeholdern.


Erfolgsfaktoren

Fakten statt Bauchgefühl

  • Einführung klarer Messgrößen (Uptime, MTBF, MTTR, MTTD) → Diskussionen basierten nicht mehr auf Vermutungen, sondern auf Daten.

Radikale Transparenz & Sense of Urgency

  • Monitoring-Screens und Verfügbarkeitsanzeigen im Headquarter → Verfügbarkeit war plötzlich so präsent wie Umsatz.
  • Dieser ständige Sichtbarkeitsdruck erzeugte ein starkes Sense of Urgency im gesamten Unternehmen.

Agile Prozess-Disziplin

  • Klare Strukturen durch Incident-, Change- und Problem-Management → weniger Chaos, schnellere Reaktionen, planbare Verbesserungen.

Automatisierung und Tools mit Sinn

  • Automatisierte Workflows (Slack-Channels bei Incidents, Eskalationsketten, Reporting) → Fokus der Teams auf die wirklich kritischen Probleme.

Kultureller Wandel durch On-Call & Post-Mortems

  • Gemeinsame Verantwortung für Verfügbarkeit (SREs, Operatoren, Entwickler).
  • Lernkultur durch strukturierte Post-Mortems → nachhaltige Verbesserungen statt Schuldzuweisungen.

Klare Kommunikation auf allen Ebenen

  • Von operativen Status-Updates bis zu monatlichen Reports fürs Management → Vertrauen zurückgewonnen, Erwartungen gemanagt.