Eine Reise durch das Operation Control Center

Das Operation Control Center des BIT überwacht Anwendungen und Systeme in der Bundesverwaltung. Wie dieses Monitoring funktioniert, zeigt das Team in einem Rundgang.

Mit einem kräftigen Stoss öffne ich die schwere Türe vor mir. Sofort fällt mein Blick auf die linke Wand, welche aus einer langen Reihe von Bildschirmen besteht. Eine Weltkarte und einige Dashboards erkenne ich, den restlichen Inhalt kann ich aber nicht einordnen. Ich drehe mich um und nehme den restlichen Raum in Augenschein: Unzählige Arbeitsplätze reihen sich aneinander, alle mit mehreren Bildschirmen ausgestattet. Das Operation Control Center des BIT – kurz OCC – sieht wie eine Kommandozentrale in einem Sci-Fi-Film aus. Auch wenn hier nicht die Mannschaft einer intergalaktischen Sternenflotte sitzt, so erfüllt das OCC eine ebenso spannende wie wichtige Aufgabe: das Monitoring der Anwendungen und Systeme im BIT sicherzustellen. In der nächsten Stunde zeigen uns Francesco Casserini, Business Owner Operation Support Services, und sein Team, was es mit dem Monitoring im BIT auf sich hat.

OCC mit sechs nebeneinander sitzenden Personen vor Bildschirmen und einer langen Reihe von Bildschirmen an der Wand.

Keine Chance für Angriffe und Störungen

Wir beginnen mit dem Netz-Monitoring. Das OCC überwacht gegen 17'000 Netzwerkelemente, wie z. B. Access-Points und Switches, und übernimmt auch gleich den initialen Support für die gesamte Netzwerkinfrastruktur. Nun wenden wir uns der Weltkarte zu, auf der aktuelle Attacken auf Netzwerke dargestellt sind. Das Team erzählt von einem Beispiel einer vergangenen «Distributed Denial-of-Service»-Attacke (DDoS) auf die Netzwerke der Bundesverwaltung. Damit ist ein Angriff gemeint, bei dem die Angreifer die Server mit einer Flut an Anfragen zu überlasten versuchen. Gemerkt hat es im geschilderten Fall das OCC-Team, da die Performance der Netzwerke plötzlich schwach ausfiel. Nach einer Analyse konnte der Angriff innerhalb von 30 Minuten abgewendet werden. Die Mitarbeitenden haben nichts davon gemerkt und konnten ihre Arbeit in Ruhe weiter verrichten.

Eine lange Reihe Bildschirme an der Wand vor der eine Person einer anderen auf einem der Bildschirme etwas zeigt.

Als nächstes schauen wir uns das Monitoring der Fachanwendungen an. Das ganze System hinter der Überwachung ist ziemlich komplex, da helfen die unzähligen Dashboards die Übersicht nicht zu verlieren. «Es werden hier über 160 Services angezeigt», verrät Ronald Bleuer, System-Architekt. «Dazu gehören Applikationen, Plattformen und vieles mehr», präzisiert er. Die detaillierte Ansicht erlaubt es auch, bei einer Störung die betroffenen Fachabteilungen oder Teams direkt zu alarmieren.

Auf einem der grossen Bildschirme erblicke ich zum Beispiel das Dashboard für Remedy – eine interne Anwendung für das IT-Service-Management. Ronald Bleuer simuliert nun im System ein sogenanntes Ereignis für uns. Er manipuliert einen Server und bringt ihn zum Überlaufen – das bedeutet, dass der Server überlastet wird. Schnell wechseln wir das Dashboard und sehen, wie eine Erstanalyse gemacht wird. Wenn diese Störung echt wäre, dann würde das OCC die Ergebnisse der Analyse den betroffenen Fachabteilungen zur Verfügung stellen. Wenn nötig, können die Mitarbeitenden des OCC der Fachabteilung und den Kundinnen und Kunden bei der zusätzlichen Informationsbeschaffung helfen und weitergehende Analysen durchführen.

Erich Bracher, ICT-System-Ingenieur, zeigt uns, wie er mit Hilfe der verschiedenen Dashboards schnell an wichtige Informationen kommt. Es ist erstaunlich, wie sich ein unscheinbares Dashboard mit einigen Handgriffen in eine hochdetaillierte Übersicht verwandeln lässt. Sollte dies nicht reichen, dann steht es dem OCC offen, eine Tiefenanalyse in der betroffenen Fachapplikation zu machen. Je nachdem, was sie brauchen, können sie beispielsweise Service-Errors oder Datenbanken-Errors analysieren – sogar bis auf Code-Level. Alle Erkenntnisse stellen sie den Fachverantwortlichen zur Verfügung, damit diese das Problem schnellstmöglich beheben können.

Eine Person erklärt mehreren Personen etwas vor einer Wand mit mehreren Bildschirmen.

Die Zukunft hat bereits begonnen

Nach all diesen Live-Demonstrationen bin ich beeindruckt von der schieren Menge an Tools, welche dem Team zur Verfügung stehen. Hier den Überblick zu behalten, ist nicht einfach. Tatsächlich erhofft man sich dank «Machine Learning» und künstlicher Intelligenz eine Entlastung. «Von zentraler Bedeutung ist, dass eine «umfassende Gesamtsicht» zur Verfügung steht und dass die Korrelationen automatisch abgebildet werden», unterstreicht Francesco Casserini. Aktuell müssen diese von den Mitarbeitenden des OCC selber gemacht werden. Neben den Zusammenhängen zwischen den betroffenen Stellen ist es auch wichtig, den potenziellen Business-Impact – also die Auswirkungen der Störung auf das gesamte System – klar darzustellen. Zukünftig will das OCC noch weiter gehen und mit «Auto-Remediation» arbeiten. Dabei repariert sich das System gleich selber.

Den Abschluss unserer Reise macht Emmanuel Jabola, Product Owner Operations Control: «In der Zukunft kann das OCC von drei Verbesserungen profitieren»: Erstens ist die sogenannte «Noise Reduction» wichtig, um die Effizienz des Monitorings trotz der steigenden Anzahl Anwendungen beizubehalten. Ziel ist es, die Meldung von gleichen Events zu bündeln, damit man nicht unzählige Benachrichtigungen durchgehen muss. Zweitens ist das OCC im Monitoring aktuell eher reaktiv unterwegs, jedoch soll die Arbeit proaktiv und näher am Kunden erfolgen. Im Idealfall löst man ein Problem, bevor es ausbricht. Und drittens wird das Reporting an Bedeutung gewinnen. Hier soll alles aus einer Hand kommen, die Informationen sollen einheitlicher und in noch besserer Qualität aufbereitet werden. Nur so wird es dem Team möglich, Ereignisse effizient zu bearbeiten. Die Arbeiten an diesen Verbesserungen laufen bereits und werden in absehbarer Zeit implementiert.

Damit ist der Rundgang durch das OCC abgeschlossen. Die Komplexität des Monitorings ist beeindruckend, denn sie reflektiert auch, wie kompliziert all unsere Systeme geworden sind. Ich bin gespannt, auf welche Art sich unser Monitoring in der nahen Zukunft weiterentwickeln wird.


BIT-Kontakt:

Francesco Casserini
Business Owner Operation Support Services
Tel.: 058 463 31 82

Text: Natalie Mudroch
Fotos: Patrick Thöni

 

https://www.bit.admin.ch/content/bit/de/home/dokumentation/kundenzeitschrift-eisbrecher/eisbrecher-archiv/kundenzeitschrift-eisbrecher-ausgabe-79/occ.html