Un voyage à travers l’Operation Control Center

L’équipe de l’Operation Control Center de l’Office fédéral de l’informatique et de la télécommunication (OFIT) surveille les applications et les systèmes de l’administration fédérale. Au cours d’une visite guidée, elle nous propose de découvrir le fonctionnement de ce monitoring.

teaserbild_occ

La lourde porte enfin ouverte, mes yeux se posent instantanément sur le mur de gauche, constitué d’une longue rangée d’écrans. Je reconnais aussitôt une mappemonde et quelques tableaux de bord, mais je n’arrive pas à identifier les autres contenus. Je me retourne et laisse planer mon regard sur le reste de la salle, où je découvre une multitude de postes de travail qui se succèdent, tous équipés de plusieurs écrans. L’Operation Control Center (OCC) de l’OFIT a l’allure d’une salle de commande digne d’un film de science-fiction. Même si aucune équipe d’une flotte intergalactique n’est ici aux commandes, l’OCC remplit une mission tout aussi passionnante et importante, celle notamment d’assurer le monitoring des applications et des systèmes de l’OFIT. Durant l’heure qui va suivre, Francesco Casserini, business owner de l’unité Operation Support Services, et son équipe nous montrent ce que la notion de monitoring signifie à l’OFIT.

Centre de contrôle des opérations accueillant six personnes assises côte à côte devant leurs écrans personnels ainsi qu’une longue rangée d’écrans fixés au mur.

Aucune chance pour les attaques et les perturbations

Nous commençons par le monitoring du réseau. L’OCC surveille quelque 17 000 composantes de réseau, telles que les points d’accès et les commutateurs. Il fournit également l’assistance initiale pour l’ensemble de l’infrastructure réseau. Nous nous tournons maintenant vers la mappemonde, où sont représentés les réseaux qui font actuellement l’objet d’attaques. L’équipe évoque à cet égard une attaque par déni de service distribué (DDoS) au cours de laquelle les cybercrimininels tentent de noyer les serveurs de l’administration fédérale sous un flot de demandes. Dans le cas décrit, c’est l’équipe OCC qui a détecté le problème, car les réseaux étaient soudain peu performants. L’attaque a pu être repoussée dans les 30 minutes suivant l’analyse. Les collaboratrices et collaborateurs n’ont rien perçu de cet incident et ont pu continuer à travailler en toute quiétude.

Une personne pointe à l’attention d’une autre l’un des écrans de la longue rangée de moniteurs fixés au mur.

Comme prochaine étape, nous nous intéressons de plus près au monitoring des applications spécialisées. Le système de surveillance étant assez complexe, les innombrables tableaux de bord aident à ne pas perdre la vue d’ensemble. «Plus de 160 services sont affichés ici», nous confie Ronald Bleuer, architecte de systèmes. Et de préciser: «Cela comprend des applications, des plates-formes et bien d’autres choses encore.» Un affichage détaillé permet aussi, lors d’un dysfonctionnement, d’alerter directement les divisions spécialisées ou équipes concernées.

Sur l’un des grands écrans, j’aperçois par exemple le tableau de bord de Remedy, une application interne destinée à la gestion des services informatiques. Ronald Bleuer simule la survenance d’un incident dans le système. Il manipule pour cela un serveur et le surcharge jusqu’à ce qu’il soit débordé. Nous changeons rapidement de tableau de bord et voyons comment une première analyse est faite. Si cette perturbation était bel et bien réelle, l’OCC mettrait les résultats de l’analyse à la disposition des divisions spécialisées concernées. Les collaboratrices et collaborateurs de l’OCC peuvent au besoin aider la division spécialisée, de même que les clientes et les clients, à obtenir des informations supplémentaires et à procéder à d’autres analyses.

Erich Bracher, ingénieur en systèmes informatiques, nous montre comment, à l’aide des différents tableaux de bord, il est possible d’accéder rapidement à des informations importantes. À ce titre, il est étonnant de constater comment un simple tableau de bord peut en quelques commandes manuelles se transformer en un aperçu hautement détaillé. Si ces manipulations ne devaient toujours pas suffire, l’OCC aurait alors tout loisir de soumettre l’application spécialisée à une analyse de fond. Selon leurs besoins, les collaboratrices et collaborateurs peuvent par exemple examiner des erreurs de service ou des erreurs de fichiers et même pousser leurs analyses jusqu’au niveau du code. Toutes les connaissances acquises sont mises à la disposition des responsables techniques afin que ceux-ci puissent résoudre le problème dans les plus brefs délais.

Une personne explique quelque chose à d’autres personnes devant un mur recouvert d’écrans.

L’avenir a déjà commencé…

De toutes ces démonstrations, je retiens surtout l’impressionnante quantité d’outils à la disposition de l’équipe. Garder la vue d’ensemble n’est certes pas une sinécure. Mais on espère pouvoir compter sur le soutien de l’apprentissage automatique et de l’intelligence artificielle. «L’essentiel, c’est d’avoir une "vue globale" et d’arriver à ce que les corrélations puissent être reproduites automatiquement», précise Franco Casserini. À l’heure actuelle, celles-ci doivent être faites par les collaboratrices et collaborateurs de l’OCC. Outre les liens entre les différents postes concernés, il est primordial de représenter clairement l’impact potentiel sur le cours des affaires, c’est-à-dire les répercussions d’un dysfonctionnement sur l’ensemble du système. À l’avenir, l’OCC entend aller encore plus loin en utilisant un outil qui permet au système de se réparer lui-même.

À la fin de notre petit voyage à travers l’OCC, Emmanuel Jabola, product owner de l’unité Operations Control, nous confie ceci: «À l’avenir, l’OCC pourra profiter de trois améliorations: premièrement, la réduction du bruit est essentielle pour maintenir l’efficacité du monitoring en dépit du nombre croissant d’applications. L’objectif consiste dès lors à regrouper le signalement d’incidents identiques afin de ne pas avoir à passer en revue une avalanche de notifications. Deuxièmement, l’OCC exécute actuellement un monitoring plutôt réactif, alors que le travail devrait être réalisé en amont et davantage orienté vers les besoins de la clientèle. Dans l’idéal, on résout un problème avant qu’il n’apparaisse. Troisièmement et dernièrement, le reporting va gagner en importance. Ici, tout doit provenir d’une seule source, les informations doivent être préparées de manière plus uniforme et être de meilleure qualité. C’est seulement ainsi que l’équipe pourra traiter efficacement les incidents. Les travaux d’amélioration sont en cours, et leurs résultats seront bientôt implémentés.»

La visite de l’OCC s’achève sur ces mots. La complexité du monitoring est impressionnante et reflète aussi à quel point tous nos systèmes sont devenus compliqués. Je suis curieuse de voir comment notre surveillance va évoluer dans un avenir proche.


Contact à l’OFIT:

Francesco Casserini
Business Owner Operation Support Services
Tel.: 058 463 31 82

Texte: Natalie Mudroch
Photos: Patrick Thöni

 

https://www.bit.admin.ch/content/bit/fr/home/documentation/le-magazine-eisbrecher/eisbrecher-archiv/kundenzeitschrift-eisbrecher-ausgabe-79/occ.html