Dernière mise à jour : 18/11/2024
Selon un des fondateurs de la discipline SRE, le Site Reliability Engineering, c'est “ce qu'il se passe quand on demande à des ingénieurs logiciels de gérer les infrastructures et opérations d'un système IT”. Le SRE consiste à appliquer les techniques éprouvées du développement logiciels aux tâches d'exploitation : monitoring, déploiement, gestion des anomalies, etc.
Une démarche SRE vise à optimiser les équipes ainsi que les systèmes techniques qu'elles opèrent. L'objectif est de développer la capacité d'évolution des systèmes sans sacrifier les exigences de fiabilité et de disponibilité. Pour cela, la démarche s'appuie sur plusieurs piliers tels que la mesure constante de l'état de santé des systèmes, l'automatisation d'un maximum de tâches et l'apprentissage en continu des équipes.
A travers une alternance de modules théoriques, permettant de revenir aux fondations de la démarche, et de travaux pratiques, permettant de mettre en application les concepts, cette formation propose aux participants de mieux appréhender les techniques, méthodes et outils essentiels pour la mise en place d'une démarche SRE dans leur contexte.
Toute personne impliquée opérationnellement ou en position de management d'un système informatique en production.
Notamment :
Disposer d'une compréhension et une connaissance de la terminologie et des concepts communs de DevOps ou avoir suivi la formation “DevOps : fondamentaux et retours d'expérience” (SDEVO).
Une première expérience dans l'exploitation d'un système en production
Cette formation est dispensée par un·e ou plusieurs consultant·es d'OCTO Technology ou de son réseau de partenaires, expert·es reconnus des sujets traités.
Le processus de sélection de nos formateurs et formatrices est exigeant et repose sur une évaluation rigoureuse leurs capacités techniques, de leur expérience professionnelle et de leurs compétences pédagogiques.
L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique.
Afin de valider les compétences acquises lors de la formation, un formulaire d'auto-positionnement est envoyé en amont et en aval de celle-ci.
En l'absence de réponse d'un ou plusieurs participants, un temps sera consacré en ouverture de session pour prendre connaissance du positionnement de chaque stagiaire sur les objectifs pédagogiques évalués.
Une évaluation à chaud est également effectuée en fin de session pour mesurer la satisfaction des stagiaires et un certificat de réalisation leur est adressé individuellement.
Jour 1
Introduction au Site Reliability Engineering
Historique et émergence de la discipline SRE
Opérer des systèmes en production
Les différents rôles et responsabilités d'une équipe SRE
SRE : garant de la fiabilité des services et applications
Le cycle de vie d'un logiciel
Reliability/Fiabilité : définitions
Monitoring
Être on-call
Prendre en charge un service ou une application : Production Readiness Review
Release Engineering : la gestion des changes
Jour 2
SRE : garant du pilotage de l'error budget
La gestion du risque d'un système informatique
Les outils de mesure et de pilotage de l'équipe SRE : SLI, SLO, SLA, Error budget
Mise en pratique : “Mettre en place des SLI/SLO/Error budget pour un service/application”
SRE : garant de l'automatisation de ses services
La contrainte économique - la scalabilité des équipes
Agir sur le toil : les tâches sans valeur ajoutée
Organiser l'automatisation de l'opération de ses systèmes
Mise en pratique : “Identification de tâches automatisables”
Organisation et culture
SRE vs DevOps
L'équipe SRE dans une organisation agile
Mettre en place une culture de l'apprentissage
Intégrer un nouvel SRE