Menu
03_Bandeau_orange_1147x439.jpg

Meet up sur le Chaos engineering

764 vuescommentaires
Logocartouche vscparVoyages-sncf.com
24 November 2017
Voyages-sncf Technologies, pionnier de l’innovation tech, propose le premier Meet-up parisien sur le Chaos Engineering au sein de OUI Work, l’espace de co-construction de OUI.sncf

L'ingénierie du chaos, ou Chaos Engineering, est une discipline émergente qui vise à éprouver la solidité de l’infrastructure technique afin de toujours mieux préserver la qualité de service. La méthode consiste à introduire régulièrement des pannes volontaires dans les systèmes informatiques pour tester et valider leur robustesse. Cette pratique expérimente les lacunes et les faiblesses de l’infrastructure sur un système distribué. La complexification et l’automatisation des systèmes rendent cette pratique de plus en plus importante pour maintenir l’expérience utilisateur.

Place au Chaos Engineering, une discipline émergente 

 

Christophe Rochefolle, Directeur Excellence Opérationnelle - VSC Technologies

 

Expérimentée depuis 3 ans par des pure-players comme Netflix, elle s’est structurée autour de process et d’outils dédiés. VSC Technologies a créé la seule communauté en France sur ces techniques et a souhaité présenter sous forme de cas pratiques, le 24 novembre au OUI Work, les applications réalisées pour OUI.sncf. Chez OUI.sncf, on considère que l’on ne peut plus séparer l’infrastructure de l’application. Notre objectif : renforcer les infrastructures, développer la résilience et maintenir la qualité de service, en injectant volontairement des éléments perturbateurs au cœur des environnements de production.

 

Chaos Monkey, concept et implémentation chez OUI.sncf 

 

Benjamin Gakic, Expert Sûreté de Fonctionnement & facilitateur, chez VSC Technologies, raconte les premiers pas de notre ingénierie du chaos.

 

En 2016, nous avons créé une communauté interne et mis en place des outils comme les Chaos Monkey, inventés par Netflix, qui consistent à régulièrement choisir au hasard des instances dans l’environnement de production et de les mettre délibérément hors service.  En 2016, les tests ont été réalisés en environnement hors-production pour permettre la maîtrise par les équipes de ces pratiques, puis ont été généralisés sur un composant en environnement de production  (une première en France !) en 2017. L’objectif est d’étendre le déploiement en production sur 5 autres composants d’ici la fin d’année.

Bilan des premières expérimentations

 

Les équipes ont (ré)appris sur l’importance de la co-construction et ont pris conscience que la résilience n’est pas qu’un problème infrastructure ni des exploitants mais aussi des développeurs. Autre apport, ces techniques ont permis la baisse d’impact des pannes et donc une meilleure qualité de service. Pour accompagner l'évolution culturelle de nos développeurs vers ce nouveau fonctionnement, nous avons égalerment organisé des gamedays #DaysofChaos pour confronter les développeurs à des scénarios de panne et les sensibiliser à la problématique de résilience. En 2017, nous en avons organisé deux en réunissant plus d’un tiers des équipes de développement (110 joueurs). Ce jeu a renforcé la cohésion inter-équipes en plus de la cohésion intra-équipe, et donc la démarche DevOps. Il a aussi permis de diviser par six le temps de résolution d’un cas de panne, en passant d’une heure à seulement dix minutes.

 

En bref, une expérience qui a porté ses fruits et a renforcé la cohésion au sein de nos équipes. Ensemble, co-construisons !

 

 

Pour plus d'infos sur nos activités au sein de l'espace OUI Work, visionnez nos JT : JT HEBDO #1 JT HEBDO #2  JT HEBDO #3 JT HEBDO #4 

PARTAGEZ CET ARTICLE !