DESCRIPTION :
Vous jouerez un rôle central dans la gestion, l'optimisation et la disponibilité d'une ou plusieurs applications opérationnelles. En appliquant les principes du Site Reliability Engineering, vous serez responsable d'automatiser, de surveiller et d'améliorer continuellement la fiabilité des systèmes critiques 24/7 de CLS hébergés dans le cloud et/ou on premise. Votre mission inclut la gestion proactive des incidents, la réduction du temps moyen de réparation et l'amélioration des indicateurs clés de fiabilité (SLO, SLA, SLIs) pour garantir des opérations fluides et une disponibilité optimale des services proposés à nos utilisateurs., * Gestion des infrastructures Cloud IAC : Déployer et monitorer les environnements et services Cloud (AWS, Azure).
* Approche SRE :
- Implémenter et mesurer des Service Level Indicators (SLIs), Service Level Objectives (SLOs) et Service Level Agreements (SLAs) pour garantir la performance et la disponibilité des services.
- Automatiser les processus de maintenance et de gestion des incidents pour améliorer la fiabilité et la robustesse des services.
* Opérations critiques 24/7 :
- Mettre en place les outils de monitoring et d'alerting (NAGIOS, Grafana, Prometheus, CloudWatch) pour surveiller les systèmes, détecter les incidents et optimiser les performances opérationnelles.
- Rédaction/maintien des procédures opérationnelles pour permettre aux techniciens d'Operations 24/7 de résoudre rapidement et de manière autonome les incidents.
- Assurer le support, la formation et le maintien en compétence des techniciens d'Operations 24/7
* Automatisation et CI/CD : Maintenir des pipelines d'automatisation (Terraform, Ansible, Jenkins, etc.) pour améliorer l'efficacité des déploiements.
* Gestion des incidents : Diagnostiquer rapidement les problèmes, effectuer des analyses approfondies des root causes et mettre en place des solutions pérennes.
* Coordination interservices pour le suivi opérationnel (équipe IT, développeurs, architectes, business, techniciens d'opérations H24), Vous souhaitez rejoindre des équipes agiles et dynamiques sur des projets innovants et ambitieux ? Explorer de nouvelles technologies ? Evoluer sur des projets transverses et variés autour des 5 secteurs d'activité de CLS ?
Ceci est possible au sein de notre Direction Systèmes d'Informations (DSI), dont le défi, pour soutenir la croissance de CLS, est de bâtir un socle solide et partagé au sein du groupe pour l'ensemble de ses systèmes et services actuels et futurs !
Au sein de la DSI, le département OPERATIONS assure le maintien en conditions opérationnelles, la fiabilité, la disponibilité et la performance des logiciels et des systèmes fournissant l'ensemble des services de CLS.
Code d'emploi : Ingénieur (autre) (h/f)
Domaine professionnel actuel : Ingénierie (autre)
Niveau de formation : Bac+2
Temps partiel / Temps plein : Plein temps
Type de contrat : Contrat à durée indéterminée (CDI)
Compétences : Microsoft Windows, Amazon Web Services, Microsoft Azure, Cloud Computing, Systèmes d'Information, Intégration Continue, Linux, Nagios, Protocoles Réseau, Ingénierie de la Fiabilité, KS1LZHDEF56H9FUSRPTQ, Ansible, Prometheus, Grafana, Fiabilité des Systèmes, Conteneurisation, Kubernetes, Cloudwatch, Terraform, Docker, Jenkins, Compétences Interpersonnelles, Respect des Procédures, Esprit d'Équipe, Motivation Personnelle, Curiosité, Systèmes Automatisés, Gestion de la Performance Commerciale, Gestion des Incidents, Gestion des Infrastructures, Maintenance et Dépannage, Gestion des Opérations, Amélioration de la Performance, Accord de Niveau de Service (SLA)
Courriel :
vincent.kerbaol@cls.fr
Téléphone :
0298057680
Type d'annonceur : Employeur direct