DESCRIPTION :
Vous jouerez un rôle central dans la fiabilité, la disponibilité et les performances d'un ou plusieurs services opérationnels.
Vous allierez les pratiques SRE, l'ingénierie d'exploitation et la maitrise des systèmes afin d'assurer la résilience des services dans un contexte critique 24/7 et dans un environnement hybride (cloud et on-premise).
Ce rôle, tout en étant hautement technique, se trouve au cœur de nombreux métiers et requiert une forte capacité de coordination interdisciplinaire.
Dans ce cadres, vos missions principales seront :
Gestion des incidents
Piloter les incidents majeurs, organiser la réponse opérationnelle et coordonner les équipes techniques jusqu'au rétablissement du service.
Réaliser les analyses post-incident, identifier les causes racines et définir les actions préventives.
Formaliser et améliorer les procédures opérationnelles.
Observabiltié et monitoring
Maintenir et faire évoluer la supervision, l'observabilité et l'alerting
Développer des tableaux de bord, métriques, logs et traces permettant une vision claire et temps réel de l'état de santé des services.
Identifier les faiblesses d'architecture, les dépendances clés, et les risques opérationnels pour améliorer la visibilité sur les services et optimiser les délais de détection et de rémédiation.
Définir et suivre les SLI/SLO en lien avec les équipes produits et les responsables business.
Automatisation et Industrialisation
Automatiser les tâches répétitives et réduire le toil opérationnel.
Industrialiser les déploiements via CI/CD et Infrastructure as Code.
Collaborer avec les équipes de développement pour intégrer les bonnes pratiques SRE dans le cycle de vie des applications
Standardiser les configurations et processus opérationnels pour améliorer la fiabilité et la maintenabilité des services.
Coordination pluridisciplinaire
Assurer un rôle de support opérationnel de niveau 2 et 3, en travaillant en étroite collaboration avec les opérateurs H24, qui assurent la supervision et les premières analyses d'alertes.
Collaborer avec les équipes IT et les développeurs pour identifier les causes profondes des incidents et mettre en place des actions correctives et préventives.
Garantir l'adéquation des solutions opérationnelles avec les spécifications contractuelles, économiques et calendaires des équipes commerciales.
Assurer l'application des standards de sécurité et le maintien en condition de sécurité des services en coordination avec le responsable de la politique de sécurité de l'entreprise.
Code d'emploi : Ingénieur de Production (h/f)
Domaine professionnel actuel : Ingénieurs, Projeteurs et Techniciens Ponts et Chaussées
Niveau de formation : Bac+2
Temps partiel / Temps plein : Plein temps
Type de contrat : Contrat à durée indéterminée (CDI)
Compétences : Amazon Web Services, Application Lifecycle Management, Ingénierie des Systèmes, Microsoft Azure, Bash Shell, Cloud Computing, Bases de Données, Intégration Continue, Linux, Ansible, Virtualisation, Zabbix, Scripting, Grafana, Gitlab, Git, Kubernetes, Cloudwatch, Docker, Capacité d'Analyse, Résolution de Problèmes, Sens de l'Organisation, Minutie ou Attention aux Détails, Esprit d'Équipe, Motivation Personnelle, Architecture, Systèmes Automatisés, Actions Correctives et Préventives (Capa), Gestion des Incidents, Industrialisation, Systèmes d'Appui à l'Exploitation (OSS), Gestion des Risques Opérationnels, Action Préventive, Politiques de Sécurité, Standardisation, Inventaire et Contrôle du Stock, Métrique, Réalisation de Tableaux de Bord, Management d'Équipe, Connaissances Générales
Type d'annonceur : Employeur direct