À propos
STEP UP est une société d'ingénierie experte en pilotage de projets industriels et informatiques (+ 250 collaborateurs sur 11 agences en France), plaçant le potentiel humain comme 1er vecteur d'excellence et de performance en entreprise.
Oubliez les sociétés d'ingénierie qui ne valorisent que vos seules compétences, chez STEP UP, nous visons également l'adéquation entre votre personnalité et la culture d'entreprise de nos clients. Cela se traduit pour vous par une différence fondamentale en termes de bien être, d'épanouissement au travail et de succès dans vos missions.
Ce que nous vous proposons :
- Un cadre de travail épanouissant, stimulant et collaboratif, nous sommes certifiés entreprise où il fait bon vivre !
- Des projets innovants et variés.
- La possibilité de se perfectionner continuellement avec des formations internes.
- Des perspectives d'évolution de carrière.
- Un accompagnement individualisé avec un programme de développement du potentiel humain.
- Un programme de cooptation.
Et bien sûr, nous prenons en charge 70% de votre mutuelle santé et encourageons financièrement la mobilité douce.
Le poste
Nous recherchons un(e) Ingénieur(e) SRE / Dev OPS expérimenté(e) pour renforcer les équipes d'un de nos clients.
Le poste porte exclusivement sur les volets OPS, SRE, production et exploitation, avec un objectif clair : garantir le bon fonctionnement, la fiabilité et la résilience des services en environnement de production.
Au sein d'une équipe transverse, votre rôle est de vérifier que les choix techniques faits par les projets tiennent en production, tout en assurant la livraison, l'exploitation et la fiabilisation continue des environnements
Tâches à réaliser :
Intervention sur l'ensemble du cycle de production et d'exploitation des services IT, avec un fort ancrage dans les pratiques SRE (Site Reliability Engineering) :
· Garantir la disponibilité, la performance et la résilience des systèmes
· Gérer l'exploitation quotidienne des plateformes (incidents, mises à jour, supervision…)
· Assurer le maintien en conditions opérationnelles (MCO) des composants techniques critiques
· Automatiser les tâches récurrentes pour industrialiser l'exploitation
· Contribuer à la fiabilisation des déploiements et à l'amélioration continue du service
Exemples de réalisations :
· Développer, automatiser et maintenir les pipelines d'intégration et de déploiement continu (CI/CD)
· Concevoir et améliorer les architectures d'infrastructure cloud (AWS / Azure / GCP / On-Prem / SecNumCloud
· Mettre en œuvre les bonnes pratiques de monitoring, alerting et observabilité (Prometheus, Grafana, ELK, Datadog…)
· Participer à la gestion des incidents de production et veiller au maintien en conditions opérationnelles (MCO)
· Garantir la sécurité et la conformité des environnements techniques (durcissement, scans, gestion des secrets)
· Collaborer avec les équipes de développement et d'exploitation pour fluidifier les mises en production et industrialiser les processus
· Mettre en place et maintenir des environnements de staging, QA et production
Expérience nécessaire : 3 ans minimum sur la fonction
Méthodologie : Agile
Profil recherché
Compétences recherchées :
Obligatoires :
Avoir une expérience significative au niveau automatisation de tâches au sein des OS - Windows et Linux
Avoir une culture DevOps / SRE
Administration & exploitation :
Maîtrise des environnements Linux/Unix
Gestion des serveurs, déploiements, supervision, sauvegardes
Expérience en MCO (Maintien en Conditions Opérationnelles)
Automatisation & industrialisation : CI/CD
Supervision & observabilité :
Mise en place d'alerting et de monitoring
Analyse de logs, traçabilité des incidents
Suivi de la disponibilité, des performances et de la résilience
Gestion des incidents :
Diagnostic, traitement des incidents N2/N3
Gestion des astreintes
Rédaction de post-mortems, analyse de root cause (RCA)
Sécurité et résilience :
Connaissances en durcissement, patching, audits de sécurité
Gestion des accès, VPN, certificats, vulnérabilités
Optionnelles : La connaissance d'ANSIBLE - AWX serait un plus afin d'alimenter la démarche SRE