En tant que Site Reliability Engineer (SRE) vous jouerez un rle cl dans le maintien loptimisation et la scurisation des infrastructures informatiques et des systmes de production. Vous travaillerez en collaboration avec les quipes de dveloppement dinfrastructure et doprations pour garantir une disponibilit et une rsilience maximales des services et applications critiques.
Missions principales:
- Maintien en conditions oprationnelles des systmes et des applications en production en optimisant leur disponibilit performance et volutivit.
- Automatisation des tches rptitives et des processus de dploiement de surveillance et dalerting.
- Conception et mise en uvre de solutions permettant damliorer la fiabilit des systmes et de rduire le taux de pannes.
- Analyse des incidents et gestion des urgences avec pour objectif de diminuer le Mean Time To Recovery (MTTR) et daccrotre la rsilience.
- Optimisation des performances des applications et de linfrastructure notamment via la gestion des capacits et des cots.
- Collaboration avec les quipes de dveloppement pour favoriser une approche DevOps et intgrer les pratiques SRE ds les phases de conception.
- Cration et suivi de mtriques pour mesurer la fiabilit et les performances des systmes (SLI SLO SLA).
- Veille technologique pour assurer lamlioration continue des outils et des processus SRE.
Qualifications :
Comptences requises:
- Exprience en ingnierie systme : Linux/Unix gestion de serveurs stockage et rseaux.
- Matrise des outils de monitoring et dalerting (ex. : Prometheus Grafana Datadog ELK Stack).
- Comptences en automatisation : scripting (Python Bash etc.) outils de CI/CD (ex. : Jenkins GitLab CI GitHub Actions) et infrastructureascode (Terraform Ansible).
- Exprience avec les environnements cloud : AWS GCP Azure ou autres services cloud ainsi que les architectures de microservices et conteneurs (Docker Kubernetes).
- Comptences en bases de donnes : administration et optimisation de bases SQL et NoSQL.
- Capacit grer les incidents : comptences en diagnostic et rsolution de pannes dans un environnement de production.
- Bonnes comptences en communication pour collaborer avec des quipes pluridisciplinaires et documenter les processus et solutions.
Comptences bonus
- Exprience en tant que DevOps ingnieur systme ou dveloppeur logiciel
- Connaissance des mthodologies de dveloppement agile et des pratiques DevOps
- Participation la mise en place de processus dobservabilit de monitoring et de gestion des incidents
- Exprience dans la gestion de la disponibilit et de la performance
- Rsistance au stress et capacit travailler efficacement en cas dincidents critiques.
Informations supplmentaires :
Type de contrat: CDI temps plein.
PAS DE FULL REMOTE POSSIBLE.
Remote Work :
No
Employment Type :
Fulltime