Build — infrastructure & cloud
Mode de travail: TélétravailSite Reliability Engineer (SRE)
Une fois l’IA en production, elle doit rester debout et bien se comporter. Vous portez la fiabilité : observabilité, montée en charge, réponse aux incidents et les pratiques opérationnelles qui gardent les systèmes IA client fiables sous charge réelle.
Vos missions
- Construire l’observabilité des systèmes IA : métriques, logs, traces et alerting.
- Définir les SLO et porter la montée en charge, la fiabilité et la réponse aux incidents.
- Mener les postmortems et transformer les incidents en correctifs durables.
- Surveiller le comportement, la latence et le coût des modèles en production.
Ce que nous recherchons
- Expérience SRE ou exploitation de production sur de vrais systèmes.
- Solides compétences en observabilité, débogage et gestion d’incidents.
- Aisance avec le cloud, les conteneurs et l’orchestration.
- Un jugement calme sous pression.
Atouts appréciés
- Expérience d’exploitation de systèmes ML ou LLM en production.
- Français et anglais professionnels.
Postuler à ce poste
Envoyez votre CV et quelques lignes sur ce qui vous correspond dans ce poste. Vous aurez une réponse humaine, pas un accusé de réception automatique.
Travaillez sur de l’IA qui part en production
De vrais systèmes clients en production, pas des démos. Si c’est le travail que vous cherchez, parlons-en.