Site Reliability Engineer (SRE)

Une fois l’IA en production, elle doit rester debout et bien se comporter. Vous portez la fiabilité : observabilité, montée en charge, réponse aux incidents et les pratiques opérationnelles qui gardent les systèmes IA client fiables sous charge réelle.

Postuler par e-mail

Vos missions

Construire l’observabilité des systèmes IA : métriques, logs, traces et alerting.
Définir les SLO et porter la montée en charge, la fiabilité et la réponse aux incidents.
Mener les postmortems et transformer les incidents en correctifs durables.
Surveiller le comportement, la latence et le coût des modèles en production.

Ce que nous recherchons

Expérience SRE ou exploitation de production sur de vrais systèmes.
Solides compétences en observabilité, débogage et gestion d’incidents.
Aisance avec le cloud, les conteneurs et l’orchestration.
Un jugement calme sous pression.

Atouts appréciés

Expérience d’exploitation de systèmes ML ou LLM en production.
Français et anglais professionnels.

Postuler à ce poste

Envoyez votre CV et quelques lignes sur ce qui vous correspond dans ce poste. Vous aurez une réponse humaine, pas un accusé de réception automatique.

Postuler par e-mail[email protected]

Autres postes de cette équipe

Travaillez sur de l’IA qui part en production

De vrais systèmes clients en production, pas des démos. Si c’est le travail que vous cherchez, parlons-en.

Réserver un appel Nous écrire