Senior SRE Engineer - Montreal, Quebec
6 hours ago

Job description
SRE Senior — Spécialiste Plateforme Kubernetes
(Fiabilité des clusters & ingénierie de plateforme)
Mission
En tant qu'
Ingénieur(e) senior en fiabilité des sites (SRE) – Plateforme Kubernetes
, tu seras responsable de la fiabilité, de la scalabilité et de l'évolution de notre plateforme d'orchestration de conteneurs (OKD/Kubernetes).
Ton objectif principal sera d'assurer que la plateforme de production soit résiliente, auto-réparatrice (
self-healing
) et capable de supporter des charges de travail distribuées à fort volume.
Tu agiras comme référence technique sur l'architecture Kubernetes et travailleras étroitement avec les équipes de développement et d'infrastructure afin d'améliorer la stabilité de la plateforme et la sécurité des déploiements.
Responsabilités principales
Kubernetes & fiabilité de la plateforme (cœur du rôle)
- Concevoir, maintenir et faire évoluer l'architecture de la plateforme Kubernetes (OKD)
- Améliorer la résilience, la disponibilité et la tolérance aux pannes des clusters
- Mettre en place des mécanismes d'auto-réparation et de reprise
- Gérer les mises à niveau, le cycle de vie et la stratégie de versions des clusters
- Supporter les charges de production et les services critiques exécutés sur Kubernetes
- Diagnostiquer des problématiques complexes de clusters (ordonnancement, réseau, stockage, performance)
- Définir les bonnes pratiques d'exploitation des microservices en environnement Kubernetes
Automatisation & infrastructure
- Automatiser les opérations de plateforme et réduire les tâches manuelles
- Gérer les déploiements avec Helm
- Améliorer la fiabilité des déploiements CI/CD et les stratégies de retour arrière (
rollback
) - Participer à la planification de capacité et à l'optimisation des performances
- Collaborer avec les développeurs pour améliorer l'exploitabilité des applications
Ingénierie de fiabilité
- Définir des standards opérationnels et des pratiques de fiabilité
- Contribuer à la gestion des incidents et aux analyses post-incident
- Réduire le MTTR grâce à l'automatisation et aux améliorations de la plateforme
- Travailler étroitement avec les équipes d'observabilité afin d'assurer la visibilité de la plateforme
Sécurité & accès
- Participer à la stratégie RBAC et à la gestion des accès
- Sécuriser les communications de la plateforme et la gestion des secrets (OpenBao)
- Intégrer les bonnes pratiques de sécurité dans les opérations de la plateforme
Environnement technique
- Kubernetes (OKD)
- Helm
- Systèmes distribués cloud-native
- Prometheus (utilisation/consommation, non-propriété)
- OpenBao (gestion des secrets)
- Environnements de production à fort trafic
Profil recherché
- Solide expérience pratique en administration et architecture Kubernetes
- Expérience d'exploitation de clusters en production (et pas uniquement de déploiements)
- Excellentes compétences en diagnostic et débogage de systèmes distribués
- Expérience d'astreinte ou de support de production
- Scripting ou programmation (Python, Bash ou Go)
- Une expérience en environnement SaaS ou à grande échelle constitue un atout majeur
Similar jobs
SRE Senior — Ingénieur(e) Observabilité & Monitoring · (Prometheus / métriques / propriétaire SLO) · Mission · En tant qu' · Ingénieur(e) senior en fiabilité des sites (SRE) – Observabilité · , tu seras responsable de la conception et de la mise en œuvre de la stratégie d'observa ...
6 hours ago
SRE Senior — Ingénieur(e) Observabilité & Monitoring · (Prometheus / métriques / propriétaire SLO) · Mission · En tant qu'Ingénieur(e) senior en fiabilité des sites (SRE) – Observabilité, tu seras responsable de la conception et de la mise en œuvre de la stratégie d'observabilité ...
13 hours ago
SRE Senior — Spécialiste Plateforme Kubernetes · (Fiabilité des clusters & ingénierie de plateforme) · Mission · En tant qu'Ingénieur(e) senior en fiabilité des sites (SRE) – Plateforme Kubernetes, tu seras responsable de la fiabilité, de la scalabilité et de l'évolution de notre ...
13 hours ago
The ideal candidate will develop quality software working with public cloud service provider (CSP) infrastructure across different Public Cloud areas. · Primary Responsibilities · Hands-on development and design of Python applications. · Enhance and integrate the CSP automation f ...
1 week ago
We are looking to onboard a middleware integrator and SRE specialist for their Application and Data Engineering (ADE) team. · The successful candidate will be involved in middleware integration, technical troubleshooting of infrastructure and user incidents · ...
4 weeks ago
MiddleWare Integrator And SRE Engineer Long Term Consulting Opportunity Looking to onboard a middleware integrator and SRE specialist for their Application and Data Engineering ADE team. · ...
4 weeks ago
We are looking for a Site Reliability Engineer (SRE) to join our team. The ideal candidate would have at least one of: Software development skills in one or more programming language, e.g. Python, ServiceNow administration or development experience. · Delivery of improvements tha ...
1 month ago
We pride ourselves on a trusting, friendly, and collegial corporate culture characterized by flat hierarchies and independent work. · ...
1 month ago
Job summary · We are looking for a Senior Cloud/DevOps/SRE/Systems Engineer to join our team.Take technical ownership of core cloud infrastructure components. · Operate and continuously improve our AWS-based production infrastructure. · ...
1 month ago
We pride ourselves on a trusting, friendly, · and collegial corporate culture characterized by flat · hierarchies and independent work.Taking technical ownership of core cloud infrastructure components. · Operating and continuously improving our AWS-based production infrastructur ...
1 month ago
We are looking for a Senior Cloud/DevOps/SRE/Systems Engineer to join our team. The ideal candidate will have experience operating high-traffic production-grade cloud infrastructure and be familiar with AWS services such as EKS and RDS Aurora. · ...
1 month ago
We are looking for an exciting challenge as Senior Cloud/DevOps/SRE/Systems Engineer.We pride ourselves on a trusting, · friendly, · and collegial corporate culture, · characterized by flat hierarchies · and independent work. · We believe in close collaboration · and strong team ...
2 weeks ago
We are looking for an Senior Cloud/DevOps/SRE/Systems Engineer. As a company, we offer a Commerce Advertising Suite that drives growth for both publishers and advertisers through best-in-class solutions in commerce content, performance, · and affiliate marketing which is running ...
1 month ago
We are looking for a Senior Cloud/DevOps/SRE/Systems Engineer to join our team.As a company, we offer a Commerce Advertising Suite that drives growth for both publishers and advertisers through best-in-class solutions in commerce content, performance, and affiliate marketing whic ...
1 month ago
The Application Infrastructure (Al) department is seeking a Site Reliability Engineer (SRE) to help drive the reliability engineering, operations and customer support services for ServiceNow SaaS implementation. · ...
1 week ago
The Application Infrastructure department is seeking a Site Reliability Engineer (SRE) to help drive the reliability engineering, operations and customer support services for ServiceNow SaaS implementation. Reporting to a Site Reliability Engineering & Operations Lead. · The idea ...
2 weeks ago
Roshan Consulting empowers businesses to optimize operations and enhance efficiency through innovative strategies and technologies tailored to their unique needs. · ...
1 month ago
The Application Infrastructure (AI) department is seeking a Site Reliability Engineer (SRE) to help drive the reliability engineering, operations and customer support services for Morgan Stanley's ServiceNow SaaS implementation. Reporting to a Site Reliability Engineering & Opera ...
1 month ago
The Application Infrastructure (AI) department is seeking a Site Reliability Engineer (SRE) to help drive the reliability engineering, · operations and customer support services for the Company's ServiceNow SaaS implementation.Delivery of improvements that will maximize the avail ...
1 month ago
We're looking for an AI SRE / AI Ops engineer to join our team in Montreal, QC. The ideal candidate will have experience in production environments, strong programming skills, and knowledge of containerization and orchestration tools. · This is a full-time position that requires ...
1 day ago