Lead SRE

À propos

La mission de Scalingo est de changer le panorama du cloud en Europe. Notre plateforme permet aux développeurs d’héberger et de déployer leurs projets web sans connaissance en administration système, et sans avoir à manipuler de serveurs. Scalingo détecte la technologie, package le code, le déploie, et s’occupe de toutes les opérations de maintien en conditions opérationnelles (déploiement, logs, supervision).

Ce que l’on apporte à nos clients : réduction de leurs factures cloud d’un facteur 3, libération de 20% de la capacité de développement, augmentation de leur cadence de livraison d’un facteur 100.

Nous avons plusieurs centaines de clients en France comme partout dans le monde.

Pour accompagner notre forte croissance nous recherchons un·e Lead SRE.

Description du poste

Au sein de l’équipe Infrastructure, la mission du Lead SRE (Site Reliability Engineer) est de maintenir et de faire évoluer la plateforme d’hébergement Scalingo. Celle-ci se base sur l’infrastructure IaaS de 3DS Outscale et est composée de nombreux services principalement développés en Go, incluant notamment un orchestrateur développé en interne, fruit de 5 ans de R&D et de raffinage en production. L’équipe SRE travaille en coordination avec l’équipe Infrastructure Services (responsable du scheduler, de nos outils d’automatisation de déploiement de bases de données managées, etc.) et l’équipe User Facing Services (responsable du dashboard web, du CLI, de l’API publique, etc.). Les services et outils sont développés en accord avec les bonnes pratiques du métier : Infrastructure as Code, Configuration as Code et Relectures de Code systématique.

Le poste est basé de préférence à Strasbourg mais nous acceptons le remote. Il pourrait également être basé à notre antenne de Paris.

Les principales missions et responsabilités seront :

  • Responsabilité du RUN
    • Participation au Maintien en Condition Opérationnelle des services en production, incluant une participation à l’astreinte (24h/24 7j/7)
    • Responsable de l’amélioration continue de la plateforme à propos de sa disponibilité
    • Responsable du maintien et de l’évolution du pipeline de la gestion des alertes de l’équipe SRE (Analyse, priorisation, traitement)
    • Suivi des métriques clefs de la plateforme et communication interne sur leurs évolutions
    • Investigation des incidents de production (anomalies, performance, exceptions), au niveau système jusqu’au niveau des micro-services développés par l’équipe Infrastructure en passant par les services tiers (IaaS, réseau, etc)
    • Maintien et amélioration des pipelines de mise en production
    • Participation au support client tournant
  • Responsabilité du BUILD
    • Conception et développement de nouveaux services back-end (langage Go/Ruby, technologie Linux containers)
    • Automatisation de la gestion des ressources de l’infrastructure sous-jacente à la plateforme
    • Développement et maintien des outils de surveillance, de supervision ainsi que du système d’alerte
    • Participation au review de code et à l’architecture des projets
    • Coordination au sein de l’équipe Infrastructure
    • Coordination avec l’équipe Back-end et avec l’équipe User Facing Services
  • Organisation de l’équipe et des process
    • Rédiger de nouvelles procédures
    • Exercer un esprit critique sur les procédures actuelles
    • Participation aux processus de certification (en cours ISO 27001 et HDS puis SecNumCloud)
    • Participation aux processus d’amélioration continue

Tu as le profil recherché si :

  • Tu disposes d’au moins 5 ans d’expérience dans un poste similaire (ex: Ingénieur consultant DevOps, SRE).
  • Tu as déjà travaillé en astreinte.
  • Tu as déjà travaillé dans un contexte de certification de conformité ISO 27001, HDS ou équivalent.
  • Tu maîtrises les technologies suivantes (ou équivalent) : Go, Docker, Ruby, Chef, Terraform, Packer, IaaS, Object Storage.
  • Tu es rigoureux·se.
  • Tu sais jouer en équipe (avec l’équipe tech, avec l’équipe biz, avec l’équipe de direction).

Avantages

  • Ticket Restaurant carte Swile
  • Complémentaire santé Swisslife
  • Horaires flexibles
  • Télétravail flexible
  • Prime télétravail
  • BSPCE
  • l’ordinateur, le clavier, la souris, le téléphone et les fournitures de ton choix ou tout ce qu’il te faudra pour travailler dans de bonnes conditions

La vie chez Scalingo :

  • On est un acteur de la tech à la pointe qui servons des acteurs institutionnels sans être une méga corporation.
  • On est engagés sur le bien être des gens et leur développement : pas de micro-management, pas d’objectifs annuels contraignants mais un suivi hebdomadaire avec le management. Toute l’équipe est impliquée pour améliorer l’entreprise.
  • On ne recrute pas des CVs mais des individus.
  • On est dans l’amélioration en continu et le recul sur notre activité: on se demande régulièrement si ce qu’on fait est assez bien et on cherche toujours des manières de nous améliorer.
  • On est autonome et responsable sur nos activités. On se fait toutes et tous confiance afin que chacun puisse travailler sur les points qui lui semblent les plus importants et prendre les décisions qui sont nécessaires pour son travail.
  • On n’aime pas les silos : on fait attention à ce que tout le monde puisse voir et comprendre ce que les autres font, nous avons une culture de la transparence par défaut.