SRE Engineer - Incident Response

Conhece o Movimento Builders?


Você pode pensar que não nos conhece, mas provavelmente já teve contato com uma das nossas diversas soluções criadas especialmente para grandes clientes nacionais de diferentes segmentos. Essas soluções são criadas pelas mãos de pessoas empreendedoras, apaixonadas por inovação que geram valor impactando pessoas e negócios.


Ao ingressar na Builders, você fará parte de um movimento que idealiza, co-cria e conecta pessoas. Desfrutando de um ambiente colaborativo que propicia oportunidade de crescimento exponencial. Se você curte desafios, aqui é o seu lugar!


Como será seu dia-a-dia?


No papel de SRE Engineer - Incident Response, você será responsável por gerenciar o ciclo de um incidente critico desde o momento que ele ocorre até o seu fechamento e postmortem gerado.


Você deve ser capaz de trabalhar com ferramentas de observabilidade como Datadog, analisar e diagnosticar a causa raiz de problema dos sistema distribuidos que estão rodando em Kubernetes, trabalhando em estreita colaboraçao com equipes de desenvolvimento e operacoes para implementar correçoes. É fundamental que tenha experiencia em processo de incidente response que envolve elaboraçao de postmortem, ajustes de alertas e monitoramento em tempo real, analise de metricas de melhoria continua como MTTD e MTTR, com foco em minimizar o tempo de inatividade do sistema e o impacto para usuario final.


Resultados esperados incluem a otimização do tempo de incidente, otimização na resposta a incidentes, identificar oportunidades de melhoria implementando acoes corretivas para evitar ocorrencias.


Estas serão suas principais responsabilidades:



  1. Contribuir para a definição e melhoria dos processos de gerenciamento de incidentes, incluindo a criação de playbooks e procedimentos de resposta a emergências.
  2. Criar e gerenciar Alertas e Dashboard no Datadog
  3. Desenvolver scripts de automação e/ou runbooks
  4. Participar das agendas de postmortem e na elaboração do mesmo garantindo que as açoes tomada esteja aderentes a resolucao definitiva do problema
  5. Participar e ministrar treinamento para capacitação do time que responderá ao incidentes
  6. Resolver incidentes e problemas de produção de maneira ágil e eficiente

Para cumprir esse desafio, você precisa dominar:


Habilidades técnicas:



  1. Experiência com plataformas de orquestração de containers, como Kubernetes, Docker Swarm ou Openshift
  2. Conhecimento em ferramentas de gestão de configuração, como Ansible, Puppet e Chef
  3. Experiência em linguagens de programação, como Python, Ruby ou Go, para automatizar tarefas e desenvolver pipelines de CI/CD
  4. Conhecimento em práticas DevOps e metodologias ágeis
  5. Familiaridade com infraestruturas cloud, como AWS, Azure ou GCP
  6. Experiência com ferramentas de monitoramento (Observabilidade) com Datadog
  7. Experiência com a prática de infraestrutura como código, utilizando ferramentas como Terraform, CloudFormation e/ou Azure Resource Manager para provisionar e gerenciar infraestrutura cloud.

Habilidades interpessoais:



  1. Habilidade de trabalhar em equipe e se comunicar efetivamente com outras áreas da empresa
  2. Capacidade de resolver problemas de maneira colaborativa e eficiente
  3. Gestão de tempo e disciplina
  4. Capacidade de adaptação a mudanças e aprendizado contínuo
  5. Pensamento crítico e analítico para identificar e solucionar problemas complexos
  6. Excelente capacidade de organização e planejamento

Independente do seu papel, é esperado de você:



  1. Proatividade e iniciativa: Ser proativo na identificação e resolução de problemas, buscando continuamente melhorar processos e propor novas ideias, demonstrando comprometimento e iniciativa.
  2. Autodisciplina e gerenciamento de tempo: A capacidade de organizar e priorizar tarefas, estabelecer metas e gerenciar o tempo de forma eficaz.
  3. Habilidades de comunicação virtual: Ser eficiente na comunicação escrita e verbal em canais virtuais, como e-mail, mensagens instantâneas e videoconferências, mantendo a colaboração e o alinhamento com a equipe e os stakeholders.
  4. Colaboração em equipe: A habilidade de trabalhar em equipe e colaborar de forma eficaz com colegas remotos, garantindo a coesão do projeto e o compartilhamento de informações e conhecimentos relevantes.