Trabalho híbrido na região de Pinheiros / SP – 3x por semana no escritório
Estamos selecionando um Senior Site Reliability Engineer – SRE para se juntar ao nosso time e desempenhar um papel essencial na manutenção, automação e melhoria da confiabilidade dos sistemas que impulsionam a rede logística da empresa em múltiplas regiões.
Essa pessoa garantirá que a plataforma permaneça resiliente, observável e de alto desempenho, ao mesmo tempo em que possibilita inovação rápida e entregas seguras em larga escala.
Responsabilidades :
Definir, implementar e monitorar Service Level Objectives (SLOs), SLIs e error budgets em serviços principais.
Construir e manter stacks de observabilidade usando NewRelic (ou outras ferramentas) para garantir visibilidade completa da saúde dos sistemas.
Automatizar tarefas operacionais por meio de infraestrutura como código (IaC) e pipelines de CI / CD.
Colaborar com os times de Infraestrutura e DBA para otimizar desempenho e melhorar a tolerância a falhas.
Desenvolver processos de resposta a incidentes, runbooks e postmortems para aprimorar a confiabilidade dos sistemas.
Gerenciar e ajustar sistemas baseados em Kafka, garantindo alta taxa de transferência e baixa latência.
Participar de planejamento de capacidade, testes de carga e estratégias de escalabilidade para cenários de alta demanda.
Melhorar continuamente os pipelines de deploy, monitoramento e procedimentos de recuperação.
Fornecer mentoria técnica e orientar os times de engenharia nas melhores práticas de confiabilidade.
Requisitos :
Graduação em Ciência da Computação, Engenharia ou experiência equivalente.
5+ anos de experiência em funções de Site Reliability, DevOps ou Engenharia de Produção.
Conhecimento sólido em AWS (EC2, ECS, S3, RDS, CloudWatch, Lambda, VPC).
Forte domínio de ferramentas de observabilidade : NewRelic, Grafana, Prometheus, ElasticSearch, Kibana.
Experiência na manutenção de sistemas orientados a eventos com Kafka.
Familiaridade com Terraform, Docker e / ou Kubernetes para automação e deploy.
Experiência na construção e manutenção de pipelines de CI / CD.
Solida compreensão de sistemas distribuídos, redes e otimização de desempenho.
Disponibilidade para trabalhar em turnos noturnos (escala de plantão).
Disponibilidade para cobrir turnos de trabalho durante períodos de alta demanda e suporte técnico (escalas de plantão).
Disponibilidade para trabalhar horas extras remuneradas, caso seja necessário resolver um problema técnico.
Diferenciais :
Experiência com frameworks de gerenciamento de incidentes.
Conhecimento em práticas de confiabilidade de banco de dados e colaboração com times de DBA.
Familiaridade com segurança, compliance e auditoria em ambientes em nuvem.
Entendimento de otimização de custos e engenharia de performance na AWS.
Fluência em inglês (falado e escrito).
#J-
Site Reliability Engineer • São Paulo, Brasil