DESCRIÇÃO DA VAGA : Você fará parte do time de SRE / DevSecOps responsável por uma plataforma de dados e inteligência artificial em arquitetura Cloud Native, base estratégica para diversos produtos da companhia. Será um papel essencial na evolução técnica e cultural da infraestrutura, garantindo confiabilidade, escalabilidade, segurança e eficiência operacional. A pessoa nessa posição liderará iniciativas de automação, observabilidade e resiliência, além de capacitar outras equipes a entregarem software com mais qualidade, agilidade e segurança.
O QUE VOCÊ VAI FAZER : Monitorar continuamente a saúde dos sistemas, criar alertas eficazes e garantir cobertura proativa de incidentes. Responder rapidamente a incidentes críticos, coordenando mitigação, comunicação e resolução. Gerir mudanças, atualizações e implantações com foco em segurança, estabilidade e disponibilidade. Construir e manter pipelines, bibliotecas e automações para provisionamento, deploy e operação em ambientes Cloud de alta disponibilidade. Estabelecer e garantir padrões de security by design em infraestrutura, código e dados. Projetar e evoluir soluções de observabilidade ponta a ponta, integrando logs, métricas, traces e eventos. Gerenciar e melhorar indicadores de confiabilidade (SLIs, SLOs, MTTR, MTTA). Conduzir post-mortems blameless e implementar ações corretivas e preventivas. Influenciar decisões arquiteturais e operacionais visando resiliência, escalabilidade e custo eficiente. Documentar padrões técnicos, playbooks e comunicar impactos técnicos em linguagem de negócio. Definir prioridades estratégicas do backlog de SRE, equilibrando confiabilidade, velocidade de entrega, segurança e custos. Apoiar auditorias, conformidade e governança de segurança em alinhamento com times de risco e compliance.
O QUE ESPERAMOS DE VOCÊ : Domínio de conceitos avançados de SRE, DevSecOps e gestão de incidentes. Automação de infraestrutura e pipelines em alto nível, utilizando Shell, Python, Go, Node.js ou Groovy. Experiência com monitoramento e observabilidade distribuída (Prometheus, Grafana, Loki, ELK / Elastic Stack, Datadog, New Relic, OpenTelemetry). Atuação sólida com Cloud pública (GCP, AWS ou equivalente), incluindo provisionamento, automação e otimização de custos. Experiência em CI / CD e DevSecOps avançado, com ferramentas como Git / GitOps, Jenkins, ArgoCD, Maven, SonarQube / Cloud. Proficiência em contêineres e orquestração (Docker, Kubernetes) e Infraestrutura como Código (Terraform, Ansible, CloudFormation, Chef). Vivência com serviços de mensageria e data streaming como Kafka, Redis Streams, Google Pub / Sub, Dataflow. Experiência com bancos de dados SQL e NoSQL, incluindo PostgreSQL, AloyDB, MySQL, MongoDB, Elasticsearch, BigQuery. Experiência em gestão de incidentes e troubleshooting em sistemas complexos, utilizando PagerDuty, Opsgenie, StatusPage, Splunk ou equivalentes. Conhecimento em segurança da informação, compliance e governança de ambientes cloud (LGPD, Privacy by Design, SAST / DAST, IAM, Secret Management). Familiaridade com ambientes de alto volume de dados, tráfego e experiência com design resiliente. Experiência ou interesse em DataOps / MLOps, atuando com pipelines de dados e IA em larga escala (desejável). Background em arquitetura e desenvolvimento de software, com domínio de versionamento, APIs, microserviços e padrões REST / gRPC. Vivência em metodologias ágeis (Scrum, Kanban ou similares). Uso de IA assistiva e ferramentas de produtividade como GitHub Copilot, ChatGPT ou similares (diferencial). Capacidade de mentorar e influenciar tecnicamente outros times, promovendo cultura de automação, segurança e confiabilidade e fomentando a cultura de ownership sobre sistemas em produção.
Requisitos desejáveis : Certificações relevantes (AWS, GCP, Kubernetes, Terraform, Security+). Experiência com Service Mesh (Istio, Linkerd) e políticas de segurança zero-trust. Conhecimento em FinOps e gestão de custos em ambientes distribuídos. Experiência com blue / green deployments, canary releases e chaos engineering. Experiência com padronização de deploys por templates (Helm / Kustomize). Prática com observabilidade unificada via OpenTelemetry e tracing distribuído. Vivência em construção de plataformas internas (IDP), uso de Backstage, automação de ambientes. Inglês Intermediário->
Avançado
INFORMAÇÕES ADICIONAIS Antes de mostrar nossos benefícios, deixa eu já te contar uma coisa : aqui as coisas acontecem em um ritmo acima da média. A rotina em uma empresa de tecnologia é alucinante e o aprendizado é contínuo e diário. O melhor disso é que temos autonomia para colocar esse aprendizado em prática e buscar resultados. E se errarmos? Voltamos e consertamos rápido, até criarmos aquilo que acreditamos ser parte da transformação de cada cliente. Isso tudo acelera o nosso crescimento e nos torna a maior empresa de tecnologia do Brasil, ditando o ritmo do mercado nos mais diversos setores, fazendo tecnologia que transforma. Dito isso, oferecemos :
Especialista Sre • Estância Velha, Brasil