Missão do cargo : Esta pessoa fará parte do time de SRE de uma plataforma que disponibiliza serviços de Inteligência Artificial para diversas áreas, bem como possibilita o desenvolvimento de soluções de agentes de IA integrados a produtos TOTVS.
Esta aplicação está no núcleo estratégico da TOTVS, e serve diversas áreas da companhia como uma área de plataforma, para clientes internos e externos.O QUE VOCÊ VAI FAZER : Projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python / FastAPI, garantindo resiliência, segurança e observabilidade de ponta a ponta.Automatizar infraestrutura (IaC) com Terraform e gerenciar ambientes em Kubernetes (GKE) ou Cloud Run, habilitando escalabilidade sob demanda.Criar e manter pipelines CI / CD (GitHub Actions, Argo CD, etc.) que promovam builds, testes, deploy e rollback seguros.Implementar e evoluir SLIs / SLOs; instrumentar serviços com Prometheus, Grafana, OpenTelemetry e rastreabilidade distribuída.Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais, focando em desempenho e custo.Conduzir resposta a incidentes : alerta, mitigação, post-mortem, ações preventivas.Capacitar o time : disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua.Participar do plantão (on-call) rotativo, mantendo a plataforma com o máximo de disponibilidade possível.O QUE ESPERAMOS DE VOCÊ : Experiência prática como SRE / DevOps em ambientes cloud (AWS, GCP ou Azure).
Domínio de Linux, redes, containers (Docker) e Kubernetes.Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation).
Rotinas de CI / CD com GitHub Actions, GitLab CI, Argo CD ou similares.Instrumentação e alerta com Prometheus, Grafana, Loki / ELK, Alertmanager.Programação / scripting em Python e Bash (Go é bônus).
Conhecimento de Postgres, Redis e tuning de performance.Experiência em gestão de incidentes e elaboração de post-mortems.Inglês técnico para leitura e escrita.DIFERENCIAL : Conhecimento em infraestrutura em nuvem (Google Cloud Platform), conteinerização (Kubernetes) e serviços serverless.Experiência com Cloud Run, Knative ou FaaS.Noções de cost optimisation em FinOps.Contribuições open-source em projetos Cloud Native.Experiência com ferramentas de monitoramento e observabilidade, como Prometheus e Grafana.Familiaridade com pipelines de CI / CD.Conhecimento em infraestrutura como código (IaC), como Terraform.Experiência com agentes de IA, LLMs e RAG.Conhecimento em protocolos de rede, como TCP / IP e HTTP.Experiência com proxy reverso e balanceamento de carga.
Especialista Sre • Contagem, Minas Gerais, Brasil