As candidaturas não são mais aceitas

Senior Site Reliability Engineer (Sre) - (Brazil)

Articul8 AiCaxias do Sul, Rio Grande do Sul, Brasil

Há 5 dias

Descrição da vaga

Senior Site Reliability Engineer (SRE) - (Brazil)

Join to apply for the Senior Site Reliability Engineer (SRE) - (Brazil) role at Articul8 AI.

Position Overview

We are seeking an experienced Site Reliability Engineer (SRE) to join our team and help ensure the reliability, performance, and scalability of our GenAI SaaS platform.

As an SRE, you will bridge the gap between development and operations, implementing automation and best practices to maintain our service reliability objectives while supporting rapid innovation.

Key Responsibilities

Architect and maintain scalable, highly available infrastructure for our GenAI platform.

Design and implement robust monitoring, alerting, and observability solutions to proactively ensure system health and performance.

Automate deployment, scaling, and management of our cloud-native infrastructure, reducing toil and improving efficiency.

Define, measure, and improve Service Level Objectives (SLOs) and Service Level Indicators (SLIs) to deliver outstanding service quality.

Participate in on-call rotations and provide rapid response to production incidents, minimizing downtime and user impact.

Collaborate closely with development teams to build reliable, scalable, and efficient systems for complex AI workloads.

Lead incident response efforts, conduct thorough post-mortems, and champion continuous improvement initiatives.

Optimize infrastructure for performance, scalability, and cost-effectiveness—especially for high-demand AI workloads.

Implement and enforce security best practices across all systems and environments.

Create and maintain comprehensive documentation, including runbooks and knowledge base articles, to foster a culture of shared knowledge.

Required Qualifications

Bachelor's degree in Computer Science, Engineering, or related field, or equivalent practical experience.

5+ years of experience in DevOps, SRE, or similar roles.

Strong experience with cloud platforms (AWS, GCP, or Azure).

Proficiency in at least one programming / scripting language (Python, Go, Bash, etc.).

Hands-on experience with infrastructure as code tools (Terraform, CloudFormation, etc.).

Solid background in containerization technologies (Docker, Kubernetes).

Proven experience with monitoring and observability tools (Prometheus, Grafana, ELK stack, etc.).

Strong understanding of CI / CD pipelines and automation.

Exceptional troubleshooting and problem-solving skills and ability to troubleshoot complex systems.

Preferred Qualifications

Experience supporting AI / ML systems in production.

Knowledge of GPU infrastructure management and optimization.

Familiarity with distributed systems and high-performance computing.

Experience with database systems (SQL and NoSQL).

Certifications in cloud platforms (AWS, GCP, Azure).

Experience with chaos engineering and resilience testing.

Knowledge of security best practices and compliance requirements.

#J-

Ljbffr

Criar um alerta de emprego para esta pesquisa

Site Reliability Engineer • Caxias do Sul, Rio Grande do Sul, Brasil

Vagas relacionadas

Promovida

Site Reliability Engineer (Sre) Sênior (460863) - Remote

MaistodosCaxias do Sul, Rio Grande do Sul, Brasil

Como é o ambiente de trabalho?.Primeiramente, agradecemos seu interesse em trabalhar conosco!.Somos a MaisTODOS, fintech do grupo TODOS. Por aqui selecionamos os melhores talentos para as melhores v...Mostre maisÚltima atualização: 1 dia atrás

Promovida

Senior Site Reliability Engineer

Mercado Eletrônicocaxias do sul, estado do rio grande do sul, br

O Mercado Eletrônico é líder na América Latina em soluções de gestão de compras B2B.Suas tecnologias e serviços para as áreas de compras ajudam empresas a conquistarem mais economia, agilidade, gov...Mostre maisÚltima atualização: 11 dias atrás

Promovida

Site Reliability Engineer (Sre) – 100% Remoto (Times De Tecnologia - Brasil Inteiro)

Rei Do PitacoCaxias do Sul, Rio Grande do Sul, Brasil

Remota

Site Reliability Engineer (SRE) – 100% Remoto (Times de Tecnologia - Brasil inteiro)Site Reliability Engineer (SRE) – 100% Remoto (Times de Tecnologia - Brasil inteiro)No Rei do Pitaco, somos apaix...Mostre maisÚltima atualização: há mais de 30 dias

Promovida

Site Reliability Engineer

DeunaCaxias do Sul, Rio Grande do Sul, Brasil

OverviewAs a Mid SRE at DEUNA, you'll ensure the reliability, scalability, and performance of our AWS-based platform by integrating observability, automation, and SRE best practices across the soft...Mostre maisÚltima atualização: 4 dias atrás

Promovida

Staff Site Reliability Engineer - Work From Home

NearsureCaxias do Sul, Rio Grande do Sul, Brasil

Staff Site Reliability Engineer - Work from homeStaff Site Reliability Engineer - Work from home1 day ago Be among the first 25 applicantsGet AI-powered advice on this job and more exclusive featur...Mostre maisÚltima atualização: há mais de 30 dias

Promovida

Site Reliability Engineer - Remote

INDI Staffing Servicescampo bom, estado do rio grande do sul, br

At INDI, we're passionate about empowering individuals and businesses worldwide.Our cutting-edge recruiters connect leading companies with top talent, fostering a dynamic environment where innovati...Mostre maisÚltima atualização: 22 dias atrás

Promovida

Engenharia de confiabilidade de sites (SRE)

Psm Companygaribaldi, estado do rio grande do sul, br

A PSM Company é especializada na identificação de Talentos para as áreas de TI / Telecom como também para as áreas operacionais e administrativas. Nossa história de sucesso, está baseada em nosso mo...Mostre maisÚltima atualização: 3 dias atrás

Promovida

Senior Software Engineer

Pride Globalflores da cunha, estado do rio grande do sul, br

Please apply for consideration!!.You will develop high-quality, performant, and testable code contributing directly to company-wide initiatives using exciting technologies such as.AWS Lambda, Postg...Mostre maisÚltima atualização: há mais de 30 dias

Promovida

Senior SRE (Site Reliability Engineer)

Remessa Onlinegramado, estado do rio grande do sul, br

Sua carreira com liberdade e propósito 🌏.Na Remessa Online, não se trata apenas de transferências internacionais, criamos conexões que rompem fronteiras e transformam realidades.Somos movidos pela...Mostre maisÚltima atualização: 11 dias atrás

Promovida

Senior Sre (Site Reliability Engineer)

Remessa OnlineCampo Bom, Rio Grande do Sul, Brasil

Sua carreira com liberdade e propósito.Na Remessa Online, não se trata apenas de transferências internacionais, criamos conexões que rompem fronteiras e transformam realidades.Somos movidos pela ou...Mostre maisÚltima atualização: 3 dias atrás

Promovida

Site Reliability Engineer - Remote

Indi Staffing ServicesBento Gonçalves, Rio Grande do Sul, Brasil

Promovida

Site Reliability Engineer

CanonicalCaxias do Sul, Rio Grande do Sul, Brasil

Join to apply for the Site Reliability Engineer role at Canonical.Canonical is a leading provider of open source software and operating systems to the global enterprise and technology markets.Our p...Mostre maisÚltima atualização: há mais de 30 dias

Promovida

Lead SRE Engineer

Avenue Codemontenegro, estado do rio grande do sul, br

Avenue Code is the leading software consultancy focused on delivering end-to-end development solutions for digital transformation across every vertical. We’re privately held, profitable, and have be...Mostre maisÚltima atualização: 11 dias atrás

Promovida

SRE Analyst

Gorilacaxias do sul, estado do rio grande do sul, br

Estamos em busca de um(a) Site Reliability Engineer (SRE) Sênior para fortalecer a base técnica que sustenta nossa plataforma de dados financeiros. Como SRE na Gorila, você será peça-chave na constr...Mostre maisÚltima atualização: 7 dias atrás

Promovida

Sustaining Engineer

TARGAN Inc.caxias do sul, estado do rio grande do sul, br

Controls Engineer – Sustaining.Remote | Global Support Role | Full-Time.TARGAN is transforming animal agriculture through advanced automation — and we’re looking for a. Controls Engineer – Sustainin...Mostre maisÚltima atualização: 3 dias atrás

Promovida

Senior MLOps / LLM Engineer

Acendeoestância velha, estado do rio grande do sul, br

We’re seeking an experienced DevOps / LLMOps or MLOps / LLMOps Engineer to design, deploy, and maintain the infrastructure supporting Large Language Model (LLM) platforms. This role blends DevOps best ...Mostre maisÚltima atualização: 11 dias atrás

Promovida

Senior Site Reliability Engineer

CanonicalCaxias do Sul, Rio Grande do Sul, Brasil

OverviewJoin to apply for the Senior Site Reliability Engineer role at Canonical.Canonical is a leading provider of open source software and operating systems to the global enterprise and technolog...Mostre maisÚltima atualização: há mais de 30 dias

Promovida

Site Reliability Engineer - Remote Work | Ref#283363

BairesdevCaxias do Sul, Rio Grande do Sul, Brasil

Site Reliability Engineer - Remote Work : At BairesDev, we've been leading the way in technology projects for over 15 years. We deliver cutting-edge solutions to giants like Google and the most innova...Mostre maisÚltima atualização: há mais de 30 dias

Promovida

Senior Site Reliability Engineer

Signify Technologysapiranga, estado do rio grande do sul, br

A well-established tech organization building advanced AI products for healthcare and clinical research.The team focuses on secure, reliable platforms that process sensitive medical data and suppor...Mostre maisÚltima atualização: 11 dias atrás

Promovida

Site Reliability Engineer Senior – Sre (Remoto)

ZenviaCaxias do Sul, Rio Grande do Sul, Brasil

Remota

São Paulo - SPBuscamos um Engenheiro(a) de Confiabilidade Sênior para nos ajudar a desenvolver novos recursos e integrar produtos de empresas adquiridas para a Plataforma Zenvia.Estamos procurando ...Mostre maisÚltima atualização: há mais de 30 dias