DescriçãoDescrição da vaga e responsabilidadesPrecisamos de um(a) cientista de dados com domínio de Python e experiência prática em Large Language Models (LLMs) para desenvolver análises, protótipos e soluções de IA em ambiente Google Cloud Platform.ResponsabilidadesExplorar, limpar e preparar dados estruturados e não estruturados usando Python, Pandas, PySpark ou BigQuery.Treinar, ajustar (fine tune) e avaliar modelos de machine learning, incluindo LLMs, garantindo métricas de qualidade e desempenho.Projetar prompts eficazes, implementar fluxos de RAG (Retrieval Augmented Generation) e conduzir experimentos de IA generativa.Construir pipelines de experimentação e automação (MLFlow, Airflow ou ferramentas equivalentes).
Provisionar, configurar e otimizar instâncias Compute Engine (CPU / GPU) para treinar ou servir modelos quando serviços gerenciados não atenderem.Desenvolver scripts de deploy e monitoramento em GCP (Cloud Build, Cloud Monitoring, Logging).
Documentar processos, versionar código em Git e participar de code reviews.Apresentar insights e resultados por meio de notebooks Jupyter, dashboards ou relatórios executivos.RequisitosSólida experiência em Python para ciência de dados (Pandas, NumPy, Scikit learn).
Conhecimento prático de LLMs : uso de APIs, fine tuning básico, criação de prompts e avaliação de outputs.Experiência em modelagem e treinamento de algoritmos clássicos de ML, feature engineering e ajuste de hiperparâmetros.Boa comunicação para explicar resultados técnicos a times multidisciplinares.DiferenciaisFamiliaridade com Google Cloud Platform, incluindo BigQuery e Cloud Storage para dados.Compute Engine : criação, configuração e otimização de instâncias (CPU / GPU).
Ferramentas de automação (Cloud Build, Cloud Logging / Monitoring) para CI / CD e observabilidade.Proficiência em SQL para análise e modelagem de dados.Git para versionamento de código e trabalho colaborativo.Experiência com bibliotecas de IA generativa open source (Hugging Face Transformers, LangChain, Llama Index).
Conhecimento de MLOps (MLFlow Registry, TFX, CI / CD para modelos).
Implementação de pipelines de dados / ML em Airflow ou Composer.Participação em competições de ciência de dados ou publicações técnicas.Noções de IA generativa multimodal (texto + imagem ou visão computacional).
#J-18808-Ljbffr
Cientista Dados • Santo André, São Paulo, Brasil