Pessoa Analista de Infraestrutura SRE
Brasil
Tecnologia – Operação & DevX - Infra Engine - Windows e Datacenter /
Efetivo /
Remote
Somos um dos maiores bancos privados do Brasil, conforme o ranking do Banco Central. E temos muito orgulho em dizer que, pelo segundo ano consecutivo, fomos reconhecidos como a melhor instituição financeira para trabalhar no Brasil, segundo o ranking da GPTW 2025! Também recebemos o selo de Diversidade na categoria Mulher, reforçando nosso compromisso com a equidade.
Nossa cultura acontece de verdade: sendo simples, corretos, parceiros e corajosos. Valorizamos as relações, a inovação e um ambiente leve, cada vez mais colaborativo e com intencionalidade no avanço da diversidade e inclusão.
Estamos em constante evolução e construímos #parcerias de sucesso para entregarmos nosso propósito de tornar mais tranquila a vida financeira de pessoas e empresas.
Se identificou? Então venha trabalhar com a gente!
O que a área faz?
Nosso time é responsável por garantir visibilidade contínua dos sistemas e aplicações da organização, promovendo confiabilidade e eficiência operacional. Atuamos com base em práticas de Site Reliability Engineering (SRE), mapeando jornadas críticas, definindo e monitorando SLIs e SLOs, e evoluindo constantemente a plataforma de observabilidade.
Entre nossas principais atividades estão:
Coleta e correlação de dados: logs, métricas e traces são integrados para fornecer uma visão completa do ambiente.
Diagnóstico inteligente: utilizamos mecanismos de inteligência artificial para detectar falhas rapidamente e diagnosticar problemas com precisão.
Tomada de decisão baseada em dados: fornecemos insights acionáveis que apoiam decisões estratégicas e operacionais.
Nosso objetivo é garantir que os sistemas estejam sempre visíveis, monitorados e prontos para responder a qualquer desafio, contribuindo diretamente para a continuidade e o sucesso do negócio.
Dá uma olhada nos desafios que te esperam aqui no BV:
- Nossa equipe é responsável por garantir a excelência operacional e a confiabilidade dos sistemas por meio de práticas modernas de Observabilidade e SRE. No dia a dia, atuamos com foco em:
- Arquitetura e Estratégia
- Definição da arquitetura de Observabilidade
- Estabelecimento de KPIs, SLIs, SLOs e SLAs
- Mapeamento de jornadas críticas de negócio
- Governança e evolução contínua das políticas e guardrails
- Cultura e Melhoria Contínua
- Promoção da cultura SRE na organização
- Criação e manutenção da documentação técnica
- Apoio a decisões estratégicas com base em dados e insights
- Instrumentação e Integrações
- Instrumentação de sistemas para coleta de logs, traces e métricas
- Integração de ferramentas com a stack de observabilidade
- Criação de dashboards padronizados (Datadog e ELK)
- Definição e implementação de monitores padrão
- Performance e Resiliência
- Suporte em troubleshooting de aplicações
- Identificação de gargalos e recomendação de estratégias de self-healing
- Resolução de issues relacionadas à auditoria
- Gestão e Eficiência Operacional
- Acompanhamento e otimização do consumo de licenças das ferramentas
- Exploração de novas funcionalidades e tendências de mercado
- Definição de regras de acesso e gestão de grupos administrativos (Datadog e Elastic)
E aí, se identificou? Agora gostaríamos de saber se você tem o perfil e os conhecimentos abaixo:
- Observabilidade & Monitoramento
- Domínio avançado de Datadog: criação de dashboards, alertas, monitoramento de serviços, logs e APM
- Integração de Datadog com serviços cloud (AWS, Azure, GCP)
- Otimização de custos e performance de agentes Datadog
- Experiência com OpenTelemetry e coleta de métricas customizadas
- Cloud & Infraestrutura
- Experiencia em SO Windows/Linux/Solaris
- Proficiência em GCP , Azure e AWS
- Infraestrutura como código com Terraform
- Contêineres e orquestração com Docker e Kubernetes
- Gerenciamento de CI/CD Spinnaker, Jenkins
- Resiliência & Performance
- Implementação de chaos engineering e testes de falha
- Análise de incidentes e postmortems com foco em melhoria contínua
- Otimização de tempo de resposta e throughput de aplicações
- Ferramentas & Linguagens
- Experiência em Desenvolvimento de Software com Linguagens como Python, Go, Java, Shell Script
- Ferramentas: Datadog, Prometheus, Grafana, ELK Stack, Ansible, BitBucket
- Automação de tarefas com scripts e pipelines
- Perfil que buscamos:
- Pensamento Analítico: Capacidade de diagnosticar problemas complexos em ambientes distribuídos.
- Visão sistêmica para correlacionar métricas, logs e eventos com impactos no negócio.
- Comunicação eficaz com times de desenvolvimento, produto e negócios e habilidade para traduzir dados técnicos em insights acessíveis e acionáveis.
- Atuação com calma e agilidade sob pressão, especialmente durante incidentes críticos, exercendo liderança em war rooms e coordenação de respostas a falhas.
- Mentalidade DevOps: Colaboração contínua com times de engenharia para promover confiabilidade e resiliência
- Valorização da automação, feedback rápido e melhoria contínua.
- Apoio ao desenvolvimento de profissionais menos experientes por meio de treinamentos e revisões de código.
- Influência técnica em decisões de arquitetura e nas práticas de observabilidade da organização.
Pra gente conta como diferencial se você tiver:
- Vivência no setor financeiro;
- Inglês avançado.
Diversidade e inclusão
O BV atua intencionalmente em prol da aceleração da equidade e representatividade no mercado financeiro, respeitando e apoiando a diversidade em toda sua pluralidade e interseccionalidade, garantindo uma transformação social positiva.
Por isso, convidamos pessoas negras, mulheres, profissionais com deficiência, comunidade LGBTQIA+ e pessoas de qualquer idade a conhecerem a gente um pouco mais e a se inscreverem nesta vaga.