Pessoa Analista de Infraestrutura SRE

Brasil
Tecnologia – Operação & DevX - Infra Engine - Windows e Datacenter /
Efetivo /
Remote
Somos um dos maiores bancos privados do Brasil, conforme o ranking do Banco Central. E temos muito orgulho em dizer que, pelo segundo ano consecutivo, fomos reconhecidos como a melhor instituição financeira para trabalhar no Brasil, segundo o ranking da GPTW 2025! Também recebemos o selo de Diversidade na categoria Mulher, reforçando nosso compromisso com a equidade.  

Nossa cultura acontece de verdade: sendo simples, corretos, parceiros e corajosos. Valorizamos as relações, a inovação e um ambiente leve, cada vez mais colaborativo e com intencionalidade no avanço da diversidade e inclusão.

Estamos em constante evolução e construímos #parcerias de sucesso para entregarmos nosso propósito de tornar mais tranquila a vida financeira de pessoas e empresas

Se identificou? Então venha trabalhar com a gente! 

O que a área faz?

Nosso time é responsável por garantir visibilidade contínua dos sistemas e aplicações da organização, promovendo confiabilidade e eficiência operacional. Atuamos com base em práticas de Site Reliability Engineering (SRE), mapeando jornadas críticas, definindo e monitorando SLIs e SLOs, e evoluindo constantemente a plataforma de observabilidade.

Entre nossas principais atividades estão:

Coleta e correlação de dados: logs, métricas e traces são integrados para fornecer uma visão completa do ambiente.
Diagnóstico inteligente: utilizamos mecanismos de inteligência artificial para detectar falhas rapidamente e diagnosticar problemas com precisão.
Tomada de decisão baseada em dados: fornecemos insights acionáveis que apoiam decisões estratégicas e operacionais.
Nosso objetivo é garantir que os sistemas estejam sempre visíveis, monitorados e prontos para responder a qualquer desafio, contribuindo diretamente para a continuidade e o sucesso do negócio.

Dá uma olhada nos desafios que te esperam aqui no BV:

    • Nossa equipe é responsável por garantir a excelência operacional e a confiabilidade dos sistemas por meio de práticas modernas de Observabilidade e SRE. No dia a dia, atuamos com foco em:

    • Arquitetura e Estratégia
    • Definição da arquitetura de Observabilidade
    • Estabelecimento de KPIs, SLIs, SLOs e SLAs
    • Mapeamento de jornadas críticas de negócio
    • Governança e evolução contínua das políticas e guardrails

    • Cultura e Melhoria Contínua
    • Promoção da cultura SRE na organização
    • Criação e manutenção da documentação técnica
    • Apoio a decisões estratégicas com base em dados e insights

    • Instrumentação e Integrações
    • Instrumentação de sistemas para coleta de logs, traces e métricas
    • Integração de ferramentas com a stack de observabilidade
    • Criação de dashboards padronizados (Datadog e ELK)
    • Definição e implementação de monitores padrão

    • Performance e Resiliência
    • Suporte em troubleshooting de aplicações
    • Identificação de gargalos e recomendação de estratégias de self-healing
    • Resolução de issues relacionadas à auditoria

    • Gestão e Eficiência Operacional
    • Acompanhamento e otimização do consumo de licenças das ferramentas
    • Exploração de novas funcionalidades e tendências de mercado
    • Definição de regras de acesso e gestão de grupos administrativos (Datadog e Elastic)

E aí, se identificou? Agora gostaríamos de saber se você tem o perfil e os conhecimentos abaixo:

    • Observabilidade & Monitoramento
    • Domínio avançado de Datadog: criação de dashboards, alertas, monitoramento de serviços, logs e APM
    • Integração de Datadog com serviços cloud (AWS, Azure, GCP)
    • Otimização de custos e performance de agentes Datadog
    • Experiência com OpenTelemetry e coleta de métricas customizadas

    • Cloud & Infraestrutura
    • Experiencia em SO Windows/Linux/Solaris
    • Proficiência em GCP , Azure e AWS
    • Infraestrutura como código com Terraform
    • Contêineres e orquestração com Docker e Kubernetes
    • Gerenciamento de CI/CD Spinnaker, Jenkins

    • Resiliência & Performance
    • Implementação de chaos engineering e testes de falha
    • Análise de incidentes e postmortems com foco em melhoria contínua
    • Otimização de tempo de resposta e throughput de aplicações

    • Ferramentas & Linguagens
    • Experiência em Desenvolvimento de Software com Linguagens como Python, Go, Java, Shell Script
    • Ferramentas: Datadog, Prometheus, Grafana, ELK Stack, Ansible, BitBucket
    • Automação de tarefas com scripts e pipelines

    • Perfil que buscamos:
    • Pensamento Analítico: Capacidade de diagnosticar problemas complexos em ambientes distribuídos.
    • Visão sistêmica para correlacionar métricas, logs e eventos com impactos no negócio.
    • Comunicação eficaz com times de desenvolvimento, produto e negócios e habilidade para traduzir dados técnicos em insights acessíveis e acionáveis.
    • Atuação com calma e agilidade sob pressão, especialmente durante incidentes críticos, exercendo liderança em war rooms e coordenação de respostas a falhas.
    • Mentalidade DevOps: Colaboração contínua com times de engenharia para promover confiabilidade e resiliência
    • Valorização da automação, feedback rápido e melhoria contínua.
    • Apoio ao desenvolvimento de profissionais menos experientes por meio de treinamentos e revisões de código.
    • Influência técnica em decisões de arquitetura e nas práticas de observabilidade da organização.

Pra gente conta como diferencial se você tiver:

    • Vivência no setor financeiro;
    • Inglês avançado.
Diversidade e inclusão 

O BV atua intencionalmente em prol da aceleração da equidade e representatividade no mercado financeiro, respeitando e apoiando a diversidade em toda sua pluralidade e interseccionalidade, garantindo uma transformação social positiva. 
 
Por isso, convidamos pessoas negras, mulheres, profissionais com deficiência, comunidade LGBTQIA+ e pessoas de qualquer idade a conhecerem a gente um pouco mais e a se inscreverem nesta vaga.