Gustavo Gomes

bem-vindo ao meu portfólio

gg.
disponível para conversas técnicas

Gustavo Gomesengenheiro de dados

Engenheiro de dados. Construo e mantenho pipelines que movem dados da fonte bruta até a camada analítica: ingestão, transformação e tudo que fica no meio.

01Sobre

Dados como infraestrutura, não como destino.

Atuo há dois anos como Engenheiro de Dados na ONR. Mantenho a plataforma que move dados de mais de 20 fontes (SQL Server, MySQL, PostgreSQL, APIs externas como CNJ, MAPA, ServiceNow e Google Workspace) para um data lake em GCS e BigQuery, servindo mais de 30 domínios de negócio sobre o padrão Bronze → Silver → Gold.

O trabalho se divide em três frentes: um microserviço de ingestão em Go com WorkerPool, circuit breaker e locks distribuídos via Redis; pipelines Apache Beam no Dataflow para transformações em escala; e orquestração de tudo via Airflow 3 com CI/CD no Azure Pipelines. Observabilidade com OpenTelemetry, Datadog APM e Prometheus fecha o ciclo.

Acredito que pipelines bons são discretos: fazem seu trabalho sem chamar atenção. É nesse silêncio operacional que tento construir.

02Stack

Ferramentas do ofício.

Linguagens
  • Go
  • Python
  • SQL
Pipelines & Orquestração
  • Apache Airflow 3
  • Apache Beam
  • Google Dataflow
  • RabbitMQ
  • Azure Pipelines
Cloud (GCP)
  • BigQuery
  • Cloud Storage
  • Cloud Run
  • Dataflow
  • Dataplex
  • Datastore
Dados & Formatos
  • Polars
  • Trino
  • Parquet / Arrow
  • PyArrow
  • Pydantic
  • Power BI
Observabilidade
  • Datadog APM
  • OpenTelemetry
  • Prometheus
  • OpenLineage
Mensageria & Infra
  • RabbitMQ
  • Kubernetes
  • Redis
  • Docker
  • Terraform
Bancos de Dados
  • SQL Server
  • MySQL
  • PostgreSQL
03Experiência

Onde os dados se movem.

  1. 2024 · Presente

    Engenheiro de Dados · ONR

    Responsável pela plataforma de dados que conecta mais de 20 fontes ao data lake em GCS e BigQuery, servindo mais de 30 domínios de negócio. Atuo em três frentes que se complementam: ingestão em Go, pipelines Apache Beam e orquestração com Airflow 3.

    • Desenvolvimento e manutenção de pipelines de ingestão em larga escala com Apache Airflow 3 e Google Cloud Dataflow (Apache Beam), orquestrados em Cloud Run com CI/CD via Azure Pipelines, garantindo disponibilidade contínua de dados para mais de 30 domínios de negócio.
    • Implementação de plataforma centralizada de ingestão em Go com suporte a múltiplas fontes (SQL Server, MySQL, PostgreSQL, BigQuery, Datastore e APIs externas), transformação para Parquet via Apache Arrow, armazenamento em GCS com processamento distribuído via RabbitMQ e Kubernetes, locks distribuídos com Redis e padrões avançados como circuit breaker e worker pool dinâmico.
    • Arquitetura e implementação de Data Lake em camadas (Bronze/Silver/Gold) com processamento via BigQuery, Trino (SQL distribuído sobre Parquet) e Polars para análises de alta performance, integrado ao Google Dataplex para rastreabilidade de linhagem de dados.
    • Integração com mais de 20 fontes distintas (APIs do CNJ, MAPA, ServiceNow, Monday.com, Google Workspace, sistemas judiciais e registrais), com tratamento de paginação, retry com backoff exponencial e processamento assíncrono.
    • Construção de sistema próprio de observabilidade e auditoria de pipelines com captura automática de métricas (contagem de linhas, bytes processados, duração) via decorators, OpenTelemetry, Datadog APM e Prometheus, garantindo rastreabilidade end-to-end.
04Projetos

O que costumo construir.

Currículo

Uma versão para imprimir.

Mesmo trabalho, em um único papel, com formação, certificações e os detalhes que não cabem nesta página.