Datalake StarRocks · CDC contínuo · Brasil

Seus bancos no datalake em minutos. Dashboards em segundos.

Replicamos cada COMMIT de Postgres, MySQL e outros bancos operacionais para um datalake StarRocks numa janela de 15 segundos a 2 minutos. SQL com poucos ajustes, motor analítico colunar. Queries sub-segundo no que rodava em minutos no banco operacional.

// Live pipeline

Postgres origem COMMIT recebido · WAL streaming

t+0s

CDC + Stream log-based · particionado

+0.4s

Stream Processor batching · soft delete · JSON nativo

+18s

★ StarRocks datalake consultável agora

+45s

// JANELA TÍPICA 15s a 2min

// Performance vs. Postgres
170×
Mais rápido, e o Postgres seguiu intocado.

A análise sai do OLTP e vai para um motor colunar projetado para esse fim. JOINs analíticos, GROUP BYs de alta cardinalidade, agregações sobre milhões de linhas. Tudo o que travava o Postgres é executado em segundos no StarRocks.

                 Query no Postgres
                4m 32s
              
                 Query no StarRocks
                1.6s

< 2min

// LATÊNCIA CDC

Do COMMIT à query, em janela de 15s a 2min.

10k+/s

// THROUGHPUT

Linhas/s em hardware modesto.

200×

// VS. POSTGRES

Em queries analíticas TPC-H.

< 1d

// TIME-TO-DASH

Do diagnóstico ao primeiro dashboard.

// System architecture · live flow

// 01 ORIGEM

Postgres

MySQL, e outros

log de transações

// 02 CAPTURA

CDC

log-based

linha-a-linha

// 03 TRANSPORTE

Stream
Service

durável

particionado

// 04 PROCESSAMENTO

Stream
Processor

batching · retry

soft delete · JSON nativo

// 05 DATALAKE

★ StarRocks

motor MPP colunar

Primary Keys · MVs

// 06 SUAS FERRAMENTAS:Metabase · Superset · Grafana · dbt · Tableau · Power BI · SQL direto

// Próximo passo

Descreva o seu cenário. Respondemos o mais breve possível com números projetados para a sua operação.

Falar com especialista → Casos de uso

// Por que StarRocks

O motor open-source que recebe CDC sem degradar queries.

StarRocks é um motor analítico MPP em C++, hospedado pela Linux Foundation sob Apache 2.0. Combina três capacidades que historicamente exigiam stacks diferentes: ingestão de upserts contínuos, joins multi-tabela em escala TB/PB, e queries sub-segundo com alta concorrência.

Decisivo para CDC

Primary Key Tables

Estratégia Delete+Insert: 3 a 10× mais rápido em queries que tabelas Unique Key. Permite receber CDC contínuo do Postgres mantendo performance analítica. Os concorrentes open-source não têm equivalente eficiente.

≡

Materialized Views inteligentes

O otimizador reescreve queries automaticamente para usar MVs sem o usuário referenciá-las. Refresh incremental e particionado: só reprocessa partições afetadas pelos novos dados.

⚡

MPP vetorizado em C++

Motor totalmente vetorizado com instruções SIMD. 5 a 8× mais rápido que Trino em TPC-DS sobre Iceberg. Sem JVM, sem GC pauses, sem dependência de JIT.

⌬

CBO maduro

Cost-Based Optimizer cascades-like que reordena joins, reescreve subqueries, reusa CTEs e aplica filtros dinâmicos antes de ler do storage. algo que ClickHouse e Druid fazem mal.

★

Lakehouse aberto

External Catalogs nativos para Apache Iceberg, Hudi, Delta Lake, Hive e Paimon. Unified Catalog trata todos como uma fonte só. Sem lock-in, sem mover dados.

⇆

MySQL-protocol nativo

Tableau, Power BI, Metabase, Superset, dbt, DBeaver e qualquer notebook conectam direto sem driver custom. Zero atrito de adoção para times de BI.

// Quem usa em produção

Mesmo motor que Pinterest, Coinbase e Airbnb rodam.

Cases públicos documentados pela própria empresa StarRocks (CelerData) e pelos times de engenharia das companhias.

e-commerce

Fanatics

1 bilhão de eventos/dia, múltiplos petabytes em Iceberg. Migrou de Snowflake para StarRocks + Iceberg. Resultado: uso de Snowflake reduzido em 95% e custos cortados em ~90%.

crypto

Coinbase

573 bilhões de linhas, 300+ tabelas, 10 blockchains. Throughput Kafka de 30k mensagens/seg em Primary Key tables com upserts contínuos, mantendo queries sub-segundo.

analytics

500M+ usuários ativos. Migração de Druid → StarRocks no Partner Insights. Latência p90 reduzida em 50% usando 32% da infraestrutura anterior. 3× mais cost-performance.

marketplace

Airbnb

Trust Analytics, Tableau e Minerva metrics store. Antes (Druid/Presto): queries de 3-10 minutos. Depois (StarRocks Primary Key Table): 3.6 segundos.

finance

Intuit

Substituiu Druid. Roda 100k eventos/seg com TP99 abaixo de 500ms. Tempo de agregação reduzido em 98.33%.

b2b

Demandbase

Lakehouse petabyte-scale em StarRocks + Iceberg. Federated queries cruzando dados frios em S3 com dados quentes em Primary Key Tables. único SQL.

// também em produção: Microsoft Tencent Trip.com JD.com Shopee Naver Xiaohongshu

// Por que funciona

Engenharia de dados, sem buzzword.

Cada decisão da arquitetura existe para resolver um problema concreto.

⏱

Quase em tempo real, ponta-a-ponta

Do COMMIT no banco de origem ao SELECT no StarRocks normalmente numa janela de 15 segundos a 2 minutos. O log de transações é lido continuamente, sem janelas de polling, sem batch noturno.

◢

OLTP livre, BI desbloqueado

Análises pesadas saem da aplicação principal. O time de BI consulta o datalake; o time de produto recupera capacidade no banco transacional. Os dois ganham.

Custo previsível, sem MAR

Sem cobrança por linha movimentada (Monthly Active Rows). Sem reajuste vertical surpresa quando o volume cresce. Fanatics cortou 90% do custo de Snowflake usando exatamente este motor.

⌥

Open core, sem lock-in

StarRocks (Apache 2.0, Linux Foundation), CDC e stream service são todos open source. Se você sair amanhã, leva os dados, leva os schemas e mantém quem soube operar. não há plataforma proprietária no meio.

// Como começamos

Do diagnóstico ao primeiro dashboard.

Diagnóstico (gratuito)

Mapeamos quais bancos entram no datalake, qual o volume de mudanças, quais tabelas são prioridade e quais consultas analíticas você precisa rodar. Saímos com plano e estimativa de prazo.

Conexão dos bancos

Configuramos o CDC nas origens (Postgres, MySQL ou outras) sem indisponibilidade da aplicação. Em horas você já tem o pipeline capturando mudanças.

Datalake operacional

Schemas replicados em Primary Key Tables, materialized views configuradas, soft delete preservado, JSON nativo no destino. A primeira query analítica acontece no mesmo dia.

Você consulta, nós operamos

Seu time de BI conecta as ferramentas de preferência (Metabase, Superset, Grafana, Tableau, Power BI, dbt). Operação contínua. monitoramento, evolução de schema e capacidade permanecem sob nossa responsabilidade.

Ver detalhes técnicos →

// Próximo passo

Conversa direta, sem pitch deck.

Descreva o cenário em poucas linhas: quais bancos, qual volume, o que precisa consultar. Em uma primeira reunião projetamos números para o seu caso.

Falar com especialista Ver casos de uso