Seus bancos no datalake em minutos. Dashboards em segundos.
Replicamos cada COMMIT de Postgres, MySQL e outros bancos operacionais para um datalake StarRocks numa janela de 15 segundos a 2 minutos. SQL com poucos ajustes, motor analítico colunar. Queries sub-segundo no que rodava em minutos no banco operacional.
t+0s
+0.4s
+18s
+45s
A análise sai do OLTP e vai para um motor colunar projetado para esse fim. JOINs analíticos, GROUP BYs de alta cardinalidade, agregações sobre milhões de linhas. Tudo o que travava o Postgres é executado em segundos no StarRocks.
4m 32s
1.6s
Service
Processor
O motor open-source que recebe CDC sem degradar queries.
StarRocks é um motor analítico MPP em C++, hospedado pela Linux Foundation sob Apache 2.0. Combina três capacidades que historicamente exigiam stacks diferentes: ingestão de upserts contínuos, joins multi-tabela em escala TB/PB, e queries sub-segundo com alta concorrência.
Primary Key Tables
Estratégia Delete+Insert: 3 a 10× mais rápido em queries que tabelas Unique Key. Permite receber CDC contínuo do Postgres mantendo performance analítica. Os concorrentes open-source não têm equivalente eficiente.
Materialized Views inteligentes
O otimizador reescreve queries automaticamente para usar MVs sem o usuário referenciá-las. Refresh incremental e particionado: só reprocessa partições afetadas pelos novos dados.
MPP vetorizado em C++
Motor totalmente vetorizado com instruções SIMD. 5 a 8× mais rápido que Trino em TPC-DS sobre Iceberg. Sem JVM, sem GC pauses, sem dependência de JIT.
CBO maduro
Cost-Based Optimizer cascades-like que reordena joins, reescreve subqueries, reusa CTEs e aplica filtros dinâmicos antes de ler do storage. algo que ClickHouse e Druid fazem mal.
Lakehouse aberto
External Catalogs nativos para Apache Iceberg, Hudi, Delta Lake, Hive e Paimon. Unified Catalog trata todos como uma fonte só. Sem lock-in, sem mover dados.
MySQL-protocol nativo
Tableau, Power BI, Metabase, Superset, dbt, DBeaver e qualquer notebook conectam direto sem driver custom. Zero atrito de adoção para times de BI.
Mesmo motor que Pinterest, Coinbase e Airbnb rodam.
Cases públicos documentados pela própria empresa StarRocks (CelerData) e pelos times de engenharia das companhias.
Fanatics
1 bilhão de eventos/dia, múltiplos petabytes em Iceberg. Migrou de Snowflake para StarRocks + Iceberg. Resultado: uso de Snowflake reduzido em 95% e custos cortados em ~90%.
Coinbase
573 bilhões de linhas, 300+ tabelas, 10 blockchains. Throughput Kafka de 30k mensagens/seg em Primary Key tables com upserts contínuos, mantendo queries sub-segundo.
500M+ usuários ativos. Migração de Druid → StarRocks no Partner Insights. Latência p90 reduzida em 50% usando 32% da infraestrutura anterior. 3× mais cost-performance.
Airbnb
Trust Analytics, Tableau e Minerva metrics store. Antes (Druid/Presto): queries de 3-10 minutos. Depois (StarRocks Primary Key Table): 3.6 segundos.
Intuit
Substituiu Druid. Roda 100k eventos/seg com TP99 abaixo de 500ms. Tempo de agregação reduzido em 98.33%.
Demandbase
Lakehouse petabyte-scale em StarRocks + Iceberg. Federated queries cruzando dados frios em S3 com dados quentes em Primary Key Tables. único SQL.
Engenharia de dados, sem buzzword.
Cada decisão da arquitetura existe para resolver um problema concreto.
Quase em tempo real, ponta-a-ponta
Do COMMIT no banco de origem ao SELECT no StarRocks normalmente numa janela de 15 segundos a 2 minutos. O log de transações é lido continuamente, sem janelas de polling, sem batch noturno.
OLTP livre, BI desbloqueado
Análises pesadas saem da aplicação principal. O time de BI consulta o datalake; o time de produto recupera capacidade no banco transacional. Os dois ganham.
Custo previsível, sem MAR
Sem cobrança por linha movimentada (Monthly Active Rows). Sem reajuste vertical surpresa quando o volume cresce. Fanatics cortou 90% do custo de Snowflake usando exatamente este motor.
Open core, sem lock-in
StarRocks (Apache 2.0, Linux Foundation), CDC e stream service são todos open source. Se você sair amanhã, leva os dados, leva os schemas e mantém quem soube operar. não há plataforma proprietária no meio.
Do diagnóstico ao primeiro dashboard.
Diagnóstico (gratuito)
Mapeamos quais bancos entram no datalake, qual o volume de mudanças, quais tabelas são prioridade e quais consultas analíticas você precisa rodar. Saímos com plano e estimativa de prazo.
Conexão dos bancos
Configuramos o CDC nas origens (Postgres, MySQL ou outras) sem indisponibilidade da aplicação. Em horas você já tem o pipeline capturando mudanças.
Datalake operacional
Schemas replicados em Primary Key Tables, materialized views configuradas, soft delete preservado, JSON nativo no destino. A primeira query analítica acontece no mesmo dia.
Você consulta, nós operamos
Seu time de BI conecta as ferramentas de preferência (Metabase, Superset, Grafana, Tableau, Power BI, dbt). Operação contínua. monitoramento, evolução de schema e capacidade permanecem sob nossa responsabilidade.
Conversa direta, sem pitch deck.
Descreva o cenário em poucas linhas: quais bancos, qual volume, o que precisa consultar. Em uma primeira reunião projetamos números para o seu caso.