As GPUs da xAI, frota colossal que sustenta o desenvolvimento do chatbot Grok, estão operando bem abaixo do potencial declarado.
Segundo memorando interno revelado pelo veículo norte-americano The Information, a empresa de Elon Musk consegue extrair desempenho efetivo de pouco mais de um décimo de seu parque instalado, enquanto rivais como Meta e Google superam os 40% de aproveitamento.
Os números expõem um problema estrutural diferente do que parece à primeira vista: ter 550 mil aceleradores NVIDIA parados na maior parte do tempo representa custo bilionário em equipamento ocioso, em meio à pior escassez de chips de inteligência artificial da história recente.
A discrepância entre o instalado e o ativo
A xAI mantém aproximadamente 550 mil GPUs NVIDIA distribuídas entre os data centers de Memphis e o supercluster Colossus. A frota mistura aceleradores H100 e H200, ambos da geração Hopper, com várias unidades em configuração de resfriamento líquido.
Apesar de ser anterior à arquitetura Blackwell, a escala continua expressiva. Em termos práticos, 550 mil unidades equivalem a investimentos estimados entre US$ 16 bilhões e US$ 22 bilhões (cerca de R$ 88 bilhões a R$ 122 bilhões na cotação atual, sem contar impostos brasileiros nem taxas de importação) apenas em silício, considerando o valor unitário das placas Hopper no atacado.
O dado mais expressivo, no entanto, é a fração que efetivamente trabalha. A taxa de MFU (Model FLOPs Utilization), métrica que mede quanto da capacidade teórica de um chip é convertida em desempenho real, ficou em 11% nas últimas semanas, segundo o memorando interno mencionado pela The Information.
Em números brutos, é como se apenas 60 mil das 550 mil GPUs estivessem produzindo trabalho útil. As outras 490 mil ficam ociosas em algum ponto do ciclo de treinamento.
Por que MFU é o termômetro mais cruel da indústria
A métrica de Model FLOPs Utilization compara o desempenho que um chip está entregando contra o teto teórico que o silício consegue atingir.
Em redes corporativas de pequena e média escala (algo entre 1.000 e 10.000 GPUs), a indústria considera saudável uma faixa entre 35% e 45% de aproveitamento.
Acima desse patamar, fala-se em otimização de software de classe mundial. Abaixo de 30%, há sinais de problemas estruturais. Os 11% atribuídos à xAI ficam três vezes abaixo do limite inferior do padrão considerado aceitável por engenheiros do setor.
Um pesquisador de um laboratório concorrente, ouvido sob anonimato pela The Information, classificou o número como “ridiculously low” (em tradução livre):
“A maioria das empresas tem dificuldade de cruzar 40%. Onze por cento é ridiculamente baixo.”
A frase ilustra a distância entre o que a xAI alcança hoje e o que os pares consideram operação minimamente eficiente em larga escala.
A escala faz o problema crescer mais rápido que a solução
Treinamentos de modelos de linguagem têm comportamento conhecido como bursty: as GPUs trabalham em rajadas intensas durante a fase de cálculo e depois ficam ociosas enquanto pesquisadores analisam resultados, ajustam parâmetros e definem o próximo passo. Em clusters pequenos, o tempo morto é absorvido sem grandes prejuízos.
Em estruturas com centenas de milhares de placas operando em paralelo, cada minuto de inatividade é multiplicado pela frota inteira. A combinação de gargalos no HBM (memória de alta largura de banda) com saturação na rede de interconexão entre nós faz a eficiência despencar.
O HBM não acompanha a velocidade dos núcleos de cálculo, e qualquer ponto fraco na rede que liga milhares de GPUs trava o cluster inteiro.
Outro fator estrutural é a maturidade do stack de software distribuído, que a xAI ainda não desenvolveu no nível construído por Meta e Google ao longo de quase uma década de operação em larga escala.
Como Meta e Google escapam do mesmo dilema
A comparação direta entre as três empresas mostra a diferença de maturidade. A Meta atinge cerca de 43% de utilização em sua frota de mais de 600 mil aceleradores H100. O Google, que combina GPUs NVIDIA com seus próprios TPUs internos, chega aos 46%, segundo dados citados pelo The Information.
| Empresa | Frota estimada | Taxa de utilização (MFU) |
|---|---|---|
| xAI | 550 mil (H100 + H200) | 11% |
| Meta | 600 mil + (H100) | 43% |
| TPUs proprietárias + GPUs NVIDIA | 46% |
O salto não está no hardware, mas no software. Tanto a empresa de Mark Zuckerberg quanto a divisão de IA do Google investem há anos em ferramentas próprias de orquestração, escalonadores de tarefas e bibliotecas otimizadas que reduzem o tempo de espera entre uma rodada de treinamento e a próxima.
O lado obscuro da métrica
Há ainda um fenômeno colateral relevante apontado pela reportagem. Em laboratórios com sistemas de cota interna, equipes têm um incentivo perverso para rodar e rerodar experimentos de treinamento sem necessidade real.
A prática inflaciona artificialmente as taxas de utilização e evita perder a alocação de GPUs para outros times. Serve para blindar a equipe de críticas da gerência sobre baixo aproveitamento e impedir que as placas ociosas sejam realocadas.
O efeito final é uma corrida pela aparência de eficiência, com pouco impacto sobre o que realmente sai do cluster.
A meta de 50% e os planos para chegar lá
A xAI estabeleceu como objetivo interno alcançar uma taxa de utilização próxima dos 50%, alinhada à dianteira da indústria.
Não há prazo público para essa virada, mas o plano se concentra em três frentes: amadurecimento do stack de software de treinamento distribuído, reorganização da pipeline de dados e contratação de engenheiros especializados em otimização de cluster.
Outra possibilidade levantada pela The Information é o aluguel de capacidade ociosa para terceiros. Com a indústria desesperada por chips (basta ver que o Trainium2 da Amazon já está esgotado), disponibilizar fatias do Colossus como serviço pode gerar receita imediata enquanto a otimização interna evolui.
A aposta paralela em silício próprio
Enquanto trabalha a eficiência da frota atual, Musk acelera uma estratégia paralela para deixar de depender da NVIDIA.
O projeto Terafab, conduzido em parceria com SpaceX e Tesla, prevê uma fábrica própria de chips em Austin, no Texas, com investimento estimado entre US$ 20 bilhões e US$ 25 bilhões (cerca de R$ 111 bilhões a R$ 139 bilhões na cotação atual, sem incluir impostos e taxas brasileiras).
A operação deve usar o processo 14A da Intel quando estiver em produção em volume e mira dois tipos de silício no escopo inicial: chips de inferência para os carros Tesla e os robôs Optimus (família AI5), e os chips D3, voltados para satélites de IA em órbita.
A xAI também é candidata a consumir parte dessa produção em futuros clusters.
Leia também:
- SpaceX, de Elon Musk, vai começar a fabricar GPUs em breve
- Novo modelo de IA da NVIDIA promete salto de 9x e apoio de gigantes como Oracle e Foxconn
- Fabricantes de memória faturam mais no primeiro trimestre de 2026 do que em todo 2025 e preços devem subir 40%
Software pesa mais que volume bruto
A leitura mais imediata do relatório aponta o gargalo da xAI longe dos chips. O ponto crítico está em tudo que existe entre o silício e o modelo. NVIDIA, Meta e Google mostraram que ter mais GPUs sem stack maduro produz desperdício caro.
Os números colocam a empresa diante de uma conta delicada: cada ponto percentual de MFU abaixo da média representa centenas de milhões de dólares em hardware Hopper parado. Conseguir unidades novas exige meses de espera e contratos bilionários.
Resolver os 39 pontos percentuais que separam a xAI da Meta exige menos compras de H100 e mais engenheiros de sistemas distribuídos, perfil que segue entre os mais disputados no mercado de tecnologia em 2026. Para os modelos atuais e a próxima geração da família Grok, a corrida real é silenciosa e acontece dentro do código.
Fonte(s): The Information