IA de Elon Musk está usando apenas 11% das 550 mil GPUs que comprou

As GPUs da xAI, frota colossal que sustenta o desenvolvimento do chatbot Grok, estão operando bem abaixo do potencial declarado.

Segundo memorando interno revelado pelo veículo norte-americano The Information, a empresa de Elon Musk consegue extrair desempenho efetivo de pouco mais de um décimo de seu parque instalado, enquanto rivais como Meta e Google superam os 40% de aproveitamento.

Os números expõem um problema estrutural diferente do que parece à primeira vista: ter 550 mil aceleradores NVIDIA parados na maior parte do tempo representa custo bilionário em equipamento ocioso, em meio à pior escassez de chips de inteligência artificial da história recente.

A discrepância entre o instalado e o ativo

A xAI mantém aproximadamente 550 mil GPUs NVIDIA distribuídas entre os data centers de Memphis e o supercluster Colossus. A frota mistura aceleradores H100 e H200, ambos da geração Hopper, com várias unidades em configuração de resfriamento líquido.

Apesar de ser anterior à arquitetura Blackwell, a escala continua expressiva. Em termos práticos, 550 mil unidades equivalem a investimentos estimados entre US$ 16 bilhões e US$ 22 bilhões (cerca de R$ 88 bilhões a R$ 122 bilhões na cotação atual, sem contar impostos brasileiros nem taxas de importação) apenas em silício, considerando o valor unitário das placas Hopper no atacado.

O dado mais expressivo, no entanto, é a fração que efetivamente trabalha. A taxa de MFU (Model FLOPs Utilization), métrica que mede quanto da capacidade teórica de um chip é convertida em desempenho real, ficou em 11% nas últimas semanas, segundo o memorando interno mencionado pela The Information.

Em números brutos, é como se apenas 60 mil das 550 mil GPUs estivessem produzindo trabalho útil. As outras 490 mil ficam ociosas em algum ponto do ciclo de treinamento.

Divulgação/xAI

Por que MFU é o termômetro mais cruel da indústria

A métrica de Model FLOPs Utilization compara o desempenho que um chip está entregando contra o teto teórico que o silício consegue atingir.

Em redes corporativas de pequena e média escala (algo entre 1.000 e 10.000 GPUs), a indústria considera saudável uma faixa entre 35% e 45% de aproveitamento.

Acima desse patamar, fala-se em otimização de software de classe mundial. Abaixo de 30%, há sinais de problemas estruturais. Os 11% atribuídos à xAI ficam três vezes abaixo do limite inferior do padrão considerado aceitável por engenheiros do setor.

Um pesquisador de um laboratório concorrente, ouvido sob anonimato pela The Information, classificou o número como “ridiculously low” (em tradução livre):

“A maioria das empresas tem dificuldade de cruzar 40%. Onze por cento é ridiculamente baixo.”

A frase ilustra a distância entre o que a xAI alcança hoje e o que os pares consideram operação minimamente eficiente em larga escala.

A escala faz o problema crescer mais rápido que a solução

Treinamentos de modelos de linguagem têm comportamento conhecido como bursty: as GPUs trabalham em rajadas intensas durante a fase de cálculo e depois ficam ociosas enquanto pesquisadores analisam resultados, ajustam parâmetros e definem o próximo passo. Em clusters pequenos, o tempo morto é absorvido sem grandes prejuízos.

Em estruturas com centenas de milhares de placas operando em paralelo, cada minuto de inatividade é multiplicado pela frota inteira. A combinação de gargalos no HBM (memória de alta largura de banda) com saturação na rede de interconexão entre nós faz a eficiência despencar.

O HBM não acompanha a velocidade dos núcleos de cálculo, e qualquer ponto fraco na rede que liga milhares de GPUs trava o cluster inteiro.

Outro fator estrutural é a maturidade do stack de software distribuído, que a xAI ainda não desenvolveu no nível construído por Meta e Google ao longo de quase uma década de operação em larga escala.

Como Meta e Google escapam do mesmo dilema

A comparação direta entre as três empresas mostra a diferença de maturidade. A Meta atinge cerca de 43% de utilização em sua frota de mais de 600 mil aceleradores H100. O Google, que combina GPUs NVIDIA com seus próprios TPUs internos, chega aos 46%, segundo dados citados pelo The Information.

Empresa Frota estimada Taxa de utilização (MFU)
xAI 550 mil (H100 + H200) 11%
Meta 600 mil + (H100) 43%
Google TPUs proprietárias + GPUs NVIDIA 46%

O salto não está no hardware, mas no software. Tanto a empresa de Mark Zuckerberg quanto a divisão de IA do Google investem há anos em ferramentas próprias de orquestração, escalonadores de tarefas e bibliotecas otimizadas que reduzem o tempo de espera entre uma rodada de treinamento e a próxima.

O lado obscuro da métrica

Há ainda um fenômeno colateral relevante apontado pela reportagem. Em laboratórios com sistemas de cota interna, equipes têm um incentivo perverso para rodar e rerodar experimentos de treinamento sem necessidade real.

A prática inflaciona artificialmente as taxas de utilização e evita perder a alocação de GPUs para outros times. Serve para blindar a equipe de críticas da gerência sobre baixo aproveitamento e impedir que as placas ociosas sejam realocadas.

O efeito final é uma corrida pela aparência de eficiência, com pouco impacto sobre o que realmente sai do cluster.

A meta de 50% e os planos para chegar lá

A xAI estabeleceu como objetivo interno alcançar uma taxa de utilização próxima dos 50%, alinhada à dianteira da indústria.

Não há prazo público para essa virada, mas o plano se concentra em três frentes: amadurecimento do stack de software de treinamento distribuído, reorganização da pipeline de dados e contratação de engenheiros especializados em otimização de cluster.

Outra possibilidade levantada pela The Information é o aluguel de capacidade ociosa para terceiros. Com a indústria desesperada por chips (basta ver que o Trainium2 da Amazon já está esgotado), disponibilizar fatias do Colossus como serviço pode gerar receita imediata enquanto a otimização interna evolui.

A aposta paralela em silício próprio

Enquanto trabalha a eficiência da frota atual, Musk acelera uma estratégia paralela para deixar de depender da NVIDIA.

O projeto Terafab, conduzido em parceria com SpaceX e Tesla, prevê uma fábrica própria de chips em Austin, no Texas, com investimento estimado entre US$ 20 bilhões e US$ 25 bilhões (cerca de R$ 111 bilhões a R$ 139 bilhões na cotação atual, sem incluir impostos e taxas brasileiras).

A operação deve usar o processo 14A da Intel quando estiver em produção em volume e mira dois tipos de silício no escopo inicial: chips de inferência para os carros Tesla e os robôs Optimus (família AI5), e os chips D3, voltados para satélites de IA em órbita.

A xAI também é candidata a consumir parte dessa produção em futuros clusters.

Leia também:

Software pesa mais que volume bruto

A leitura mais imediata do relatório aponta o gargalo da xAI longe dos chips. O ponto crítico está em tudo que existe entre o silício e o modelo. NVIDIA, Meta e Google mostraram que ter mais GPUs sem stack maduro produz desperdício caro.

Os números colocam a empresa diante de uma conta delicada: cada ponto percentual de MFU abaixo da média representa centenas de milhões de dólares em hardware Hopper parado. Conseguir unidades novas exige meses de espera e contratos bilionários.

Resolver os 39 pontos percentuais que separam a xAI da Meta exige menos compras de H100 e mais engenheiros de sistemas distribuídos, perfil que segue entre os mais disputados no mercado de tecnologia em 2026. Para os modelos atuais e a próxima geração da família Grok, a corrida real é silenciosa e acontece dentro do código.

Fonte(s): The Information

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima