NVIDIA domina benchmarks MLPerf v6.0 com Blackwell Ultra

A NVIDIA apresentou resultados de destaque no MLPerf Inference v6.0, uma das suítes de benchmark mais rigorosas da indústria de inteligência artificial, estabelecendo sua hegemonia em desempenho e eficiência.

Segundo dados divulgados pela empresa, sistemas baseados na arquitetura Blackwell Ultra atingiram o maior throughput de inferência e o menor custo por token entre todos os participantes.

A companhia atribui o salto a uma estratégia de co-design extremo, que integra chips, software, arquitetura de sistemas e infraestrutura de data centers. O modelo tem permitido ganhos expressivos mesmo sem alterações físicas nos equipamentos.

Desempenho dispara com otimizações de software

Um dos pontos que mais chamam atenção nos resultados é o impacto das melhorias de software. Em testes com o modelo DeepSeek-R1, a NVIDIA registrou um aumento de até 2,7 vezes no throughput de tokens por GPU, utilizando o mesmo hardware lançado meses antes.

Divulgação/NVIDIA

Na prática, isso significa produzir mais tokens com a mesma infraestrutura, reduzindo custos operacionais e ampliando a capacidade de atendimento em ambientes de IA em larga escala.

Entre os fatores que explicam esse avanço estão otimizações em kernels, melhorias no balanceamento de carga e novas técnicas de paralelismo. Tecnologias como Multi-Token Prediction e Wide Expert Parallel também contribuíram para elevar a eficiência em cenários mais interativos.

Como resume a própria companhia no material divulgado, “o desempenho de inferência entregue depende de um co-design profundo entre chips, arquitetura de sistemas, data centers e software”, indicando que os ganhos não vêm de um único componente isolado, mas da integração de toda a pilha tecnológica.

Blackwell Ultra amplia vantagem sobre concorrentes

Os números demonstram a distância da NVIDIA em relação ao restante do mercado. De acordo com os dados acumulados desde 2018, a empresa soma 9 vezes mais vitórias em benchmarks MLPerf do que todos os concorrentes combinados.

Na prática, isso se traduz em liderança consistente tanto em treinamento quanto em inferência de modelos de IA. Mesmo com a entrada de novos players e chips especializados, a companhia mantém presença dominante nas submissões e nos resultados mais relevantes.

Outro dado expressivo envolve escala: em testes recentes, uma configuração com 288 GPUs Blackwell Ultra alcançou cerca de 2,5 milhões de tokens por segundo, um nível de desempenho voltado para operações massivas de IA.

Novos testes ampliam escopo do MLPerf

A versão 6.0 do MLPerf trouxe mudanças importantes ao incluir novos modelos e cenários de uso. Entre eles estão sistemas de raciocínio baseados em MoE, modelos multimodais e aplicações como geração de vídeo e recomendação avançada.

Entre os benchmarks adicionados estão:

Modelos como DeepSeek-R1 e GPT-OSS-120B, focados em raciocínio
Arquiteturas multimodais como Qwen3-VL
Modelos de geração de vídeo, como WAN 2.2
Sistemas de recomendação com base em transformadores, como o DLRMv3

A ampliação torna os testes mais próximos de aplicações reais, refletindo demandas atuais de empresas que operam IA em produção.

Ecossistema impulsiona resultados em larga escala

Outro ponto relevante é a participação de parceiros. Nesta rodada, 14 empresas submeteram resultados utilizando a plataforma NVIDIA, incluindo nomes como Google Cloud, Dell, Lenovo, HPE e ASUS.

Esse ecossistema amplia as possibilidades de implementação, permitindo otimizações específicas para diferentes ambientes e workloads. Parte dos ganhos recentes, por exemplo, foi obtida em colaboração com parceiros que ajustaram a pilha de software para extrair mais desempenho da infraestrutura existente.

Além disso, tecnologias de interconexão como o InfiniBand Quantum-X800 permitiram escalar sistemas com múltiplos nós, elevando o throughput total em cenários distribuídos.

O que está por trás da corrida por tokens

O foco em métricas como tokens por segundo e custo por token reflete uma mudança importante na indústria. Com modelos cada vez maiores e aplicações mais exigentes, a eficiência operacional passou a ser tão relevante quanto o desempenho bruto.

Empresas que operam “fábricas de IA” precisam equilibrar velocidade, consumo energético e custo total de propriedade. Nesse cenário, ganhos de software e arquitetura podem ter impacto direto na viabilidade econômica de projetos.

Leia também:

Benchmark como estratégia de mercado

Os resultados do MLPerf influenciam decisões de investimento, escolhas de infraestrutura e até a direção de desenvolvimento de novos modelos.

A mexida da NVIDIA sinaliza que ela pretende manter controle sobre toda a pilha, do hardware ao software, enquanto amplia sua presença no ecossistema. Ao mesmo tempo, a empresa já trabalha na próxima etapa, com o desenvolvimento do MLPerf Endpoints, que pretende medir desempenho em cenários reais de API e serviços.

Em outras palavras, sair do laboratório e medir o que realmente importa em produção. Em um mercado onde cada token processado representa custo e receita, essa métrica pode definr a forma como a performance em IA será avaliada nos próximos anos.

Fonte(s): NVIDIA

Conteúdo Relacionado

Agenda AMD

AMD confirma evento Advancing AI 2026 para o mês de julho