NVIDIA Blackwell Ultra eleva desempenho de “Agentic AI” com até 50× mais tokens por watt

A indústria de Inteligência Artificial evoluiu em vários aspectos desde seu boom inicial em 2022 e, atualmente, testemunha uma grande mudança em direção à computação agente. E isso é impulsionado por aplicativos/wrappers construídos em modelos de ponta.

Ao mesmo tempo, para provedores de infraestrutura como a NVIDIA, tornou-se cada vez mais importante ter ampla largura de banda de memória e desempenho integrados. O objetivo é atender aos requisitos de latência das estruturas de computação agente, e com o Blackwell Ultra, o time verde conseguiu exatamente isso.

Créditos: NVIDIA.

Por isso, em uma nova publicação no blog, a NVIDIA testou o Blackwell Ultra no InferenceMAX da SemiAnalysis, e os resultados são impressionantes.

Considerando que o Blackwell Ultra está atualmente em processo de integração com hiperescaladores, estes estão entre os primeiros benchmarks da arquitetura. E, ao que tudo indica, a NVIDIA conseguiu manter a escalabilidade de desempenho intacta e alinhada aos casos de uso de Inteligência Artificial modernos.

Com Vera Rubin, pode-se esperar um desempenho ainda superior da geração Blackwell, tornando-a uma das muitas razões pelas quais a NVIDIA domina atualmente a corrida da infraestrutura.

Notícias Relacionadas:

Relação custo benefício

Créditos: NVIDIA.

O primeiro infográfico da NVIDIA destaca um número chamado “token/watt”, um dos números mais importantes a serem observados no atual cenário de expansão da infraestrutura de hiperescala.

Nos testes, a empresa se concentrou tanto no desempenho bruto quanto nas otimizações de throughput. É por isso que, com o GB300 NVL72, a NVIDIA observa um aumento de 50 vezes no throughput por megawatt em comparação com as GPUs Hopper.

E a comparação mostra o melhor “estado de implantação” possível para cada arquitetura.

Para os curiosos de como os ganhos de throughput por megawatt são tão fenomenais, basta recordar que a NVIDIA se orgulha de sua tecnologia NVLink. O Blackwell Ultra expandiu para uma interface com 72 GPUs, unindo-as em uma única estrutura NVLink unificada com conectividade de 130 TB/s.

Comparado ao Hopper, que se limita a um design NVLink de 8 chips, a NVIDIA trouxe uma arquitetura superior, um design de rack otimizado e, mais importante, o formato de precisão NVFP4. Por essa razão, o GB300 domina em termos de throughput.

Custos dos Tokens

Créditos: NVIDIA.

Considerando a onda de agentes de IA, os testes do GB300 NVL72 da NVIDIA também se concentram nos custos dos tokens e nas atualizações mencionadas. A equipe da NVIDIA observa uma redução massiva de 35 vezes no custo por milhão de tokens, tornando-o a opção de inferência ideal para laboratórios de ponta e hiperescaladores.

Mais uma vez, as leis de escalabilidade permanecem intactas e estão evoluindo a um ritmo inimaginável. E os principais catalisadores para essas melhorias de desempenho são, de fato, a estrutura de “design colaborativo extremo” implementada pela NVIDIA, juntamente com o que chamam de Lei de Huang.

Créditos: NVIDIA.

A comparação com o Hopper torna-se um pouco injusta quando se consideram as diferenças incrementais nos nós de computação e arquiteturas. Por isso, a NVIDIA também comparou o GB200 com o GB300 (NVL72s) em cargas de trabalho de contexto longo.

O contexto é, de fato, uma grande restrição para agentes, já que manter o estado de toda a base de código exige o uso agressivo de tokens. Com o Blackwell Ultra, a NVIDIA observa um custo por token até 1,5 vezes menor e um processamento de atenção 2 vezes mais rápido, o que o posiciona bem para cargas de trabalho com agentes.

Fonte: NVIDIA.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima