AMD revela aceleradora de IA MI350P com 144 GB HBM3E e desempenho até 40% superior à NVIDIA H200

A AMD colocou no mercado a Instinct MI350P, uma aceleradora de inteligência artificial (IA) em formato de placa PCIe baseada na arquitetura CDNA 4 e usando uma técnica de chiplets que combina processos de 3 nm e 6 nm para maximizar a eficiência

O componente entrega 128 Compute Units (CUs), 8.192 Stream Processors e 144 GB de memória HBM3E, funcionando dentro de um envelope térmico de 600 W com refrigeração passiva projetada para servidores rack já existentes.

Posicionamento técnico e especificações detalhadas

A MI350P representa a metade exata das especificações das variantes topo de linha MI350X e MI355X.

Enquanto os modelos OAM (Open Compute Project Accelerator Module) carregam 256 Compute Units e 16.384 Stream Processors, a versão PCIe trabalha com 128 CUs e 8.192 núcleos.

Para os que estão por fora, OAM é um formato para supercomputadores modulares, enquanto a MI350P (PCIe) é o formato “padrão de placa de vídeo” que encaixa em servidores comuns.

De toda forma, a tabela comparativa ressalta com clareza as diferenças técnicas entre as três integrantes do time vermelho:

Especificação Instinct MI350P Instinct MI350X Instinct MI355X
Fator de forma Placa adicional PCIe Módulo OAM Módulo OAM
Arquitetura CDNA 4 CDNA 4 CDNA 4
Processo TSMC 3 nm / 6 nm FinFET TSMC 3 nm / 6 nm FinFET TSMC 3 nm / 6 nm FinFET
Stream processors 8.192 16.384 16.384
Compute Units 128 256 256
Matrix cores 512 1.024 1.024
Peak engine clock 2.200 MHz 2.200 MHz 2.400 MHz
Transistores 73 bilhões 185 bilhões 185 bilhões
Memória HBM 144 GB HBM3E 288 GB HBM3E 288 GB HBM3E
Barramento de memória 4.096 bits 8.192 bits 8.192 bits
Cache de último nível 128 MB 256 MB 256 MB
ECC Full-chip ECC Full-chip ECC Full-chip ECC
TBP 600 W máx., 450 W configurável 1.000 W 1.400 W
Alimentação externa 12V-2×6 54V UBB 54V UBB
Barramento PCIe 5.0 x16 PCIe 5.0 x16 PCIe 5.0 x16
Fonte: VideoCardz

Memória e interface de dados

O subsistema de memória conta com 144 GB HBM3E distribuídos em uma interface de 4.096 bits, resultando em largura de banda de pico de 4 TB/s.

O cache de último nível soma 128 MB com correção de erro full-chip ECC ativada em toda a pilha de memória.

Ficha técnica complementar da Instinct MI350P segundo a AMD

Especificação Dado oficial
Litografia (IODs) TSMC 3 nm / 6 nm FinFET (1 IOD)
AMD Infinity Cache (último nível) 128 MB
Interconexão de entrada e saída 1 PCIe Gen 5 x16 (128 GB/s)
Recursos RAS Full-chip ECC, page retirement, page avoidance
Fonte: VideoCardz

A placa utiliza o conector 12V-2×6 para alimentação externa (o mesmo padrão GPUs RTX 40 e 50 da NVIDIA), sendo esta a primeira aceleradora da AMD com esse padrão capaz de atingir os 600 W de consumo máximo.

Há ainda um modo configurável de 450 W para estruturas com restrições térmicas ou de entrega de energia mais pesadas.

Desempenho computacional e cargas de trabalho

Os Matrix Cores da MI350P funcionam com suporte nativo a formatos de precisão reduzida MXFP6 e MXFP4, acelerando grandes modelos de linguagem (LLM).

Ou seja: com esses formatos menores é possível processar IA (como o ChatGPT) muito mais rápido e com menos memória.

Os números de desempenho de matriz atingem até 4,6 PFLOPS em MXFP4. Esses valores são alcançados graças à esparsidade estruturada, uma tecnologia que dobra a eficiência ao ignorar dados irrelevantes (zeros) durante os cálculos de IA.

Até 8 unidades podem ser agrupadas em um único sistema, permitindo escalonamento de desempenho conforme a quantidade de placas instaladas.

Leia mais

Comparação com a concorrência e cenário de mercado

A MI350P disputa diretamente com a aceleradora PCIe mais rápida da NVIDIA disponível no momento, a H200 NVL.

Em análise técnica dos dados teóricos de computação, a placa da AMD oferece 20% mais desempenho em FP64, 43% mais em FP16 e 39% mais em FP8, apoiada na arquitetura CDNA 4 contra a geração anterior da concorrente.

A NVIDIA não revelou até agora uma versão PCIe das GPUs B200 Blackwell com memória HBM, posicionando a MI350P como a opção mais avançada nesse formato.

De toda forma, apesar do hardware superior, o desafio da AMD é convencer desenvolvedores acostumados com o ecossistema CUDA da NVIDIA a migrarem para o ROCm.

Para finalizar, ressaltamos que, durante a CES 2026, a AMD detalhou investimentos contínuos na stack ROCm para reduzir a distância no ecossistema de desenvolvimento de inteligência artificial.

E aí? O que achou das novidades? Compartilhe o seu ponto de vista nesta publicação e continue acompanhando o Adrenaline!

Fontes: Tom’s Hardware | VideoCardZ

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima