Nova tecnologia apoiada pela NVIDIA promete reduzir custos de IA em até 50% com memória DDR5 via Ethernet

A Enfabrica, uma startup apoiada pela NVIDIA, anunciou o Elastic AI Memory Fabric System (Emfasys), que pode adicionar terabytes de memória DDR5 a qualquer servidor usando uma conexão Ethernet.

O sistema de memória via Ethernet foi projetado para cargas de trabalho de inferência em larga escala e está sendo testado atualmente com clientes selecionados.

Trata-se de mais um investimento da NVIDIA no setor de hardware para Inteligência Artificial. O problema central é que a capacidade de RAM tende a ser um gargalo para inúmeras das aplicações de IA, mas adicionar memória aos sistemas às vezes não é possível ou é complicado.

Créditos: Freepik.

Afinal, há um limite para o quanto é possível só criar um servidor maior.

Conforme a empresa, a tecnologia pode reduzir os custos de IA em até 50% por token gerado. E como as tarefas de geração de tokens podem ser distribuídas entre os servidores de forma mais uniforme, será possível eliminar gargalos.

Notícias Relacionadas:

Características do Sistema

Créditos: Enfabrica.

O sistema Emfasys da Enfabrica é compatível com rack baseado na placa de rede SuperNIC ACF-S da empresa. Com uma taxa de transferência de 3,2 Tb/s (400 GB/s), ele conecta até 18 TB de memória DDR5 com CXL na parte superior.

A memória pode ser acessada por servidores GPU de 4 e 8 vias por meio de portas Ethernet padrão de 400G ou 800G usando Acesso Remoto Direto à Memória (RDMA) via Ethernet. Ou seja, é possível adicionar um sistema Emfasys a praticamente qualquer servidor de IA sem problemas.

Os dados se movimentam os servidores GPU e o pool de memória Emfasys usando RDMA. Isso permite acesso à memória com zero copy e baixa latência (medida em microssegundos) sem intervenção da CPU, usando o protocolo CXL.mem.

O Emfasys visa atender aos crescentes requisitos de memória em IAs modernas que utilizam prompts muito longos, grandes janelas de contexto ou múltiplos agentes. Essas cargas de trabalho colocam uma pressão significativa sobre as memórias HBM conectadas à GPU, que é limitado e caro.

Utilizando um pool de memória externo, os operadores de data center podem expandir com flexibilidade a memória de um servidor de IA individual.

O que há de específico?

Créditos: Enfabrica.

Para acessar o pool de memória Emfasys, os servidores exigem um software de camadas de memória. A função do software é mascarar atrasos de transferência, entre outras coisas, e ele é fornecido ou habilitado pela Enfabrica.

Esse software é executado em ambientes de hardware e sistema operacional existentes e se baseia em interfaces RDMA amplamente adotadas. Isso significa que a implantação do sistema é fácil e não requer grandes mudanças arquitetônicas.

Utilizando o pool de memória do Emfasys, os proprietários de servidores de IA aumentam a eficiência, pois os recursos computacionais são melhor utilizados, a memória de GPU cara não é desperdiçada e os custos gerais de infraestrutura podem ser reduzidos.

Previsão de Disponibilidade

Créditos: Enfabrica.

O sistema Emfasys AI e o chip ACF SuperNIC de 3,2 Tb/s estão atualmente em fase de testes com clientes selecionados. Não está claro quando a disponibilidade geral está prevista, se é que haverá.

A disponibilidade, por hora, também depende dos resultados nos testes, mas o site da empresa permite que se possa tentar uma encomenda.

Da sua parte, a Enfabrica atua ativamente como membro consultivo do Consórcio Ultra Ethernet (UEC) e contribui para o Consórcio Ultra Accelerator Link (UALink), o que sugere que ela não deve simplesmente desaparecer do mapa.

Fonte: Enfabrica.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima