GPU NVIDIA V100 de 8 anos vira fenômeno da IA após cair para US$ 100

A NVIDIA V100, GPU de Data Center lançada em 2017 por mais de US$ 10 mil, virou um dos achados mais cobiçados do mercado de IA local após despencar para US$ 100 (cerca de R$ 495) no eBay.

O achado foi exposto pelo creator Hardware Haven, que adaptou a placa para um PC convencional e demonstrou em vídeo que a relíquia de 8 anos supera concorrentes muito mais novas como a GeForce RTX 3060 e a Radeon RX 7800 XT na geração de tokens em modelos LLM.

O experimento ganhou atenção da imprensa internacional na sexta, pois o custo total do setup, somando adaptador SXM2 para PCIe, ventoinha Noctua e duto impresso em 3D, ficou em torno de apenas US$ 235 (perto de R$ 1.163 na cotação atual).

Volta foi a primeira família com Tensor Core da NVIDIA

A V100 sem dúvidas foi marcante… Anunciada na GTC 2017, a placa estreou a arquitetura Volta e foi a primeira a embarcar os Tensor Cores, blocos especializados em operações matriciais que pavimentaram o caminho de toda a corrida atual de IA generativa.

Volta também foi a primeira geração da empresa criada exclusivamente para Data Center, sem variante para o gamer comum, conforme anunciado pela própria NVIDIA na época.

E sim, a placa nasceu cara. O preço de tabela inicial passava de US$ 10 mil, algo próximo de R$ 49,5 mil em conversão direta atual, e o pacote DGX-1 com oito unidades custava US$ 150 mil.

A V100 dominou supercomputadores e laboratórios de deep learning até a chegada da geração Ampere (A100) e, depois, da Hopper (H100), atual base dos clusters de IA da NVIDIA.

Hardware Haven encaixou SXM2 em PCIe com adaptador chinês

O problema da V100 para uso doméstico está no formato dela. A versão SXM2 testada não é uma placa PCIe convencional.

Em vez disso, usa um conector mezzanine, padrão de servidor que monta o módulo plano contra uma baseboard especializada, similar a um soquete de CPU. Nenhuma placa-mãe consumer suporta SXM2 nativamente.

Reprodução/Hardware Heaven

O criador resolveu a barreira com um adaptador SXM2 para PCIe vendido por cerca de US$ 100 em marketplaces como eBay e AliExpress. O PCB traz dois conectores de 8 pinos PCIe para alimentação dedicada e três headers PWM de 4 pinos para ventoinhas. O adaptador permite encaixar a V100 em uma motherboard ATX comum, com slot PCIe x16.

A segunda barreira foi o resfriamento. A V100 SXM2 vem com heatsink passivo, dependente do fluxo de ar de gabinetes rack. Hardware Haven imprimiu em 3D um duto próprio, gastando aproximadamente US$ 1,30 em filamento, e instalou uma ventoinha Noctua de 80 mm para forçar o fluxo direto sobre o dissipador.

Resultados em LLMs: V100 dispara contra RTX 3060 e RX 7800 XT

Os benchmarks rodaram em modelos locais via Ollama e openwebui. O primeiro teste usou o GPT-oss com 20 bilhões de parâmetros. A V100 entregou cerca de 130 tokens por segundo, contra 90 tokens por segundo da Radeon RX 7800 XT 16GB em uma máquina com Ryzen 9 9900X.

O segundo teste, com o modelo Gemma 4 E4B, comparou diretamente V100 e RTX 3060 12 GB. A V100 marcou 108 tokens/s, enquanto a placa Ampere ficou em 76 tokens/s.

A diferença de 42% veio acompanhada de consumo maior (293W vs 235W na RTX 3060), mas a eficiência em tokens por watt ainda ficou 12% melhor no lado da V100.

“Não é a placa mais nova, datada de 2017, mas isso não significa que ela não rode os modelos abertos atuais. Depois de imprimir um duto em 3D para evitar superaquecimento, a V100 enfrentou uma RTX 3060 12 GB e entregou mais tokens por segundo, com leve vantagem em eficiência.”

Hackaday

O resumo dos números nos dois testes principais ficou assim:

Teste GPU Tokens/s Consumo Eficiência (tok/s/W)
GPT-oss 20B (Ollama) V100 16GB ~130 n/d n/d
GPT-oss 20B (Ollama) RX 7800 XT 16GB ~90 n/d n/d
Gemma 4 E4B V100 16GB 108 293 W 0,37
Gemma 4 E4B RTX 3060 12GB 76 235 W 0,33
Gemma 4 E4B (PL 100W) V100 16GB 95 170 W na tomada 0,55
Gemma 4 E4B (PL 100W) RTX 3060 12GB 68 171 W na tomada 0,39

Eficiência energética surpreende com power limit

A configuração mais reveladora veio com limite de potência. Hardware Haven aplicou power limit de 100W em ambas as GPUs e repetiu o teste do Gemma 4 E4B.

A V100 manteve 95 tokens/s com consumo total da máquina em 170W na tomada. A RTX 3060 caiu para 68 tokens/s consumindo 171W. A vantagem de 41% em tokens por watt favoreceu a placa antiga, apesar do gap geracional.

O resultado contradiz a percepção comum de que GPUs novas são automaticamente mais eficientes em IA. Em workloads memory-bound como inferência de LLM, a largura de banda HBM2 da V100 (cerca de 898 GB/s) supera a GDDR6 da RTX 3060 (cerca de 360 GB/s), compensando o gap geracional de eficiência energética.

Especificações originais que sustentam o desempenho

A V100 SXM2 traz números que continuam respeitáveis quase uma década depois. A ficha técnica original está resumida abaixo:

Especificação NVIDIA Tesla V100 SXM2 16GB
Arquitetura Volta (GV100)
Processo TSMC 12 nm FinFET
CUDA Cores 5.120
Tensor Cores 640
Clock máximo 1.530 MHz
Memória 16 GB HBM2
Barramento 4.096-bit
Bandwidth 898 GB/s
L2 Cache 6 MB
TDP 250 W
Preço original (2017) acima de US$ 10.000
Preço atual (eBay) cerca de US$ 100 (16 GB)

A variante de 32 GB ainda custa entre US$ 400 e US$ 500 no mercado de segunda mão, valor que limita a vantagem de custo mas adiciona memória para rodar modelos maiores, como os que exigem 24 GB ou mais de VRAM.

Pegadinhas técnicas que travam o entusiasta

O barato pode sair caro se você ignorar três limitações importantes.:

  1. A V100 SXM2 não tem saída de vídeo. A placa exige um chip gráfico secundário, seja uma iGPU no processador, seja uma GPU dedicada extra apenas para imagem. Sem isso, o PC não inicializa em modo gráfico.
  2. O consumo em idle (repouso) é alto, cerca de 45 W medidos na tomada, contra 35 W de uma máquina equivalente com RTX 3060. Em uso 24/7, a diferença pesa na conta de energia.
  3. O driver da V100 está em modo legacy support na NVIDIA. Versões mais recentes do CUDA podem deixar de suportar a placa quando frameworks como PyTorch ou TensorFlow exigirem ABIs novas. A vida útil do equipamento para workloads de IA, portanto, tem prazo de validade no longo prazo.

A vantagem em precisão FP64 da V100, segundo apontou um comentarista no fórum do Tom’s Hardware, ainda é difícil de igualar com hardware de consumo. A placa mantém 7 TFLOPs em FP64, número que GPUs gamer modernas (incluindo a RTX 5090) não chegam perto.

Reprodução/eBay

Leia também:

Para quem a V100 vira boa compra

A montagem do Hardware Haven não substitui uma GPU comprada para games ou para uma estação de trabalho convencional. Quem busca rodar Cyberpunk 2077 com Path Tracing ativo precisa de uma placa GeForce moderna, com saída de vídeo, drivers atuais e suporte a Ray Tracing de hardware. A V100 não atende a esse perfil.

A história muda para quem quer um nó dedicado a inferência local de LLMs. Para um servidor caseiro de Ollama, LM Studio ou similar, a relação tokens por dólar investido fica difícil de bater.

O conjunto V100 + adaptador + ventoinha custa cerca de R$ 1.160 e supera uma RTX 3060 12 GB que ainda custa entre R$ 1.500 e R$ 2.000 no varejo brasileiro.

Reprodução/Hardware Heaven

Hardware Haven sinalizou que pretende seguir com mais testes da V100 em diferentes modelos, incluindo a variante de 32 GB. O Hackaday acrescenta a ressalva final: o preço de US$ 100 só sobrevive enquanto o mercado entusiasta não absorver as unidades disponíveis.

Quando a arbitragem cair, o atalho fecha.

Fonte(s): Hardware Haven no YouTube, Hackaday , Tom’s Hardware, VideoCardz e WCCFTech

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima