Arquivos da internet enfrentam crise após explosão no custo de HDDs e restrições contra bots

A crise de preços em componentes de memória causada pela corrida da IA generativa tem afetado os consumidores domésticos de mais maneiras do que se imagina a princípio. Além de produtos ficando mais caros, sistemas de preservação de arquivos da internet usados no mundo todo estão enfrentando problemas.

Serviços como o Internet Archive e a Wikipédia precisam de capacidade na ordem de centenas de petabytes para manter seus arquivos e artigos, e os preços de HDDs têm tornado proibitivo escalar o armazenamento.

Fonte: Internet Archive

O fundador do Internet Archive, Brewster Kahle, falou com o pessoal do 404 Media, informando que o serviço armazena mais ou menos 210PB em arquivos, com mais 100TB aparecendo a cada dia, principalmente por causa do Wayback Machine. Conseguir novos drives tem se tornado “um verdadeiro problema nos custando tempo e dinheiro”, declarou Brewster.

A mesma situação acontece com a Wikimedia Foundation, empresa por trás da Wikipédia. São mais de 65 milhões de artigos na enciclopédia digital, e um porta-voz da companhia explicou que a dificuldade em conseguir novos HDDs está atrapalhando até na entrega de servidores já encomendados e na possibilidade de compras futuras.

Captura de página da Wikipedia
Fonte: Unsplash

Dificuldades não aparecem apenas no hardware

Uma consequência menos óbvia da explosão da IA generativa está no bloqueio de bots que serviços de preservação como o Internet Archive usam para salvar páginas da internet.

Como se sabe, a IA generativa precisa de modelos grandes de linguagem (LLMs) para o seu treinamento. Muitos serviços conseguem isso usando bots para extrair grandes quantidades de informações da internet de uma vez só – muitas vezes um processo feito sem autorização e com legalidade discutível.

Leia mais:

Por causa disso, cada vez mais páginas na web passaram a bloquear robôs do tipo, barrando ao mesmo tempo os bots de serviços de preservação. O Internet Archive, inclusive, tem feito campanha em redes sociais para pressionar grandes jornais a desbloquearem suas páginas para o Wayback Machine.

Via: Tom’s Hardware

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima