Em uma decisão que deve se provar controversa, os administradores do Reddit decidiram bloquear o acesso que o Internet Archive tem às suas páginas. Com isso, publicações feitas na plataforma não vão mais poder ser indexadas no Wayback Machine, que é considerada uma “grande enciclopédia no passado da internet”.
Ao fazer capturas de tela frequentes de diversos sites, o serviço serve tanto como uma fonte de curiosidade quanto de pesquisa. No entanto, o Reddit também afirma que ele está sendo usado para permitir que bots de companhias de inteligência artificial coletem dados para a realização de treinamentos.
A própria companhia já tomou diversas medidas para evitar que isso aconteça de forma direta, a não ser que companhias da área estejam dispostas a pagar por isso. No momento, o Google é a única grande empresa que fez um acordo com o famoso fórum para permitir a indexação em buscas e o treinamento de modelos de IA.
“O Internet Archive oferece um serviço para a rede aberta, mas nos tornamos cientes de situações em que companhias de IA violam as políticas da plataforma, incluindo as nossas, e coletam dados da Wayback Machine”, explicou ao The Verge o porta-voz do Reddit, Tim Rathschmidt.
Registros do Reddit vão ser bastante limitados
Enquanto o Internet Archive vai ser banido de acessar a maior parte do Reddit, o Wayback Machine ainda vai poder fazer uma preservação superficial do site. A partir de agora, ele só vai poder capturar a página inicial, que mostra alguns dos tópicos e discussões mais populares entre os usuários
Os administradores da plataforma afirmam que estão dispostos a eliminar as restrições, mas somente sob condições específicas. O Internet Archive precisa tomar medidas para evitar que seus dados sejam vasculhados por bots de IA, bem como se comprometer a remover conteúdos que foram apagados do Reddit.

A questão parece envolver muito mais dinheiro do que princípios, dado que a plataforma está disposta a permitir o registro de dados de seus usuários — contanto que empresas paguem por isso. No entanto, bots de treinamento também tem sido um problema pelo grande tráfico que geram, o que muitas vezes resulta em aumentos de custos de servidores.
As decisões do site de bloquear recursos externos é parte de uma história longa e já trouxe algumas polêmicas. Em 2023, a plataforma encerrou a distribuição da API da qual vários serviços dependiam, usando a mesma justificativa que embasa sua decisão de bloquear o acesso aos sistemas do Internet Archive.
Fonte: The Verge