Reddit bloqueia o Internet Archive para evitar o treinamento de IAs

Em uma decisão que deve se provar controversa, os administradores do Reddit decidiram bloquear o acesso que o Internet Archive tem às suas páginas. Com isso, publicações feitas na plataforma não vão mais poder ser indexadas no Wayback Machine, que é considerada uma “grande enciclopédia no passado da internet”.

Ao fazer capturas de tela frequentes de diversos sites, o serviço serve tanto como uma fonte de curiosidade quanto de pesquisa. No entanto, o Reddit também afirma que ele está sendo usado para permitir que bots de companhias de inteligência artificial coletem dados para a realização de treinamentos.

Foto: Divulgação/Internet Archive

A própria companhia já tomou diversas medidas para evitar que isso aconteça de forma direta, a não ser que companhias da área estejam dispostas a pagar por isso. No momento, o Google é a única grande empresa que fez um acordo com o famoso fórum para permitir a indexação em buscas e o treinamento de modelos de IA.

O Internet Archive oferece um serviço para a rede aberta, mas nos tornamos cientes de situações em que companhias de IA violam as políticas da plataforma, incluindo as nossas, e coletam dados da Wayback Machine”, explicou ao The Verge o porta-voz do Reddit, Tim Rathschmidt.

Registros do Reddit vão ser bastante limitados

Enquanto o Internet Archive vai ser banido de acessar a maior parte do Reddit, o Wayback Machine ainda vai poder fazer uma preservação superficial do site. A partir de agora, ele só vai poder capturar a página inicial, que mostra alguns dos tópicos e discussões mais populares entre os usuários

Os administradores da plataforma afirmam que estão dispostos a eliminar as restrições, mas somente sob condições específicas. O Internet Archive precisa tomar medidas para evitar que seus dados sejam vasculhados por bots de IA, bem como se comprometer a remover conteúdos que foram apagados do Reddit.

Reddit bloqueia o Internet Archive para evitar alimentar IAs
Foto: Divulgação/Internet Archive

A questão parece envolver muito mais dinheiro do que princípios, dado que a plataforma está disposta a permitir o registro de dados de seus usuários — contanto que empresas paguem por isso. No entanto, bots de treinamento também tem sido um problema pelo grande tráfico que geram, o que muitas vezes resulta em aumentos de custos de servidores.

As decisões do site de bloquear recursos externos é parte de uma história longa e já trouxe algumas polêmicas. Em 2023, a plataforma encerrou a distribuição da API da qual vários serviços dependiam, usando a mesma justificativa que embasa sua decisão de bloquear o acesso aos sistemas do Internet Archive.

Fonte: The Verge

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima