NVIDIA é acusada de usar fontes ilegais para treinar suas IAs

Embora tenham diferenças entre si, modelos de inteligência artificial (IA) como Gemini, Claude e Chat-GPT trazem um elemento em comum: todos são treinados a partir de grandes bancos de dados. No caso das tecnologias da NVIDIA, isso não é diferente — e um processo afirma que a empresa recorreu a fontes ilegais para conseguir desenvolver seus modelos.

Um processo coletivo contra a corporação, iniciado em 2024, foi atualizado esta semana para incluir ligações com o site conhecido como ‘Anna’s Archive’. Ele é famoso por trazer ligações com depósitos online formados por diversos livros e documentos, todos obtidos sem a devida remuneração para seus criadores.

Segundo o processo, documentos internos da NVIDIA provam que a empresa pelo menos cogitou usar o Anna’s Archive no treinamento de seus grandes modelos de linguagem (LLM). Nas mensagens trocadas entre seu time, há o reconhecimento de que a decisão pode violar a lei, mas a organização estaria disposta a “encarar o risco”.

NVIDIA afirma que treinamento não violou direitos autorais

Embora seja conhecido como um depositório de livros pirateados, na prática o Anna’s Archive é um sistema de buscas que garante o acesso a conteúdos do tipo. Assim, a plataforma pode ser considerada como um “intermediário”, que garante acesso aos locais nos quais os arquivos ilegais são hospedados.

Em 2024, a NVIDIA afirmou que, mesmo se tivesse treinado suas LLMs a partir desses materiais, não estava violando as leis. Segundo a empresa, o processo de treinamento não pode ser equiparado a ter a posse de livros ilegais, pois ele envolve criar correlações entre um grande banco de dados, que são codificadas dentro dos parâmetros do modelo.

A NVIDIA argumenta que treinar LLMs faz parte do “uso justo” de informações. Imagem: Divulgação/NVIDIA

Em outras palavras, a companhia afirma que, mesmo que parte dos dados usados esteja ligada a livros pirateados, tudo cai dentro doutrina americana do “uso justo” (fair use). Esse tem sido o argumento que muitas empresas dedicadas à IA tem usado para justificar o uso de materiais jornalísticos e outros conteúdos da internet, sem remunerar os responsáveis por suas criações.

Além da NVIDIA, a Anthropic e a Meta enfrentaram acusações semelhantes nos tribunais, com resultados que não foram positivos. Um juiz determinou que, enquanto a Anthropic realmente pode se beneficiar do uso justo para treinar seus modelos, livros pirateados não são cobertos pela doutrina jurídica.

Fonte: PC Gamer

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima