GitHub vai treinar modelos de IA com dados dos usuários do Copilot e vai compartilhar com a Microsoft

O GitHub anunciou que usará dados de interação (por exemplo, entradas, saídas, trechos de código e contexto associado) dos usuários do GitHub CoPilot para treinar e aprimorar seus modelos de Inteligência Artificial.

A atualização começa a valer em 24 de abril e se aplica a todos os usuários do Copilot Free, Pro e Pro+, mas eles podem optar por não participarem. Para isso, é preciso acessar as Configurações da conta do GitHub, selecionar Copilot e escolher se deseja permitir que seus dados sejam usados para o treinamento de modelos de IA.

Usuários que já optaram por não permitir que o GitHub colete os dados de interação para melhorias de produto (ou seja, desativando a configuração chamada “Ativar ou desativar a coleta de prompts e sugestões”), essas preferências serão mantidas.

No caso de usuários do Copilot Business e do Copilot Enterprise, eles não serão afetados por esta atualização.

Notícias Relacionadas:

Afiliados…

Créditos: Wallpaper Safari.

É importante ressaltar para os participantes que não só o GitHub terá acesso aos dados de interação, mas também suas afiliadas. E isso inclui a Microsoft. As afiliadas poderão usar os dados “para fins adicionais, incluindo o desenvolvimento e aprimoramento de tecnologias de inteligência artificial e aprendizado de máquina”.

A plataforma afirma que essas permissões não se estendem a fornecedores terceirizados de modelos de IA ou outros provedores de serviços independentes. Porém, ela poderá contratar terceiros para “auxiliar no treinamento de modelos em nosso nome, sujeitos a obrigações contratuais de usar os dados apenas para fornecer serviços ao GitHub”.

Quais dados são fornecidos?3

A lista no anúncio do GitHub abrange dados de interação, incluindo:

Saídas aceitas ou modificadas pelo usuário
Entradas enviadas ao GitHub Copilot
Contexto do código em torno da posição do cursor
Comentários e documentação
Nomes de arquivos, estrutura do repositório e padrões de navegação
Interações com recursos do Copilot (bate-papo, sugestões embutidas, etc.)

O que não será incluído no treinamento do modelo são os dados de interação do Copilot Business, Copilot Enterprise ou repositórios de propriedade da empresa, e, nas palavras da plataforma, nem “conteúdo de suas issues, discussões ou repositórios privados em repouso”.

Esclarecendo sobre o “em repouso”, a plataforma esclarece que a atualização “processa código de repositórios privados quando você está usando o Copilot ativamente”.

Quando questionado sobre por quanto tempo os dados serão retidos e se os usuários podem visualizá-los ou excluí-los, o GitHub afirmou que a retenção varia de acordo com o caso de uso, observando que pode reter entradas, saídas, trechos de código e o contexto associado por até cinco anos, embora esse período seja geralmente mais curto.

Polêmica

O GitHub construiu seus modelos originais usando dados disponíveis publicamente e exemplos de código. No último ano, a plataforma afirma ter incorporado dados de interação de funcionários da Microsoft, o que resultou em melhorias, como o aumento das taxas de aceitação em várias linguagens.

Agora, a plataforma pretende obter ganhos semelhantes incorporando dados de interação do usuário em seu treinamento. Espera-se que a mudança ajude seus modelos a entender melhor os fluxos de trabalho de desenvolvimento, forneça sugestões de padrões de código mais precisas e seguras e detecte bugs precocemente.

Porém, nem todos estão convencidos de que a atualização beneficia todos os usuários igualmente. E a primeira queixa é que os usuários precisam optar por não participar, e não por participar.

Fonte: GitHub.

Conteúdo Relacionado

A tecnologia do amanhã?

Chips Arm podem dominar 90% dos servidores de IA até 2029, aponta relatório

GitHub vai treinar modelos de IA com dados dos usuários do Copilot e vai compartilhar com a Microsoft

Afiliados…

Quais dados são fornecidos?3

Polêmica

Deixe um comentário Cancelar resposta