Termos de uso de redes sociais estão silenciosamente mudando para que seus dados treinem IAs

27/06/2024

Quer se manter informado, ter acesso a mais de 60 colunistas e reportagens exclusivas?Assine o Estadão aqui!

Em julho passado, o Google fez uma alteração de oito palavras em sua política de privacidade que representou um passo significativo em sua corrida para construir a próxima geração de inteligência artificial (IA).

Com milhares de palavras enterradas em seu documento, o Google ajustou a fraseologia de como usava os dados para seus produtos, acrescentando que as informações públicas poderiam ser usadas para treinar seu chatbot de IA e outros serviços.

A mudança sutil não foi exclusiva do Google. À medida que as empresas procuram treinar seus modelos de IA em dados protegidos por leis de privacidade, elas estão reescrevendo cuidadosamente seus termos e condições para incluir palavras como “inteligência artificial”, “aprendizado de máquina” e “IA generativa”.

Algumas alterações nos termos de serviço são tão pequenas quanto algumas palavras. Outras incluem a adição de seções inteiras para explicar como os modelos de IA generativa funcionam e os tipos de acesso que eles têm aos dados do usuário. A Snap, por exemplo, alertou seus usuários para não compartilharem informações confidenciais com seu chatbot de IA, pois elas seriam usadas em seu treinamento, e a Meta alertou os usuários na Europa que as publicações públicas no Facebook e no Instagram seriam usadas em breve para treinar seu modelo de linguagem ampla.

termos de uso de redes sociais estão silenciosamente mudando para que seus dados treinem ias

Plataformas vem alterando suas políticas para utilizar dados de usuários para treinar IA Foto: Alice Labate/Estadão

Esses termos e condições, que muitas pessoas ignoraram por muito tempo, agora estão sendo contestados por alguns usuários que são escritores, ilustradores e artistas visuais e temem que seu trabalho esteja sendo usado para treinar os produtos que ameaçam substituí-los.

“Já estamos sendo destruídos à esquerda, à direita e ao centro por conteúdo inferior que é basicamente treinado em nosso material, e agora estamos sendo descartados”, disse Sasha Yanshin, personalidade do YouTube e cofundador de um site de recomendações de viagens.

Este mês, Yanshin cancelou sua assinatura da Adobe devido a uma alteração na política de privacidade da empresa. “A loja de ferragens que lhe vende um pincel não é dona da pintura que você faz com ele, certo?”, disse ele.

Para treinar a IA generativa, as empresas de tecnologia podem utilizar dois conjuntos de dados: públicos e privados. Os dados públicos estão disponíveis na web para qualquer pessoa ver, enquanto os dados privados incluem coisas como mensagens de texto, e-mails e publicações em mídias sociais feitas em contas privadas.

Os dados públicos são um recurso finito, e várias empresas estão a apenas alguns anos de usar todos eles em seus sistemas de IA. Mas gigantes da tecnologia, como Meta e Google, estão sentados em um tesouro de dados privados que pode ser 10 vezes maior do que sua contraparte pública, disse Tamay Besiroglu, diretor associado da Epoch, um instituto de pesquisa de IA.

Esses dados podem representar “uma vantagem substancial” na corrida da IA, disse Besiroglu. O problema é obter acesso a eles. Os dados privados são protegidos, em sua maioria, por uma colcha de retalhos de leis de privacidade federais e estaduais que dão aos usuários algum tipo de licença sobre o conteúdo que criam online, e as empresas não podem usá-los para seus próprios produtos sem consentimento.

OTHER NEWS

2 hrs ago

Leia também

OTHER NEWS