Ao escrever este artigo, a OpenAI está no meio de um grande batalha legal. Uma empresa na Califórnia está alegando que a OpenAI violou a privacidade de seus usuários enquanto treinava seu chatbot ChatGPT. Por causa dessa alegação e da quantidade de dados que a empresa coletou para seu chatbot, isso pode ter algumas implicações importantes para a OpenAI e outras empresas de IA. A questão é: a OpenAI está errada nesta situação?
Qual é o caso?
Depois de ver do que se trata este caso, é fácil entender o gravidade da situação. Agora, a IA é como um cérebro humano; ele precisa ser treinado. Ele precisa ser ensinado. As empresas alimentam toneladas de dados em seus LLMs (Large Language Models) para que possam aprender. Quanto mais os LLMs souberem, mais úteis eles podem ser. O Google é uma das principais empresas de IA porque tem acesso a um bilhão de toneladas de dados por meio da pesquisa do Google, Android etc.
No caso do ChatGPT, ele também usa um LLM que precisa ser treinado ; e a empresa o treinou usando uma tonelada de dados. O problema está em alguns dos lugares onde obteve essas informações. A empresa usou uma infinidade de dados da internet. Isso inclui um monte de dados que as pessoas carregaram sem dar consentimento para serem usados por um chatbot de IA.
Estamos falando de artigos, postagens em blogs, contos, roteiros, poemas, postagens em redes sociais, etc. A lista é infinita. Como o conhecimento do ChatGPT é tão antigo, não há como dizer quantos dados das pessoas foram usados para treinar o ChatGPT. O processo diz que esta informação foi obtida sem o consentimento do postador original.
É por isso que OpenAI está em apuros. A escala absoluta de informações que o OpenAI alimentou no ChatGPT é gigantesca. Se o tribunal considerar que a empresa é culpada, isso pode significar más notícias para a IA em geral.
Então, a OpenAI está errada?
É o oeste selvagem lá fora para IA, já que os legisladores ainda estão descobrindo como regulá-la. Enquanto eles estão lutando com a legalidade da IA, os Joes comuns estão lidando com a moralidade dela. A OpenAI está errada por usar tantos dados para treinar o ChatGPT?
Pode-se argumentar que sim.
Grande parte desse argumento vem da controvérsia com a arte gerada pela IA. Há um protesto contínuo contra essa tecnologia porque ela dá às pessoas a capacidade de criar imagens instantaneamente com nada além de palavras. Assim como no ChatGPT, os geradores de imagens AI precisam ser alimentados com imagens de arte de artistas humanos. Muitos artistas humanos não querem que sua arte seja usada para treinar esses bots de imagem.
Bem, pense nas pessoas que têm seu conteúdo escrito usado para treinar o ChatGPT. Assim como os geradores de imagens podem acabar com os artistas, os chatbots também podem acabar com os escritores. Os chatbots podem gerar artigos, histórias curtas, scripts, postagens de blog etc. em questão de segundos. Por que contratar e pagar um redator humano quando você pode apenas gerar seu conteúdo? Compreensivelmente, escritores humanos que passaram anos desenvolvendo seu ofício não gostariam que seu conteúdo fosse usado para treinar a mesma máquina que poderia colocá-los fora de seu trabalho.
Essas são pessoas que precisam colocar seu trabalho lá fora para ganhar a vida. Jornalistas publicam seus artigos em sites públicos, escritores fazem postagens em blogs para sites públicos de empresas etc. Eles fazem isso para compartilhar seu ofício com os leitores e, com sorte, inspirar outros escritores. Eles não assinaram para ter seu trabalho raspado e usado para treinar chatbots de IA.
Outros podem argumentar que não
Há dois lados nesse argumento. Quando artistas, escritores e músicos publicam seus trabalhos online, eles correm o risco de usá-los para outros fins. Não é muito diferente de ter seu conteúdo roubado e plagiado. Os criadores divulgam seu conteúdo com a compreensão de que ele pode ser retirado e usado para outros fins.
A conversa fica ainda mais complicada se o conteúdo não estiver protegido por direitos autorais. Se o seu conteúdo estiver disponível gratuitamente na Internet para qualquer um, então a OpenAI pode ter o direito de usá-lo para treinar o ChatGPT.
Se a OpenAI perder o caso, pode ser uma coisa boa
Aqueles de vocês que usam o ChatGPT para escrever seus ensaios e outros provavelmente torcem para que o OpenAI ganhe o caso. No entanto, se a empresa perder o caso, pode não ser a pior coisa. Claro, a OpenAI enfrentará uma perda financeira, o que não é bom para a empresa. No entanto, se o tribunal vencer este caso, isso pode ajudar a impulsionar a regulamentação da IA.
Como afirmado anteriormente, é o oeste selvagem para a regulamentação da IA. Os legisladores estão lutando para controlar o desenvolvimento da IA e garantir que ela não tenha efeitos negativos. O direito das pessoas ao seu conteúdo nunca esteve tão em risco, pois geradores de imagens de IA e chatbots de IA estão surgindo em todo o lugar. O conteúdo de toda a Internet está sendo coletado e usado para esses LLMs, e não há como interromper isso.
Se a OpenAI perder este caso, ela trará esse problema para o primeiro plano. Isso fará com que as pessoas falem sobre como esses LLMs estão obtendo suas informações. As pessoas estão chorando para que a IA seja regulada neste momento. Está fazendo com que as pessoas percam seus empregos. Os criadores independentes estão sendo superados por pessoas sem talento que geram conteúdo e o comercializam. Alguém pode facilmente criar uma “música” gerada por IA e comercializá-la no Spotify. Imagine lançar um álbum inteiro em um dia ou uma semana e obter renda com isso.
O mesmo vale para “artistas” e “autores” de IA. Já pode ser tarde demais para a maioria das pessoas. Ainda estamos aprendendo o potencial da tecnologia de IA generativa; isso inclui o potencial para o mal.
Só o tempo dirá
Neste momento, ainda estamos esperando os resultados do caso, então é difícil dizer o que vai acontecer. Precisamos esperar e ver como esse caso se desenvolve para saber o futuro da tecnologia. Um caso como esse definitivamente pode ter algumas ramificações importantes para a IA.