Recentemente, as redes sociais foram inundadas com imagens que parecem pertencer a um filme do Studio Ghibli. Selfies, fotos de família e até memes foram reimaginados com a paleta de tons pastéis suaves característica da empresa de animação japonesa fundada por Hayao Miyazaki.
Isso se seguiu à última atualização do ChatGPT, da OpenAI. A atualização melhorou significativamente os recursos de geração de imagens do ChatGPT, permitindo que os usuários criassem imagens convincentes no estilo do Studio Ghibli em poucos segundos. Ele tem sido extremamente popular – tanto que o sistema travou devido à grande demanda dos usuários.
Os sistemas de inteligência artificial (IA) generativa, como o ChatGPT, são mais bem compreendidos como “motores de estilo”. E o que estamos vendo agora é que esses sistemas oferecem aos usuários mais precisão e controle do que nunca.
Mas isso também está levantando questões totalmente novas sobre direitos autorais e propriedade criativa.
Como o novo ChatGPT cria imagens
Os programas de IA generativa funcionam produzindo resultados em resposta a solicitações do usuário, inclusive para criar uma imagem.
As gerações anteriores de geradores de imagens de IA usavam modelos de difusão. Esses modelos refinam gradualmente dados aleatórios e ruídos em uma imagem coerente. Mas a última atualização do ChatGPT usa o que é conhecido como “algoritmo autorregressivo”.
Esse algoritmo trata as imagens de forma mais semelhante à linguagem, dividindo-as em “tokens”. Assim como o ChatGPT prevê as palavras mais prováveis em uma frase, agora ele pode prever diferentes elementos visuais em uma imagem separadamente.
Essa tokenização permite que o algoritmo separe melhor determinados recursos de uma imagem – e sua relação com as palavras em um prompt. Como resultado, o ChatGPT pode criar imagens com mais precisão a partir de prompts precisos do usuário do que as gerações anteriores de geradores de imagens. Ele pode substituir ou alterar características específicas e, ao mesmo tempo, preservar o restante da imagem, além de melhorar o problema de longa data da geração de textos corretos em imagens.
Uma vantagem particularmente poderosa da geração de imagens dentro de um grande modelo de linguagem é a capacidade de aproveitar todo o conhecimento já codificado no sistema. Isso significa que os usuários não precisam descrever cada aspecto de uma imagem em detalhes minuciosos. Eles podem simplesmente se referir a conceitos como o Studio Ghibli e a IA entende a referência.
A recente tendência de geração de imagens de IA ao estilo Studio Ghibli começou com a própria OpenAI, antes de se espalhar entre os engenheiros de software do Vale do Silício e, depois, até mesmo entre governos e políticos – incluindo usos aparentemente improváveis, como a Casa Branca criando uma imagem giblificada de uma mulher chorando que está sendo deportada, ou o governo indiano promovendo a narrativa do primeiro-ministro Narendra Modi sobre uma “Nova Índia”.
Entendendo a IA como “motores de estilo”
Os sistemas de IA generativa não armazenam informações em nenhum sentido tradicional. Em vez disso, eles codificam fragmentos de texto, fatos ou imagens como padrões – ou “estilos” – em suas redes neurais.
Treinados com grandes quantidades de dados, os modelos de IA aprendem a reconhecer padrões em vários níveis. As camadas inferiores da rede podem capturar características básicas, como relações entre palavras ou texturas visuais. Camadas mais altas codificam conceitos ou elementos visuais mais complexos.
Isso significa que tudo – objetos, propriedades, gêneros de escrita, vozes profissionais – pode ser transformado em estilos. Quando a IA aprende sobre o trabalho de Miyazaki, ela não está armazenando imagens reais do Studio Ghibli (embora os geradores de imagens às vezes possam produzir imitações próximas das imagens de entrada). Em vez disso, está codificando a “Ghiblicidade” como um padrão matemático – um estilo que pode ser aplicado a novas imagens.
O mesmo acontece com bananas, gatos ou e-mails corporativos. A IA aprende o que é “bananidade”, “gaticidade” ou o “corporativês” – padrões que definem o que torna algo reconhecidamente uma banana, um gato ou uma comunicação profissional.
A codificação e a transferência de estilos têm sido há muito tempo um objetivo expresso na IA visual. Agora temos um gerador de imagens que consegue isso com escala e controle sem precedentes.
Essa abordagem abre possibilidades criativas extraordinárias tanto em textos quanto em imagens. Se tudo é um estilo, então esses estilos podem ser combinados e transferidos livremente. É por isso que nos referimos a esses sistemas como “motores de estilo”. Tente criar uma poltrona no estilo de um gato, ou no estilo élfico.
Controvérsia sobre direitos autorais
Embora a capacidade de trabalhar com estilos seja o que torna a IA generativa tão poderosa, ela também está no centro de uma crescente controvérsia. Para muitos artistas, há algo profundamente perturbador em ver suas abordagens artísticas distintas reduzidas a apenas mais um “estilo” que qualquer pessoa pode aplicar com um simples comando de texto.
Hayao Miyazaki não comentou publicamente a recente tendência de pessoas que usam o ChatGPT para gerar imagens em seu estilo de animação mundialmente famoso. Mas ele já criticou a IA anteriormente.
Tudo isso também levanta questões totalmente novas sobre direitos autorais e propriedade criativa.
Tradicionalmente, a lei de direitos autorais não protege estilos – apenas expressões específicas. Não é possível proteger os direitos autorais de um gênero musical como o “ska” ou de um movimento artístico como o “impressionismo”.
Essa limitação existe por um bom motivo. Se alguém pudesse monopolizar um estilo inteiro, isso sufocaria a expressão criativa de todos os outros.
Mas há uma diferença entre estilos gerais e estilos altamente característicos que se tornam quase sinônimos da identidade de alguém. Quando uma IA pode gerar um trabalho “no estilo de Greg Rutkowski” – um artista polonês cujo nome foi supostamente usado em mais de 93.000 prompts no gerador de imagens de IA Stable Diffusion – isso pode ameaçar tanto seu sustento quanto seu legado artístico.
Alguns artistas já tomaram medidas legais.
Em um caso apresentado no final de 2022, três artistas formaram um grupo para processar várias empresas de IA, argumentando que seus geradores de imagens foram treinados usando seus trabalhos originais sem permissão, e agora permitem que os usuários gerem trabalhos derivados imitando seus estilos característicos.
Como a tecnologia evolui mais rápido que a lei, está em andamento uma nova legislação para tentar equilibrar a inovação tecnológica com a proteção das identidades criativas dos artistas.
Seja qual for o resultado, esses debates destacam a natureza transformadora dos motores de estilo de IA e a necessidade de considerar tanto o potencial criativo inexplorado quanto a proteção de estilos artísticos característicos.