No início da década de 1980, meus pais trouxeram para casa um computador doméstico conectado à tela da TV. Isso me motivou a “brincar” de cientista. Eu tinha orgulho de publicar naquelas primeiras revistas de informática programas simples sobre como desenhar funções matemáticas, monitorar o código de máquina do microprocessador ou animações rudimentares e jogos de computador.
Tudo era publicado com uma explicação detalhada de como o trabalho era feito e o código-fonte completo do programa, para que qualquer pessoa pudesse facilmente copiá-lo, testá-lo, compreendê-lo, reproduzi-lo e modificá-lo para qualquer finalidade. Essa é a versão mais básica da ciência aberta, concebida como um empreendimento universal coletivo e cumulativo.
Os princípios da ciência aberta
Ciência aberta refere-se à prática de tornar todos os estágios do processo científico transparentes e acessíveis a outras pessoas. Isso inclui a publicação de artigos de pesquisa com seus dados, métodos detalhados, bases teóricas e práticas, experimentos, bem como quaisquer informações ou ferramentas necessárias para poder replicar a pesquisa.
Os objetivos são possibilitar a reprodutibilidade, promover a colaboração e facilitar a construção de conhecimento anterior para avançar o conhecimento. Isso é essencial para que a pesquisa científica tenha credibilidade, seja ética e acessível, e possa ser revisada, validada e desenvolvida.
E quanto à IA?
Como em qualquer disciplina, a ciência aberta em inteligência artificial é a única maneira de garantir a reprodutibilidade e a transparência e, portanto, seu avanço e uso públicos consistentes com princípios colaborativos e cumulativos e para o benefício da humanidade.
A grande maioria das pessoas envolvidas em pesquisas na área de ciência da computação acredita na publicação de seu progresso de acordo com esses princípios. O código-fonte aberto é um dos elementos importantes – mas não o único – de qualquer ferramenta de computação que queira promover o progresso científico.
Especialistas nessa área de conhecimento têm criado várias organizações sem fins lucrativos para definir com precisão em que consiste a pesquisa e o desenvolvimento em seu campo.
Por exemplo, em 1998, foi fundada a Open Source Initiative (OSI), e sua open source definition é o padrão internacional mais amplamente aceito.
Para que um programa seja considerado de código-fonte aberto, não basta fornecer acesso apenas ao programa compilado, mas também a todo o código-fonte. Lembre-se de que esse último, também chamado de linguagem de alto nível, é um programa escrito em uma linguagem de programação legível por humanos. Já o código compilado – ou linguagem de máquina – é uma tradução do código-fonte em um arquivo binário que um circuito eletrônico pode executar, mas que uma pessoa não consegue entender.
Outro requisito do código-fonte aberto é que ele deve permitir a modificação e a redistribuição sob esses mesmos termos e para todos os usos, inclusive comerciais.
O caso das empresas de tecnologia
Há muitas empresas que criam riqueza, beneficiam a sociedade e também se beneficiam da sociedade. Entretanto, poucas investem em pesquisa, a menos que acreditem que recuperarão o investimento.
É comum que empresas privadas de tecnologia se aproveitem de pesquisas públicas (pagas pelo contribuinte) e as utilizem para desenvolver produtos com os quais obtêm grandes lucros. A economista Mariana Mazzucato costuma descrever em detalhes um exemplo paradigmático: o caso do iPhone da Apple.
Com as empresas de inteligência artificial, essa realidade é ainda mais marcante. Pode ser natural basear seus produtos em ideias publicadas anteriormente e em pesquisas de terceiros, mas acontece que a maioria dos modelos de IA mais avançados são caixas pretas inatacáveis: sua lógica interna não é explicada, seu funcionamento e sua imparcialidade não são garantidos e o código-fonte não pode ser analisado.
Muitos dos produtos mais populares, como o ChatGPT ou o tradutor de última geração SeamlessM4T da Meta, acabam tendo esses recursos indesejáveis, embora sejam anunciados como itens de ciência aberta.
O DeepSeek também não é de código aberto
Alguns mais novos, como o DeepSeek, tentam superar a concorrência disponibilizando o código compilado, mas isso não é código-fonte aberto e não avança a pesquisa científica.
Ou seja, embora o DeepSeek se anuncie como “código-fonte aberto”, ele não permite o acesso ao código-fonte, mas somente ao código binário (compilado). Ele não pode ser lido, compreendido ou modificado. É por isso que ninguém pode melhorar esse programa. Só é possível usá-lo como cliente da empresa, não como pesquisador em ciência da computação.
Nesse contexto, a realidade é que a falta de transparência e de reprodutibilidade desses modelos de computador dificulta o progresso científico e corrói a confiança na pesquisa de IA.
O exemplo da Rosetta e do AlphaFold 3
David Baker, Demis Hassabis e John M. Jumper receberam o Prêmio Nobel de Química 2024 pela previsão da estrutura de proteínas. O software Rosetta nasceu no final do século XX como um pequeno projeto no laboratório de David Baker na principal universidade pública do Estado de Washington. O código-fonte foi escrito e distribuído na linguagem Fortran de alto nível – que qualquer especialista pode ler, entender e modificar – e se concentrava na previsão ab initio da estrutura de pequenas proteínas.
Com base nessas ideias e usando bancos de dados de proteínas publicados pela comunidade de pesquisa, o Google DeepMind desenvolveu uma poderosa análise de dados estatísticos usando seu código de IA AlphaFold e AlphaFold 2.
Em maio de 2024, a DeepMind apresentou seu modelo AlphaFold 3 por meio de um artigo na revista Nature, o que surpreendentemente permitiu que a DeepMind mantivesse o código do software indisponível, apesar de sua própria política editorial, que se concentra em “tornar materiais, dados, códigos e protocolos associados prontamente disponíveis aos leitores sem qualificação indevida”.
O AlphaFold também não é de código aberto
Mais de mil membros da comunidade científica especializados na área assinaram uma carta para a Nature porque o artigo “não atende aos padrões da comunidade científica de ser utilizável, dimensionável e transparente”.
Seis meses depois, a DeepMind disponibilizou o código sob uma licença restritiva da Creative Commons. Entretanto, seus termos não atendem à definição de “código aberto” da OSI. A DeepMind não publica os pesos (o resultado do treinamento de sua rede neural) do modelo. Para obtê-los, é preciso solicitá-los, e é a própria empresa que decide se vai fornecê-los ou não em cada caso. Sem eles, não é possível usar o AlphaFold 3 para prever a estrutura da proteína.
Ele também proíbe explicitamente o uso dos parâmetros ou resultados do modelo AlphaFold 3 para atividades comerciais, incluindo o treinamento de modelos biomoleculares semelhantes.
Essa abordagem tenta, em parte, satisfazer tanto as necessidades científicas quanto os interesses comerciais da empresa, mas deve ficar claro que esse não é um processo de ciência aberta. Um entrave para o avanço do conhecimento científico, que pertence a toda a humanidade.