Ad image

Os pioneiros que ensinaram máquinas a aprender e moldaram o futuro da Inteligência Artificial

9 Leitura mínima
Os pioneiros que ensinaram máquinas a aprender e moldaram o futuro da Inteligência Artificial

Quando pensamos em grandes marcos da história, nomes como Marie Curie, Albert Einstein ou Alan Turing imediatamente vêm à mente. Mas, e se eu disser que duas figuras menos conhecidas do grande público estão por trás de alguns dos avanços mais impressionantes da Inteligência Artificial (IA) e com enorme impacto no planeta, você saberia apontá-los?

Os nomes de Andrew Barto e Richard Sutton não são tão conhecidos do grande público, mas receberam, neste ano, o Prêmio Turing, (do inglês, Turing Award), o “Nobel da Computação”, por pavimentarem o caminho revolucionário para diversos campos, incluindo robôs, veículos autônomos e ferramentas de IA como o ChatGPT.

O campo que se dedicaram é o do aprendizado por reforço (do inglês, reinforcement learning, RL), uma área da IA que ensina máquinas a aprenderem com a própria experiência. O aprendizado por reforço é uma das áreas mais influentes da IA moderna. E o reconhecimento à dupla destaca não apenas a importância técnica do trabalho desenvolvido por eles, mas também o impacto duradouro em aplicações práticas que moldam o mundo atual e moldarão o futuro.

Richard Sutton e Andrew Barto, cientistas que ganharam o mais recente Prêmio Turing, por desenvolverem o aprendizado por reforço, uma área da IA que ensina máquinas a aprenderem com a própria experiência. Fonte: Divulgação da premiação.

As trajetórias de Barto e Sutton

O professor emérito da Universidade de Massachusetts Amherst, Andrew Barto, e o professor na Universidade de Alberta, Richard Sutton, iniciaram sua colaboração no final da década de 1970. Entre muitos trabalhos de pesquisa, estabeleceram as bases teóricas e algorítmicas do aprendizado por reforço, desenvolvendo métodos como o aprendizado por diferença temporal (temporal difference learning) e os métodos de gradiente de política (policy-gradient methods). Essas abordagens permitiram que agentes computacionais aprendessem a tomar decisões sequenciais com base em recompensas e punições, de maneira semelhante ao aprendizado observado em humanos e animais.

O aprendizado por reforço tem se consolidado como uma das abordagens mais promissoras da IA, permitindo que agentes aprendam comportamentos ótimos por meio de interações com o ambiente. Em aprendizado por reforço, os agentes são treinados com base em um mecanismo de recompensas e punições. O agente recebe uma recompensa por ações corretas e é punido por ações incorretas. Com isso, o agente busca minimizar os erros e maximizar as decisões corretas. Para dar uma dimensão de impacto, seguem exemplos das principais aplicações práticas do aprendizado por reforço que estão moldando diversos setores da sociedade.

Google DeepMind

O AlphaGo e o AlphaZero, desenvolvidos pela Google DeepMind, representam marcos históricos no avanço da IA ao demonstrar, na prática, o poder do aprendizado por reforço combinado com redes neurais profundas.

O AlphaGo foi o primeiro sistema de IA a derrotar um campeão mundial no jogo de Go, um feito anteriormente considerado inatingível devido à complexidade combinatória do jogo. Já o AlphaZero foi além, aprendendo a jogar xadrez, shogi e Go do zero, apenas com as regras, superando os melhores programas especializados em poucos dias de treinamento.

Esses sistemas não apenas superaram o desempenho humano, mas também descobriram estratégias inovadoras que surpreenderam até os especialistas. O impacto foi profundo: mostrou que a IA pode dominar tarefas altamente complexas sem supervisão humana direta, inaugurando uma nova era de sistemas autônomos capazes de aprender e tomar decisões em domínios vastos e não estruturados.

Veículos autônomos

A Tesla, Wayve, e a Aurora (antiga Uber ATG) também utilizam aprendizado por reforço em diferentes graus para treinar veículos autônomos a tomarem decisões seguras e eficientes em ambientes complexos.

A Wayve adota uma abordagem end-to-end baseada em aprendizado por reforço, permitindo que seus carros aprendam diretamente com a experiência de direção, sem depender de regras codificadas ou mapas detalhados.

Já a Tesla utiliza sistemas baseados em aprendizado por reforço para aperfeiçoar comportamentos como mudanças de faixa ou navegação em cruzamentos.

Em uma outra vertente, a Aurora usa aprendizado por reforço, incluindo aprendizado por reforço inverso (Inverse Reinforcement Learning, IRL) e aprendizado por reforço com base no feedback humano (Reinforcement Learning from Human Feedback, RLHF), para treinar seu sistema de direção autônoma a tomar decisões seguras e semelhantes às humanas.

Esses sistemas combinam aprendizado adaptativo com regras de segurança explícitas para garantir comportamento confiável em situações complexas. Podemos dizer que o aprendizado por reforço tem se mostrado promissor em tarefas como controle fino, planejamento local e negociação de prioridade, oferecendo uma alternativa poderosa à programação manual em sistemas de direção autônoma.

Robôs industriais

A Boston Dynamics e o projeto Dactyl da OpenAI são exemplos que também demonstram o uso avançado de aprendizado por reforço na robótica industrial. A Boston Dynamics aplica aprendizado por reforço para treinar robôs como o Atlas e o Spot a realizarem tarefas complexas, como locomoção em terrenos irregulares, manobras de equilíbrio e manipulação de objetos, ajustando seus movimentos com base no feedback do ambiente.

Versão de 2013 do robô Atlas. Fonte: Wikimedia., CC BY

Já o Dactyl, da OpenAI, utilizou aprendizado por reforço para treinar uma mão robótica a manipular objetos com alta destreza — incluindo resolver um cubo mágico — apenas com visão e sensores táteis, aprendendo políticas robustas em simulação e transferindo-as com sucesso para o mundo real.

Esses exemplos mostram como o aprendizado por reforço permite que robôs adquiram habilidades adaptativas e generalizáveis, superando os limites da programação tradicional em ambientes dinâmicos e não estruturados.

Modelos de linguagem em larga escala

O ChatGPT é um desses modelos de linguagem de grande escala. Por trás de sua funcionalidade também está a tecnologia conhecida como aprendizado por reforço com base no feedback humano, que visa alinhar as respostas do modelo com preferências humanas.

Neste modelo, após o pré-treinamento com grandes quantidades de texto e um ajuste fino supervisionado, os modelos passam por uma fase em que geram múltiplas respostas a uma mesma pergunta, e avaliadores humanos classificam essas respostas com base em critérios como utilidade, clareza e segurança.

Um modelo de recompensa é então treinado com essas classificações e usado em um algoritmo de aprendizado por reforço, geralmente Proximal Policy Optimization (PPO) para ajustar o modelo principal. Esse processo permite que o modelo de linguagem de grande escala aprenda a preferir respostas mais úteis e socialmente apropriadas, aprimorando sua performance em tarefas interativas e abertas.

Marginais transformadores

Concedido anualmente pela Association for Computing Machinery (ACM), o Prêmio Turing homenageia o matemático e pioneiro da computação, Alan Turing, conhecido por seu trabalho fundamental sobre IA, Teoria da Computação e decifração de códigos durante a Segunda Guerra Mundial.

A concessão desse prêmio a Andrew Barto e Richard Sutton não apenas reconhece suas contribuições técnicas excepcionais, mas também ressalta a importância de pesquisas fundamentais que, embora inicialmente possam ter parecido marginais, têm o potencial de transformar profundamente a tecnologia e a sociedade. O trabalho em aprendizado por reforço continua a influenciar e impulsionar a IA, demonstrando que a combinação de rigor acadêmico, visão interdisciplinar e compromisso com a ética é essencial para o avanço responsável da tecnologia.

Compartilhe este artigo
Sair da versão mobile