Um bot que joga Minecraft tão bem quanto jogadores humanos de alto nível pode significar o novo marco da inteligência artificial. Seu diferencial é a técnica inovadora que permitiu treiná-lo com 70 mil horas de vídeo. Quem teve essa epifania foi a criadora do ChatGPT, OpenAI.
Treinar redes neurais —tecnologia por trás das inovações de IA que simula o cérebro humano— com vídeos exige muito trabalho. Cada ação representada na imagem precisa de uma descrição.
Por exemplo, um vídeo viral no Twitter de um homem cortando o pelo de um gato precisaria de dezenas anotações para cerca de dez segundos de imagem.
Publicada primeiro na revista especializada MIT Technology Review, a solução que os pesquisadores da OpenAI encontraram para esse problema foi alimentar uma rede neural com 2.000 horas de vídeo a partir do serviço de trabalhadores em plataformas de serviço temporário —eles foram contratados para jogar Minecraft e tiveram as ações em seus teclados e mouse e as imagens de tela gravadas.
Com esses dados, a primeira rede neural aprendeu a rotular vídeos de Minecraft com os comandos. Assim, pode tratar as 70 mil horas de vídeos que seriam usadas para treinar a segunda rede neural.
Treinar uma segunda rede neural foi necessária porque uma rede neural reagia a imagens posteriormente, enquanto a segunda foi treinada para agir a partir dos dados que captava no jogo, afirma Eric Aislan Antonelo, professor de engenharia de automação da UFSC (Universidade Federal de Santa Catarina).
Outro diferencial do modelo da OpenAI foi misturar duas técnicas: o aprendizado por imitação e o aprendizado por reforço.
A primeira consiste em fazer a inteligência artificial tentar imitar instruções e é chamada de aprendizado por imitação. Essa técnica já foi utilizada para treinar carros autônomos, braços robóticos autônomos e até atividades em computador.
Na segunda, os pesquisadores dão uma instrução complexa e a inteligência artificial tenta executá-la por tentativa e erro à exaustão. É assim que adversários automatizados em videogames de corrida ou futebol são treinados.
O primeiro treinamento, por imitação, fez o bot da OpenAI ser capaz de executar jogadas que requerem 970 ações em sequência, como construir tábuas e torná-las em uma mesa.
As técnicas do robô então foram refinadas com aprendizado por reforço, o que permitiu fazer sequências com mais de 20.000 comandos. Isso permitiu que a tecnologia construísse as chamadas ferramentas de diamante —que requerem 20 minutos de cliques em alta velocidade.
Segundo o professor da Unicamp Leonardo Tomazeli Duarte, diretor científico do BI0S (Brazilian Institute of Data Science), o primeiro treinamento por imitação permite restringir as possibilidade de erro e acerto no aprendizado por reforço. Isso permite melhores resultados em menos tempo.
Esse método cria a possibilidade de usar bases de dados imensas de vídeos como o Youtube para treinar diversos modelos de Inteligência Artificial. Os especialistas ouvidos pela reportagem citam soluções em automação de carros, saúde e agronegócio.
Embora o volume de dados disponível nessas fontes seja suficiente para o treinamento, antes de utilizá-los, é necessário incluir as anotações ou referências nestes dados. “Esta etapa, que é chamada de ‘rotulação dos dados’, é bastante trabalhosa e demanda, muitas vezes, especialistas para fazê-las, o que torna esse processo relativamente caro”, diz o professor de engenharia elétrica da Unicamp Denis Gustavo Fantinato.
Muito do trabalho humano foi reduzido com a estratégia de pré-treinamento da inteligência artificial da OpenAI.
Antonello, professor da UFSC, entretanto, aponta que ainda existem limitações técnicas para levar essas técnicas para além da fronteira das telas. Os pesquisadores da OpenAI conseguiram transformar os comandos de teclado e mouse em vários binários —informações de sim e não. Isso facilitou a cadeia de comandos.
“Quando vamos treinar um carro, por exemplo, as direções são variáveis contínuas, podem assumir vários valores. Isso torna a cadeia de comando mais complexa”, afirma o docente da UFSC, que testa maneiras de automatizar veículos, inclusive, com técnicas de aprendizado por imitação.
Por isso, as expectativas de que essa tecnologia seja utilizada para executar tarefas digitais, como preencher formulários ou planilhas são mais realistas do que esperar robôs humanoides treinados por tutoriais do Youtube.
Leia também: Anime Awards 2023, a 7º edição da premiação, confira alguns dos indicados