O clássico jogo de plataforma Super Mario Bros. tornou-se um verdadeiro teste para a IA

A análise comparativa de modelos de IA é extremamente difícil, e seus criadores são frequentemente acusados ​​de preconceito, parcialidade e de dificultar a compreensão dos resultados dos testes por pessoas comuns. Então, em vez de focar em testes abstratos de matemática e lógica, os pesquisadores propuseram testar a IA usando o clássico jogo de plataforma Super Mario Bros. da Nintendo.

Fonte da imagem: Hao AI Lab

O experimento usou uma versão emulada do Super Mario Bros. que foi integrada a uma estrutura personalizada chamada GamingAgent de pesquisadores do Hao AI Lab da Universidade da Califórnia, em San Diego. Este sistema permitiu que modelos de IA controlassem Mario gerando código Python. Todos os modelos receberam as mesmas instruções básicas, como “Pule sobre este inimigo”, bem como visualizações do estado do jogo na forma de capturas de tela.

Embora do lado do Super Mario Bros., Embora pareça um simples jogo de plataforma 2D, pesquisadores descobriram que o clássico jogo da Nintendo desafia seriamente a IA a planejar sequências de movimentos complexas e adaptar estratégias de jogo rapidamente.

O melhor modelo para dominar Super Mario Bros. Os pesquisadores reconheceram Claude 3.7, da Anthropic, que demonstrou reflexos impressionantes, realizando saltos precisos e evitando inimigos com habilidade. Seu antecessor, o Claude 3.5, também teve um bom desempenho, enquanto o GPT-4o da OpenAI e o Gemini 1.5 Pro do Google ficaram atrás da concorrência.

Acontece que o pensamento lógico não é a chave para o sucesso em Super Mario Bros. — o momento certo é importante. Até mesmo um pequeno atraso pode enviar Mario de volta a um ponto de verificação anterior. Os pesquisadores sugerem que os modelos mais “conscientes” e racionais podem ter demorado muito para calcular seus próximos passos, levando a falhas frequentes.

É claro que usar jogos retrô para avaliar IA é, em grande parte, um experimento. Capacidade da IA ​​de vencer Super Mario Bros. não determina a extensão de sua real utilidade, embora seja sem dúvida fascinante assistir modelos treinados em bilhões de parâmetros competindo (e muitas vezes perdendo) com o que parece uma brincadeira de criança.

Para aqueles que desejam conduzir seu próprio experimento, o Hao AI Lab abriu o código-fonte do seu GamingAgent no GitHub.

avalanche

Postagens recentes

O “pai” da série Might & Magic, que não trabalhava em Heroes há mais de 20 anos, juntou-se à criação de Heroes of Might & Magic: Olden Era.

A Unfrozen, um estúdio cipriota com raízes russas, anunciou uma parceria especial para o aguardado…

1 hora atrás

A Tesla pretende combater a escassez de chips construindo a fábrica de semicondutores TeraFab, avaliada em bilhões de dólares.

O CEO da Tesla, Elon Musk, anunciou um projeto gigantesco, o TeraFab, para a fabricação…

2 horas atrás

A Kaspersky Lab revelou cenários de potenciais ameaças digitais do futuro.

Com a evolução dos sistemas digitais, surgem riscos que vão além das ciberameaças tradicionais. A…

2 horas atrás

A Nvidia leva os jogos em nuvem para o Linux com o lançamento de um aplicativo nativo do GeForce Now para Ubuntu.

No ano passado, a Nvidia atualizou seus sistemas de jogos em nuvem para GPUs RTX…

2 horas atrás

A Nvidia mentiu? Os preços da GeForce RTX 5070 Ti ultrapassam os US$ 1.000 nos EUA.

Rumores sobre a descontinuação da GeForce RTX 5070 Ti circulam desde o início deste ano,…

2 horas atrás

Somente para pessoas reais: OpenAI desenvolve uma rede social biométrica.

A OpenAI está desenvolvendo sua própria rede social que poderá exigir verificação biométrica para cadastro,…

3 horas atrás