Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Todas as IAs modernas falham em um novo teste complexo de inteligência geral — e os humanos não foram tão perfeitos

Um novo teste para avaliar a inteligência geral de modelos de inteligência artificial, chamado ARC-AGI-2, confundiu a maioria dos modelos de IA. De acordo com o ranking, modelos de raciocínio como o o1-pro da OpenAI e o R1 da DeepSeek pontuaram entre 1% e 1,3%. Modelos sem raciocínio lógico, incluindo GPT-4.5, Claude 3.7 Sonnet e Gemini 2.0 Flash, pontuaram menos de 1%.

Fonte da imagem: Pixabay

A Arc Prize Foundation, uma organização sem fins lucrativos cofundada pelo renomado pesquisador de IA François Chollet, anunciou em seu blog que criou um novo teste mais avançado para medir a inteligência geral dos principais modelos de IA.

O teste ARC-AGI-2 é uma série de quebra-cabeças em que a IA deve reconhecer padrões visuais analisando quadrados coloridos e, com base nisso, construir a continuação correta do padrão. O teste é projetado especificamente para que os modelos não possam confiar em experiências passadas e sejam forçados a se adaptar a novos desafios.

A Arc Prize Foundation também realizou testes com mais de 400 pessoas. Em média, os sujeitos do teste responderam corretamente a 60% das questões. Isso supera significativamente todas as IAs testadas, ao mesmo tempo em que destaca a lacuna entre as capacidades atuais da IA e a inteligência humana na resolução de problemas que exigem adaptação e compreensão de novos conceitos.

Chollet disse que o ARC-AGI-2 é uma medida mais precisa da inteligência real dos modelos de IA do que a versão anterior do teste, o ARC-AGI-1. Além disso, o ARC-AGI-2 elimina a possibilidade de resolver problemas pelo “método da força bruta”, ou seja, usando enorme poder computacional para tentar todas as opções possíveis, o que ocorreu no teste ARC-AGI-1 e foi reconhecido como uma séria desvantagem.

Para corrigir as imprecisões do primeiro teste, o ARC-AGI-2 introduziu uma métrica de desempenho que forçou a IA a interpretar padrões rapidamente, em vez de depender da memorização. O cofundador da Arc Prize Foundation, Greg Kamradt, observou que “inteligência não se refere apenas à capacidade de resolver problemas ou alcançar altos resultados, mas também à eficiência com que essas capacidades são adquiridas e implantadas”.

O ARC-AGI-1 permaneceu como a métrica líder por cerca de cinco anos até que a OpenAI lançou seu modelo de raciocínio avançado o3 em dezembro de 2024. Este modelo superou todos os outros modelos de IA e até mesmo igualou o desempenho humano nos testes ARC-AGI-1. Entretanto, como observado, essas conquistas foram alcançadas a um custo computacional significativo.

O desenvolvimento do novo teste ocorre em um momento em que crescem as preocupações no setor sobre a falta de critérios objetivos para avaliar a inteligência artificial. Em resposta, a Arc Prize Foundation anunciou a competição Arc Prize 2025, desafiando os desenvolvedores a atingir 85% de precisão no ARC-AGI-2 gastando não mais do que US$ 0,42 em esforço computacional por problema.

avalanche

Próximo AMD vendeu dez vezes mais Radeon RX 9070s do que o normal imediatamente após a estreia »

Anterior « Assassin's Creed Shadows tem o segundo melhor lançamento da história da série, e o Steam teve um "papel significativo" nisso

Deixar comentário

Publicado por

avalanche

1 ano atrás

Postagens recentes

Gráficos 3D

A Apple descobriu uma maneira de criar cenas 3D de forma rápida e eficiente usando inteligência artificial.

Cientistas da Apple desenvolveram uma tecnologia que melhora significativamente a eficiência da renderização de espaços…

31 minutos atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

Realme 16 5G: smartphone robusto com chip Dimensity 6400 Turbo e bateria de 7000 mAh anunciado.

A Realme lançou o Realme 16 5G, voltado para um público mais jovem. O novo…

31 minutos atrás

O mundo da robótica

A fabricante chinesa de robótica UBTech está disposta a pagar até US$ 18 milhões por ano a especialistas em IA.

Na indústria de software, a empresa americana Meta✴Platforms destacou-se recentemente pela generosidade em recrutar talentos…

31 minutos atrás

O mundo da robótica

Numerosos componentes chineses foram encontrados dentro de robôs humanoides americanos, incluindo o Tesla Optimus.

O boom da inteligência artificial impulsionou o segmento de robôs humanoides, e figuras de destaque…

43 minutos atrás

Jogos

A Nvidia demonstrou a tecnologia RTX Mega Geometry em The Witcher 4 — em uma RTX 5090, a demonstração técnica alcançou 80 fps em 4K com DLSS.

A Nvidia divulgou a gravação completa de sua apresentação na GDC 2026, mostrando a tecnologia…

1 hora atrás

Espaço

A espaçonave Orion, que transportava a tripulação da missão Artemis II, deixou a órbita da Terra na segunda-feira para um encontro com a Lua.

Pela primeira vez em mais de 50 anos, seres humanos deixaram a órbita da Terra…

2 horas atrás

Todas as IAs modernas falham em um novo teste complexo de inteligência geral — e os humanos não foram tão perfeitos

Conteúdo relacionado

Postagens recentes

A Apple descobriu uma maneira de criar cenas 3D de forma rápida e eficiente usando inteligência artificial.

Realme 16 5G: smartphone robusto com chip Dimensity 6400 Turbo e bateria de 7000 mAh anunciado.

A fabricante chinesa de robótica UBTech está disposta a pagar até US$ 18 milhões por ano a especialistas em IA.

Numerosos componentes chineses foram encontrados dentro de robôs humanoides americanos, incluindo o Tesla Optimus.

A Nvidia demonstrou a tecnologia RTX Mega Geometry em The Witcher 4 — em uma RTX 5090, a demonstração técnica alcançou 80 fps em 4K com DLSS.

A espaçonave Orion, que transportava a tripulação da missão Artemis II, deixou a órbita da Terra na segunda-feira para um encontro com a Lua.