O Claude 3 Opus Large Language Model (LLM) da Anthropic superou o GPT-4 da OpenAI (o modelo por trás do ChatGPT) pela primeira vez no Chatbot Arena, uma plataforma popular onde os usuários avaliam o desempenho de chatbots. “O rei está morto”, escreveu o desenvolvedor de software Nick Dobos na rede social X.
Fonte da imagem: Anthropic See More
Os usuários do Chatbot Arena que visitam o site são solicitados a inserir uma consulta, após a qual são mostrados dois resultados de modelos de linguagem não especificados – a pessoa deve escolher qual resultado mais lhe agrada. Depois de fazer milhares de comparações, o Chatbot Arena preenche uma tabela de classificação atualizada. O site é administrado pela Large Model Systems Organization (LMSYS ORG), uma organização de pesquisa dedicada a modelos abertos de IA.
«Pela primeira vez, um modelo de IA que não é da OpenAI está no topo do ranking: Opus para tarefas complexas, Haiku para opções quando você precisa, baratas e rápidas. Isto é encorajador – todos se beneficiarão da competição entre desenvolvedores. No entanto, o GPT-4 já existe há mais de um ano e os concorrentes só agora o alcançaram”, comentou o pesquisador independente de IA Simon Willison sobre o evento.
Existem atualmente quatro versões do GPT-4 no ranking do Chatbot Arena, pois a saída do modelo muda a cada atualização e alguns usuários preferem versões específicas ou usam todas elas para obter resultados mais consistentes. O GPT-4 apareceu no Chatbot Arena em 10 de maio de 2023, uma semana após o lançamento do ranking e, desde então, várias versões do GPT-4 têm sido consistentemente classificadas no topo.
O Chatbot Arena é valorizado pelos pesquisadores de IA por sua capacidade de avaliar de forma mais ou menos objetiva a eficácia dos chatbots, o que não é fácil, e o fator chave aqui é o número de avaliações que se somam ao quadro geral. As avaliações subjetivas desempenham um papel significativo no campo da IA, onde o modelador pode selecionar métricas específicas para fins publicitários. “Recentemente, passei muito tempo programando com o modelo Claude 3 Opus AI, e ele esmagou totalmente o GPT-4”, escreveu o desenvolvedor de software de IA Anton Bacaj no X.
O sucesso do Claude 3 da Anthropic, que está correndo para o topo do ranking, já levou alguns usuários a migrarem do GPT-4 para ele. Enquanto isso, o Gemini Advanced do Google está ganhando popularidade. A posição da OpenAI foi abalada, mas a empresa não descansa sobre os louros e prepara novos modelos, incluindo o GPT-5.
A Logitech anunciou o Mobi Fold, um mouse dobrável projetado para uso em movimento. Ele…
A rede de comunicações via satélite Starlink possui tal cobertura e velocidades de transmissão de…
Os fãs do jogo de tiro online gratuito Destiny 2, da Bungie, empresa pertencente à…
Mustafa Suleyman, chefe de IA da Microsoft, classificou as tentativas da Anthropic de sugerir que…
O pequeno setor de aviação elétrica atraiu um número significativo de startups, e a japonesa…
Mais de dez anos após o lançamento da primeira versão do aplicativo Telegram para Apple…