Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Claude 3 Opus derruba GPT-4 do primeiro lugar no ranking de modelos de linguagem

O Claude 3 Opus Large Language Model (LLM) da Anthropic superou o GPT-4 da OpenAI (o modelo por trás do ChatGPT) pela primeira vez no Chatbot Arena, uma plataforma popular onde os usuários avaliam o desempenho de chatbots. “O rei está morto”, escreveu o desenvolvedor de software Nick Dobos na rede social X.

Fonte da imagem: Anthropic See More

Os usuários do Chatbot Arena que visitam o site são solicitados a inserir uma consulta, após a qual são mostrados dois resultados de modelos de linguagem não especificados – a pessoa deve escolher qual resultado mais lhe agrada. Depois de fazer milhares de comparações, o Chatbot Arena preenche uma tabela de classificação atualizada. O site é administrado pela Large Model Systems Organization (LMSYS ORG), uma organização de pesquisa dedicada a modelos abertos de IA.

«Pela primeira vez, um modelo de IA que não é da OpenAI está no topo do ranking: Opus para tarefas complexas, Haiku para opções quando você precisa, baratas e rápidas. Isto é encorajador – todos se beneficiarão da competição entre desenvolvedores. No entanto, o GPT-4 já existe há mais de um ano e os concorrentes só agora o alcançaram”, comentou o pesquisador independente de IA Simon Willison sobre o evento.

Existem atualmente quatro versões do GPT-4 no ranking do Chatbot Arena, pois a saída do modelo muda a cada atualização e alguns usuários preferem versões específicas ou usam todas elas para obter resultados mais consistentes. O GPT-4 apareceu no Chatbot Arena em 10 de maio de 2023, uma semana após o lançamento do ranking e, desde então, várias versões do GPT-4 têm sido consistentemente classificadas no topo.

O Chatbot Arena é valorizado pelos pesquisadores de IA por sua capacidade de avaliar de forma mais ou menos objetiva a eficácia dos chatbots, o que não é fácil, e o fator chave aqui é o número de avaliações que se somam ao quadro geral. As avaliações subjetivas desempenham um papel significativo no campo da IA, onde o modelador pode selecionar métricas específicas para fins publicitários. “Recentemente, passei muito tempo programando com o modelo Claude 3 Opus AI, e ele esmagou totalmente o GPT-4”, escreveu o desenvolvedor de software de IA Anton Bacaj no X.

O sucesso do Claude 3 da Anthropic, que está correndo para o topo do ranking, já levou alguns usuários a migrarem do GPT-4 para ele. Enquanto isso, o Gemini Advanced do Google está ganhando popularidade. A posição da OpenAI foi abalada, mas a empresa não descansa sobre os louros e prepara novos modelos, incluindo o GPT-5.

avalanche

Próximo Os preços dos contratos para memória NAND aumentarão de 13 a 18% no segundo trimestre »

Anterior « A Colorful apresentou as placas CVN B650M Gaming Frozen e CVN B650 Gaming Frozen com suporte para Ryzen 8000G

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A Apple queria garantir o direito de comprar memória na China não apenas da CXMT, mas também da YMTC.

A direção da Apple não só discutiu recentemente a necessidade de aumentar os preços de…

32 minutos atrás

Os criadores de “Tempo de Perturbações” anunciaram o filme de ação e aventura “Zemsky Sobor: A Escolha Decisiva”, sobre um momento decisivo na história russa.

O anúncio feito pela Cyberia Nova em 1º de abril sobre uma reimaginação do RPG…

50 minutos atrás

Espaço

A NASA duvida que a Starliner da Boeing chegue a receber aprovação para voos tripulados.

O Gabinete do Inspetor-Geral da NASA enviou um relatório ao Programa de Voos Espaciais Tripulados…

1 hora atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

No próximo ano, a Apple atualizará sua linha de tablets iPad Pro e apresentará um novo MacBook Pro de nível básico.

O próximo ano marca o aniversário do iPhone, mas isso não significa que a Apple…

3 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

Elon Musk foi forçado a negar mais uma vez suas intenções de lançar um smartphone.

A julgar pelas atividades de Donald Trump, qualquer pessoa suficientemente conhecida e abastada neste mundo…

5 horas atrás

Consoles de jogos

A Microsoft ensinará o Xbox a converter discos de jogos em licenças digitais.

A Microsoft começou a testar o recurso Disc2Digital para converter jogos físicos licenciados para formato…

10 horas atrás