A empresa Yandex apresentou uma família de grandes modelos de linguagem da nova geração YandexGPT 3; Os usuários do Yandex Cloud já podem trabalhar com um deles – YandexGPT 3 Pro. É mais adequado para usuários corporativos porque lida com consultas complexas com mais eficiência e pode seguir um formato de resposta predefinido. Se necessário, você também pode treinar o YandexGPT 3. Num futuro próximo, redes neurais de nova geração aparecerão nos serviços Yandex para uma ampla gama de usuários.

Fonte da imagem: yandex.ru/company

YandexGPT 3 Pro demonstra sucesso particular nas áreas de suporte ao cliente, vendas online, comunicações digitais, publicidade e gestão de pessoal. Ela pode criar contratos, faturas, descrições de cargos, documentação regulatória e outras de forma independente. YandexGPT 3 Pro fez progressos significativos em comparação com YandexGPT 2: a nova rede neural processa instruções corretamente com diversas condições, suas respostas tornaram-se mais precisas e completas, seu trabalho com fatos é mais completo e a porcentagem de erros estilísticos diminuiu.

«Yandex usou vários testes para avaliar o desempenho do YandexGPT 3 Pro. Uma versão em russo do benchmark internacional MMLU foi desenvolvida – recebeu o nome de YaMMLU_ru. Para avaliar o desempenho do modelo de IA em tarefas como geração de ideias, sumarização de dados, classificação e geração de conteúdo, foi utilizada a metodologia de testes Side by Side (SBS). YandexGPT 3 em 69% dos casos deu melhores respostas às dúvidas dos usuários do que YandexGPT 2; em consultas de negócios, melhorou 60% das vezes.

A qualidade das respostas dentro de um determinado formato foi verificada usando um teste de língua russa baseado no benchmark IFEval: para YandexGPT 3 aumentou 10 pontos percentuais em comparação com YandexGPT 2 e a consistência dobrou – isso significa que o modelo de nova geração começou a melhor entender como responder a solicitações idênticas em conteúdo, mas diferentes em forma.

Por fim, o número de erros factuais no YandexGPT 3 diminuiu de 16,4% para 13,5%, e a parcela de informações não confirmadas caiu de 6,4% para 5%. O número de recusas de resposta aos pedidos diminuiu 5 vezes. Os desenvolvedores conduziram esses testes em consultas particularmente complexas que podem surgir em cenários da vida real.

avalanche

Postagens recentes

A BYD vai investir €2 bilhões em sua rede de carregamento na Europa e no Reino Unido.

A BYD planeja investir € 2 bilhões na construção de uma rede de estações de…

30 minutos atrás

Mercado de smartphones em declínio: a Samsung está se saindo melhor do que qualquer outra empresa na crise de memória.

Segundo analistas da TrendForce, 284 milhões de smartphones foram produzidos mundialmente no primeiro trimestre, representando…

56 minutos atrás

Astrônomos determinaram, pela primeira vez, os limites do berço estelar da Via Láctea.

Até recentemente, a extensão da região ativa de formação estelar em nossa galáxia, a Via…

56 minutos atrás

A Apple afirmou que tem o direito de remover da App Store aplicativos que não atraem usuários.

A Apple alertou os desenvolvedores de que nem todos os seus aplicativos poderão permanecer na…

56 minutos atrás

A Electronic Arts fez sua previsão sobre quem vencerá a Copa do Mundo da FIFA de 2026, repetindo o feito dos quatro vencedores anteriores.

Embora a Electronic Arts tenha perdido sua licença oficial para a Copa do Mundo da…

1 hora atrás

Apresentado o Logitech Mobi Fold: Mouse dobrável com rolagem por toque e carregamento rápido.

A Logitech anunciou o Mobi Fold, um mouse dobrável projetado para uso em movimento. Ele…

2 horas atrás