A empresa Yandex apresentou uma família de grandes modelos de linguagem da nova geração YandexGPT 3; Os usuários do Yandex Cloud já podem trabalhar com um deles – YandexGPT 3 Pro. É mais adequado para usuários corporativos porque lida com consultas complexas com mais eficiência e pode seguir um formato de resposta predefinido. Se necessário, você também pode treinar o YandexGPT 3. Num futuro próximo, redes neurais de nova geração aparecerão nos serviços Yandex para uma ampla gama de usuários.

Fonte da imagem: yandex.ru/company

YandexGPT 3 Pro demonstra sucesso particular nas áreas de suporte ao cliente, vendas online, comunicações digitais, publicidade e gestão de pessoal. Ela pode criar contratos, faturas, descrições de cargos, documentação regulatória e outras de forma independente. YandexGPT 3 Pro fez progressos significativos em comparação com YandexGPT 2: a nova rede neural processa instruções corretamente com diversas condições, suas respostas tornaram-se mais precisas e completas, seu trabalho com fatos é mais completo e a porcentagem de erros estilísticos diminuiu.

«Yandex usou vários testes para avaliar o desempenho do YandexGPT 3 Pro. Uma versão em russo do benchmark internacional MMLU foi desenvolvida – recebeu o nome de YaMMLU_ru. Para avaliar o desempenho do modelo de IA em tarefas como geração de ideias, sumarização de dados, classificação e geração de conteúdo, foi utilizada a metodologia de testes Side by Side (SBS). YandexGPT 3 em 69% dos casos deu melhores respostas às dúvidas dos usuários do que YandexGPT 2; em consultas de negócios, melhorou 60% das vezes.

A qualidade das respostas dentro de um determinado formato foi verificada usando um teste de língua russa baseado no benchmark IFEval: para YandexGPT 3 aumentou 10 pontos percentuais em comparação com YandexGPT 2 e a consistência dobrou – isso significa que o modelo de nova geração começou a melhor entender como responder a solicitações idênticas em conteúdo, mas diferentes em forma.

Por fim, o número de erros factuais no YandexGPT 3 diminuiu de 16,4% para 13,5%, e a parcela de informações não confirmadas caiu de 6,4% para 5%. O número de recusas de resposta aos pedidos diminuiu 5 vezes. Os desenvolvedores conduziram esses testes em consultas particularmente complexas que podem surgir em cenários da vida real.

avalanche

Postagens recentes

A Alibaba Cloud precisará de 10 vezes mais poder computacional do que em 2022, enquanto a Tencent aprendeu a se virar com menos.

Segundo Eddie Wu, CEO da Alibaba Cloud, a empresa planeja aumentar em dez vezes a…

2 horas atrás

Corrida, comércio e continuação da história: os desenvolvedores de Subnautica 2 revelam planos de melhoria para o jogo nos próximos meses.

Os desenvolvedores do estúdio americano Unknown Worlds Entertainment (de propriedade da Krafton) anunciaram planos para…

2 horas atrás

A Microsoft planeja eliminar a principal causa de erros de tela azul no Windows 11.

Na WinHEC 2026 (Windows Hardware Engineering Conference), a Microsoft apresentou sua Iniciativa de Qualidade de…

2 horas atrás

Cientistas criaram uma água-viva robótica sem bateria que nada mais rápido do que qualquer outro robô e pode curar pessoas por dentro.

O dispositivo, batizado de Robô Magnético Flexível Água-viva (J-MSR, na sigla em inglês), imita o…

2 horas atrás