A empresa Yandex apresentou uma família de grandes modelos de linguagem da nova geração YandexGPT 3; Os usuários do Yandex Cloud já podem trabalhar com um deles – YandexGPT 3 Pro. É mais adequado para usuários corporativos porque lida com consultas complexas com mais eficiência e pode seguir um formato de resposta predefinido. Se necessário, você também pode treinar o YandexGPT 3. Num futuro próximo, redes neurais de nova geração aparecerão nos serviços Yandex para uma ampla gama de usuários.

Fonte da imagem: yandex.ru/company

YandexGPT 3 Pro demonstra sucesso particular nas áreas de suporte ao cliente, vendas online, comunicações digitais, publicidade e gestão de pessoal. Ela pode criar contratos, faturas, descrições de cargos, documentação regulatória e outras de forma independente. YandexGPT 3 Pro fez progressos significativos em comparação com YandexGPT 2: a nova rede neural processa instruções corretamente com diversas condições, suas respostas tornaram-se mais precisas e completas, seu trabalho com fatos é mais completo e a porcentagem de erros estilísticos diminuiu.

«Yandex usou vários testes para avaliar o desempenho do YandexGPT 3 Pro. Uma versão em russo do benchmark internacional MMLU foi desenvolvida – recebeu o nome de YaMMLU_ru. Para avaliar o desempenho do modelo de IA em tarefas como geração de ideias, sumarização de dados, classificação e geração de conteúdo, foi utilizada a metodologia de testes Side by Side (SBS). YandexGPT 3 em 69% dos casos deu melhores respostas às dúvidas dos usuários do que YandexGPT 2; em consultas de negócios, melhorou 60% das vezes.

A qualidade das respostas dentro de um determinado formato foi verificada usando um teste de língua russa baseado no benchmark IFEval: para YandexGPT 3 aumentou 10 pontos percentuais em comparação com YandexGPT 2 e a consistência dobrou – isso significa que o modelo de nova geração começou a melhor entender como responder a solicitações idênticas em conteúdo, mas diferentes em forma.

Por fim, o número de erros factuais no YandexGPT 3 diminuiu de 16,4% para 13,5%, e a parcela de informações não confirmadas caiu de 6,4% para 5%. O número de recusas de resposta aos pedidos diminuiu 5 vezes. Os desenvolvedores conduziram esses testes em consultas particularmente complexas que podem surgir em cenários da vida real.

avalanche

Postagens recentes

Uma inteligência artificial desafiou cientistas ao escrever um artigo para uma revista científica do zero, com aprovação para publicação.

Na conferência ICLR 2025, um grupo de cientistas demonstrou a capacidade da IA ​​de gerar,…

22 minutos atrás

Foremay revela SSD espacial resistente à radiação da série InterStellar

A Foremay anunciou sua família de SSDs InterStellar, projetada para uso em satélites comerciais e…

56 minutos atrás

Jackpot: A segunda temporada de Fallout se tornou um dos maiores sucessos da Amazon.

O Hollywood Reporter, citando a Amazon MGM Studios, compartilhou informações sobre o sucesso da segunda…

1 hora atrás

A Samsung pretende dominar a tecnologia de processo de 1 nanômetro e introduzir folhas em formato de garfo em transistores até 2030.

A escassez de capacidade da TSMC está abrindo novas oportunidades para a rival Samsung Electronics…

2 horas atrás

A Microsoft forçou IAs a testarem umas às outras em pesquisa do Copilot.

A Microsoft introduziu a capacidade de usar vários modelos de IA em um único fluxo…

2 horas atrás

A Meta começou a testar uma assinatura do Instagram Plus com Stories expandidos e mais recursos.

A Meta começou a testar uma assinatura paga para recursos adicionais do Instagram em alguns…

2 horas atrás