A empresa Yandex apresentou uma família de grandes modelos de linguagem da nova geração YandexGPT 3; Os usuários do Yandex Cloud já podem trabalhar com um deles – YandexGPT 3 Pro. É mais adequado para usuários corporativos porque lida com consultas complexas com mais eficiência e pode seguir um formato de resposta predefinido. Se necessário, você também pode treinar o YandexGPT 3. Num futuro próximo, redes neurais de nova geração aparecerão nos serviços Yandex para uma ampla gama de usuários.

Fonte da imagem: yandex.ru/company

YandexGPT 3 Pro demonstra sucesso particular nas áreas de suporte ao cliente, vendas online, comunicações digitais, publicidade e gestão de pessoal. Ela pode criar contratos, faturas, descrições de cargos, documentação regulatória e outras de forma independente. YandexGPT 3 Pro fez progressos significativos em comparação com YandexGPT 2: a nova rede neural processa instruções corretamente com diversas condições, suas respostas tornaram-se mais precisas e completas, seu trabalho com fatos é mais completo e a porcentagem de erros estilísticos diminuiu.

«Yandex usou vários testes para avaliar o desempenho do YandexGPT 3 Pro. Uma versão em russo do benchmark internacional MMLU foi desenvolvida – recebeu o nome de YaMMLU_ru. Para avaliar o desempenho do modelo de IA em tarefas como geração de ideias, sumarização de dados, classificação e geração de conteúdo, foi utilizada a metodologia de testes Side by Side (SBS). YandexGPT 3 em 69% dos casos deu melhores respostas às dúvidas dos usuários do que YandexGPT 2; em consultas de negócios, melhorou 60% das vezes.

A qualidade das respostas dentro de um determinado formato foi verificada usando um teste de língua russa baseado no benchmark IFEval: para YandexGPT 3 aumentou 10 pontos percentuais em comparação com YandexGPT 2 e a consistência dobrou – isso significa que o modelo de nova geração começou a melhor entender como responder a solicitações idênticas em conteúdo, mas diferentes em forma.

Por fim, o número de erros factuais no YandexGPT 3 diminuiu de 16,4% para 13,5%, e a parcela de informações não confirmadas caiu de 6,4% para 5%. O número de recusas de resposta aos pedidos diminuiu 5 vezes. Os desenvolvedores conduziram esses testes em consultas particularmente complexas que podem surgir em cenários da vida real.

avalanche

Postagens recentes

Novas imagens do buraco negro no centro da galáxia M87 deixaram os cientistas perplexos: a polarização foi revertida ali.

Na edição de agosto da revista Astronomy & Astrophysics, a colaboração Event Horizon Telescope (EHT)…

48 minutos atrás

SMIC começa a testar sistema DUV desenvolvido na China para produção de chips de 7 nm

Diante da escalada das sanções americanas, o sucesso da empresa chinesa SMIC em litografia foi,…

1 hora atrás

A Microsoft é ainda mais persistente em desencorajar as pessoas a instalar o Chrome — agora via Bing

A Microsoft lançou mais uma vez uma campanha agressiva para seu navegador Edge. Desta vez,…

1 hora atrás

Conteúdo cortado, um mundo perfeito e nenhum episódio “moderno”: jornalistas descobriram novos detalhes sobre o remake de Assassin’s Creed IV: Black Flag.

Jornalistas da publicação francesa Jeux Vidéo Magazine, citando fontes da Ubisoft, compartilharam novos detalhes sobre…

3 horas atrás

A interferência de Trump nos negócios das empresas do Vale do Silício as deixa com sentimentos contraditórios.

A decisão das autoridades americanas de adquirir 10% das ações da Intel, embora discutida em…

3 horas atrás

Donald Trump estende proibição do TikTok nos EUA até 16 de dezembro

Na véspera, o presidente dos EUA, Donald Trump, estendeu o adiamento da proibição da rede…

5 horas atrás