A empresa Yandex apresentou uma família de grandes modelos de linguagem da nova geração YandexGPT 3; Os usuários do Yandex Cloud já podem trabalhar com um deles – YandexGPT 3 Pro. É mais adequado para usuários corporativos porque lida com consultas complexas com mais eficiência e pode seguir um formato de resposta predefinido. Se necessário, você também pode treinar o YandexGPT 3. Num futuro próximo, redes neurais de nova geração aparecerão nos serviços Yandex para uma ampla gama de usuários.

Fonte da imagem: yandex.ru/company

YandexGPT 3 Pro demonstra sucesso particular nas áreas de suporte ao cliente, vendas online, comunicações digitais, publicidade e gestão de pessoal. Ela pode criar contratos, faturas, descrições de cargos, documentação regulatória e outras de forma independente. YandexGPT 3 Pro fez progressos significativos em comparação com YandexGPT 2: a nova rede neural processa instruções corretamente com diversas condições, suas respostas tornaram-se mais precisas e completas, seu trabalho com fatos é mais completo e a porcentagem de erros estilísticos diminuiu.

«Yandex usou vários testes para avaliar o desempenho do YandexGPT 3 Pro. Uma versão em russo do benchmark internacional MMLU foi desenvolvida – recebeu o nome de YaMMLU_ru. Para avaliar o desempenho do modelo de IA em tarefas como geração de ideias, sumarização de dados, classificação e geração de conteúdo, foi utilizada a metodologia de testes Side by Side (SBS). YandexGPT 3 em 69% dos casos deu melhores respostas às dúvidas dos usuários do que YandexGPT 2; em consultas de negócios, melhorou 60% das vezes.

A qualidade das respostas dentro de um determinado formato foi verificada usando um teste de língua russa baseado no benchmark IFEval: para YandexGPT 3 aumentou 10 pontos percentuais em comparação com YandexGPT 2 e a consistência dobrou – isso significa que o modelo de nova geração começou a melhor entender como responder a solicitações idênticas em conteúdo, mas diferentes em forma.

Por fim, o número de erros factuais no YandexGPT 3 diminuiu de 16,4% para 13,5%, e a parcela de informações não confirmadas caiu de 6,4% para 5%. O número de recusas de resposta aos pedidos diminuiu 5 vezes. Os desenvolvedores conduziram esses testes em consultas particularmente complexas que podem surgir em cenários da vida real.

avalanche

Postagens recentes

Estudo: 9 em cada 10 dicas financeiras de blogueiros foram consideradas ruins – mas as pessoas ainda ficaram satisfeitas.

Segundo um estudo realizado no Reino Unido, os conselhos de influenciadores financeiros nas redes sociais…

5 horas atrás

Agora você pode programar em qualquer lugar: o ChatGPT para smartphones agora tem o Codex.

A OpenAI aprimorou o aplicativo móvel ChatGPT para desenvolvedores que trabalham em qualquer lugar, adicionando…

5 horas atrás

A Samsung iniciou cortes emergenciais na produção em antecipação a uma greve em massa.

A Samsung Electronics está se preparando para uma greve geral de 18 dias, planejada pelos…

5 horas atrás

A Cerebras realizou o maior IPO deste ano, com as ações da concorrente da Nvidia disparando 68% no primeiro dia.

As ações da Cerebras Systems, que começaram a ser negociadas ontem na bolsa Nasdaq, fecharam…

6 horas atrás

A Hobot lançou o robô de limpeza de janelas Hobot SP10, equipado com raspadores móveis para resultados impecáveis.

A HOBOT lançou o robô de limpeza de janelas Hobot SP10, o primeiro do setor…

6 horas atrás

A JCB apresenta o Hydromax, um caminhão de corrida movido a hidrogênio com 1.200 cavalos de potência, projetado para quebrar recordes.

Recentemente, a empresa britânica JCB apresentou o Hydromax, um veículo de alta velocidade movido a…

6 horas atrás