Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Alisa recebeu a rede neural YandexGPT 2 – ela responde perguntas 67% melhor que a antiga

«Yandex apresentou uma nova versão do modelo de linguagem grande YandexGPT 2 – já é suportado pelo assistente de voz Alice e responde às solicitações dos usuários 67% melhor que o antigo. Isto foi conseguido através de melhorias em cada etapa do treinamento do modelo, sendo a principal delas o pré-treinamento.

Fonte da imagem: ya.ru/gpt/2

Para comparar a qualidade do trabalho do primeiro e do segundo modelos YandexGPT, os desenvolvedores prepararam um conjunto de 500 tarefas de usuário que diferem tanto quanto possível entre si, ofereceram-nas aos dois modelos e compararam os resultados – o novo acabou por ser melhor em 67% dos casos. Para especificar os critérios, as tarefas foram divididas em grupos, e as avaliações foram feitas separadamente para cada um deles:

Geração de texto — YandexGPT 2 venceu em 69% das tarefas;
Recontagem e análise do texto – 68%;
«“tempestade cerebral” de ideias – 66%;
Estilização de texto para um público ou usuário específico – 62%;
Respostas às perguntas – 62%.

O treinamento dos modelos é realizado em duas etapas: uma é chamada de pré-treinamento (pré-treinamento), a segunda – ajuste fino (ajuste fino). O primeiro é responsável pela coleta de informações factuais, o segundo é responsável pelo formato e estilo da resposta. Estas fases são independentes umas das outras no sentido de que os problemas de uma não podem ser corrigidos na outra. No estágio de pré-treinamento, a IA consome conhecimento útil, então os desenvolvedores precisam digitá-los corretamente em uma matriz comum – um conjunto de dados. Treinar o modelo novamente a cada alteração no conjunto de dados é muito trabalhoso e caro. Portanto, o retreinamento é realizado quando uma certa massa crítica de atualizações do conjunto de dados se acumula.

Há outro problema: o conjunto de dados atualizado pode não melhorar, mas piorar a qualidade do desempenho do modelo, e também é extremamente difícil controlar isso manualmente, pois quanto maior a qualidade do conjunto de dados, mais difícil é detectar seus problemas . Eles decidiram automatizar esse processo realizando treinamento de teste de modelos pequenos e rápidos, cujas diferentes versões são comparadas com base na qualidade de seu trabalho. Ao mesmo tempo, um modelo pequeno nem sempre reflete totalmente a qualidade de um modelo grande, então você terá que usar ferramentas adicionais:

O classificador de texto de baixa qualidade ajudou a detectar problemas de codificação, presença de tags HTML extras, frases repetidas e outros erros;
Um classificador de texto útil ajudou a detectar se o material responde a uma pergunta específica do usuário;
Aumentou a proporção de textos altamente citados;
A proporção de duplicatas foi reduzida para menos de 0,5%;
Lançou uma ferramenta para avaliar a “completude factual” – o pré-treinamento foi treinado para responder 80% das consultas factuais que o serviço de pesquisa Yandex trata.

O modelo YandexGPT 2 já foi integrado ao assistente de voz Alice na habilidade “Vamos pensar em algo” nas estações Yandex, smart TVs com Alice, no aplicativo Yandex, no navegador Yandex e também nas páginas de pesquisa ya.ru. Os desenvolvedores de modelos continuarão a melhorar os conjuntos de dados para pré-treinamento e ajuste fino. No futuro, está prevista a introdução da aprendizagem por reforço baseada no feedback humano (RLHF – Reinforcement Learning from Human Feedback). A rede neural também aparecerá em outros serviços Yandex, onde poderá ser útil.

avalanche

Próximo A Foxconn tentará novamente produzir chips na Índia - agora a STMicroelectronics pode se tornar parceira »

Anterior « A TSMC não consegue empacotar chips suficientes para aceleradores NVIDIA AI – levará 1,5 anos para eliminar a escassez

Deixar comentário

Publicado por

avalanche

3 anos atrás

Postagens recentes

Processadores

A AMD comemorou o 10º aniversário da plataforma AM4 e prometeu dar continuidade à tradição na AM5.

A AMD considera o suporte a longo prazo para sockets como um compromisso com os…

2 horas atrás

Eletrônica vestível

A Meta está desenvolvendo dois modelos de óculos inteligentes Ray-Ban com correção visual.

A Meta✴Platforms planeja lançar dois novos óculos inteligentes Ray-Ban para usuários de lentes de grau…

3 horas atrás

Leitores de áudio e vídeo

O YouTube atualizou o design do seu player incorporável e, como de costume, os usuários ficaram insatisfeitos.

O YouTube possui dois players principais: um para seu próprio site e outro para uso…

4 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Hackers invadiram a infraestrutura da Comissão Europeia e roubaram 350 GB de dados.

A Comissão Europeia (CE) anunciou um ciberataque que afetou a infraestrutura em nuvem que hospeda…

4 horas atrás

Consoles de jogos

A Ayaneo aumentará os preços e descontinuará diversos consoles portáteis, pois a escassez de memória elevou os custos de produção.

A Ayaneo atualizou as informações sobre seus dispositivos em seu site, e as notícias não…

5 horas atrás

Espaço

Apesar de duas falhas, a Intuitive Machines recebeu um terceiro contrato da NASA para entregar carga à Lua.

Uma vez é acidente, duas vezes é coincidência, mas uma terceira é garantida, decidiu a…