A rede neural YandexGPT 2 passou com sucesso no Exame Estadual Unificado de Literatura

O grande modelo de linguagem YandexGPT 2, desenvolvido pela Yandex, lidou com diversas versões do Exame Estadual Unificado na literatura, recebendo uma pontuação média de 55 pontos. Isso é superior ao limite mínimo exigido para admissão em uma universidade (40 pontos) e próximo da pontuação média (64 pontos) que os alunos russos recebem quando escolhem uma determinada disciplina e se preparam especialmente para o exame.

Fonte da imagem: Yandex

O Exame Estadual Unificado de literatura contém diversos testes de diversos tipos: questões de erudição, além de tarefas para avaliar o estilo de escrita e as habilidades criativas. Não é uma tarefa fácil para uma rede neural, mas o YandexGPT 2 passou em todos os testes: na primeira parte do exame analisou o trabalho e respondeu dúvidas sobre ele e, na segunda, escreveu uma redação sobre o tema proposto .

Como parte do teste, os especialistas da Yandex receberam do Centro de Educação Matemática Continuada de Moscou versões do verdadeiro Exame Estadual Unificado de Literatura, que foram usados ​​​​nos exames de treinamento de 2021 a 2023, e garantiram que não houvesse respostas para essas perguntas em a matriz de dados usada no treinamento YandexGPT 2. Assim, a rede neural trabalhou com tarefas em pé de igualdade com qualquer escolar, escolhendo as opções propostas e gerando respostas para questões abertas. O teste foi realizado por especialistas oficiais em literatura do Exame do Estado Unificado.

A diferença entre os escolares que fazem o Exame Estadual Unificado e o YandexGPT 2 é que os primeiros se preparam especialmente para a aprovação, ou seja, ficam imersos nas especificidades da matéria, enquanto a rede neural funcionava de forma bastante improvisada – da mesma forma, um adulto passa exames escolares, contando apenas com o conhecimento acumulado. A forma padrão de testar redes neurais é o teste MMLU (Massive Multitask Language Understanding) – inclui perguntas de 57 áreas, mas não avalia respostas a perguntas abertas ou escrita de tarefas criativas. Portanto, Yandex decidiu pelo Exame Estadual Unificado de Literatura.

avalanche

Postagens recentes

A Qualcomm perdeu os dois criadores dos núcleos de processador Oryon, que esperava usar para conquistar uma fatia do mercado de PCs.

A Qualcomm anunciou oficialmente a saída de dois dos principais designers de processadores para PCs…

28 minutos atrás

A Take-Two negou os rumores sobre um possível atraso no lançamento físico de GTA VI e confirmou quando a campanha publicitária do jogo terá início.

Contrariando os temores dos fãs, a Take-Two Interactive não confirmou outro adiamento para o ambicioso…

1 hora atrás

CEO da Nvidia nega rumores de perda de interesse em investimentos na OpenAI.

Há vários dias, a mídia está repleta de rumores de que a Nvidia pode abandonar…

3 horas atrás

A Microsoft anunciou a criação de uma plataforma para pagamento por conteúdo usado no treinamento de IA.

A Microsoft está desenvolvendo um Mercado de Conteúdo para Editores (PCM, na sigla em inglês)…

4 horas atrás

A plataforma Moltbook tem sido alvo de críticas devido a preocupações com a privacidade.

Pesquisadores da Wiz descobriram sérios problemas de segurança no Moltbook, uma rede social para agentes…

4 horas atrás