A rede neural YandexGPT 2 passou com sucesso no Exame Estadual Unificado de Literatura

O grande modelo de linguagem YandexGPT 2, desenvolvido pela Yandex, lidou com diversas versões do Exame Estadual Unificado na literatura, recebendo uma pontuação média de 55 pontos. Isso é superior ao limite mínimo exigido para admissão em uma universidade (40 pontos) e próximo da pontuação média (64 pontos) que os alunos russos recebem quando escolhem uma determinada disciplina e se preparam especialmente para o exame.

Fonte da imagem: Yandex

O Exame Estadual Unificado de literatura contém diversos testes de diversos tipos: questões de erudição, além de tarefas para avaliar o estilo de escrita e as habilidades criativas. Não é uma tarefa fácil para uma rede neural, mas o YandexGPT 2 passou em todos os testes: na primeira parte do exame analisou o trabalho e respondeu dúvidas sobre ele e, na segunda, escreveu uma redação sobre o tema proposto .

Como parte do teste, os especialistas da Yandex receberam do Centro de Educação Matemática Continuada de Moscou versões do verdadeiro Exame Estadual Unificado de Literatura, que foram usados ​​​​nos exames de treinamento de 2021 a 2023, e garantiram que não houvesse respostas para essas perguntas em a matriz de dados usada no treinamento YandexGPT 2. Assim, a rede neural trabalhou com tarefas em pé de igualdade com qualquer escolar, escolhendo as opções propostas e gerando respostas para questões abertas. O teste foi realizado por especialistas oficiais em literatura do Exame do Estado Unificado.

A diferença entre os escolares que fazem o Exame Estadual Unificado e o YandexGPT 2 é que os primeiros se preparam especialmente para a aprovação, ou seja, ficam imersos nas especificidades da matéria, enquanto a rede neural funcionava de forma bastante improvisada – da mesma forma, um adulto passa exames escolares, contando apenas com o conhecimento acumulado. A forma padrão de testar redes neurais é o teste MMLU (Massive Multitask Language Understanding) – inclui perguntas de 57 áreas, mas não avalia respostas a perguntas abertas ou escrita de tarefas criativas. Portanto, Yandex decidiu pelo Exame Estadual Unificado de Literatura.

avalanche

Postagens recentes

O Rei Está Nu: VDURA Confiante de que os SSDs não Substituirão os HDDs nos Data Centers

Segundo Ken Claffey, CEO da VDURA, o aumento dos preços e a escassez de memória…

1 hora atrás

Mouse: Detetive Particular para Contratar – Uma Perdição em Preto e Branco com Ratos. Análise / Jogos

Processador Intel Core i5-9500 de 3,0 GHz / AMD Ryzen 5 3400G de 3,7 GHz,…

2 horas atrás

Mouse: Detetive Particular para Contratar – Uma Perdição em Preto e Branco com Ratos. Resenha

Processador Intel Core i5-9500 de 3,0 GHz / AMD Ryzen 5 3400G de 3,7 GHz,…

2 horas atrás

“Estão enferrujados”: os módulos da estação orbital lunar Lunar Gateway da NASA entraram em estado de deterioração enquanto ainda estavam na Terra.

Durante dez anos, a NASA promoveu a ideia de construir uma estação espacial chamada Lunar…

2 horas atrás

Físicos criaram uma câmera totalmente nova para detectar neutrinos e matéria escura.

Uma equipe internacional de cientistas, liderada por físicos suíços, apresentou um método revolucionário para a…

2 horas atrás

“Abriu um novo capítulo para os Jogos Coreanos”: Crimson Desert conquistou o respeito do primeiro-ministro sul-coreano.

O sucesso estrondoso do jogo de ação e aventura em mundo aberto Crimson Desert, da…

4 horas atrás