A rede neural YandexGPT 2 passou com sucesso no Exame Estadual Unificado de Literatura

O grande modelo de linguagem YandexGPT 2, desenvolvido pela Yandex, lidou com diversas versões do Exame Estadual Unificado na literatura, recebendo uma pontuação média de 55 pontos. Isso é superior ao limite mínimo exigido para admissão em uma universidade (40 pontos) e próximo da pontuação média (64 pontos) que os alunos russos recebem quando escolhem uma determinada disciplina e se preparam especialmente para o exame.

Fonte da imagem: Yandex

O Exame Estadual Unificado de literatura contém diversos testes de diversos tipos: questões de erudição, além de tarefas para avaliar o estilo de escrita e as habilidades criativas. Não é uma tarefa fácil para uma rede neural, mas o YandexGPT 2 passou em todos os testes: na primeira parte do exame analisou o trabalho e respondeu dúvidas sobre ele e, na segunda, escreveu uma redação sobre o tema proposto .

Como parte do teste, os especialistas da Yandex receberam do Centro de Educação Matemática Continuada de Moscou versões do verdadeiro Exame Estadual Unificado de Literatura, que foram usados ​​​​nos exames de treinamento de 2021 a 2023, e garantiram que não houvesse respostas para essas perguntas em a matriz de dados usada no treinamento YandexGPT 2. Assim, a rede neural trabalhou com tarefas em pé de igualdade com qualquer escolar, escolhendo as opções propostas e gerando respostas para questões abertas. O teste foi realizado por especialistas oficiais em literatura do Exame do Estado Unificado.

A diferença entre os escolares que fazem o Exame Estadual Unificado e o YandexGPT 2 é que os primeiros se preparam especialmente para a aprovação, ou seja, ficam imersos nas especificidades da matéria, enquanto a rede neural funcionava de forma bastante improvisada – da mesma forma, um adulto passa exames escolares, contando apenas com o conhecimento acumulado. A forma padrão de testar redes neurais é o teste MMLU (Massive Multitask Language Understanding) – inclui perguntas de 57 áreas, mas não avalia respostas a perguntas abertas ou escrita de tarefas criativas. Portanto, Yandex decidiu pelo Exame Estadual Unificado de Literatura.

avalanche

Postagens recentes

O ex-designer da BioWare explica como Final Fantasy VII ajudou a tornar os companheiros de Baldur’s Gate II memoráveis

O RPG da BioWare, Baldur's Gate II: Shadows of Amn, ganhou status de culto graças,…

27 minutos atrás

A Intel precisa de um grande cliente para fabricação contratada de chips – pode ser NVIDIA ou Apple

A Intel Corporation está tentando se tornar um player significativo no mercado de fabricação sob…

37 minutos atrás

AMD lançou um driver com suporte para Assassin’s Creed Mirage e The Lords of the Fallen

A AMD lançou um novo pacote de driver gráfico, Radeon Software Adrenalin 23.10.1 WHQL. Inclui…

1 hora atrás

O chefe da Activision Blizzard contou a seus subordinados sobre o futuro da Microsoft e sugeriu o renascimento do Guitar Hero

O acordo para adquirir a editora de jogos Activision Blizzard pela Microsoft pode ser fechado…

1 hora atrás

Samsung decidiu acelerar o desenvolvimento da tecnologia de processo de 2nm para ultrapassar TSMC e Intel

Puramente formalmente, a Samsung Electronics não estava apenas à frente da TSMC em termos de…

2 horas atrás