A rede neural YandexGPT 2 passou com sucesso no Exame Estadual Unificado de Literatura

O grande modelo de linguagem YandexGPT 2, desenvolvido pela Yandex, lidou com diversas versões do Exame Estadual Unificado na literatura, recebendo uma pontuação média de 55 pontos. Isso é superior ao limite mínimo exigido para admissão em uma universidade (40 pontos) e próximo da pontuação média (64 pontos) que os alunos russos recebem quando escolhem uma determinada disciplina e se preparam especialmente para o exame.

Fonte da imagem: Yandex

O Exame Estadual Unificado de literatura contém diversos testes de diversos tipos: questões de erudição, além de tarefas para avaliar o estilo de escrita e as habilidades criativas. Não é uma tarefa fácil para uma rede neural, mas o YandexGPT 2 passou em todos os testes: na primeira parte do exame analisou o trabalho e respondeu dúvidas sobre ele e, na segunda, escreveu uma redação sobre o tema proposto .

Como parte do teste, os especialistas da Yandex receberam do Centro de Educação Matemática Continuada de Moscou versões do verdadeiro Exame Estadual Unificado de Literatura, que foram usados ​​​​nos exames de treinamento de 2021 a 2023, e garantiram que não houvesse respostas para essas perguntas em a matriz de dados usada no treinamento YandexGPT 2. Assim, a rede neural trabalhou com tarefas em pé de igualdade com qualquer escolar, escolhendo as opções propostas e gerando respostas para questões abertas. O teste foi realizado por especialistas oficiais em literatura do Exame do Estado Unificado.

A diferença entre os escolares que fazem o Exame Estadual Unificado e o YandexGPT 2 é que os primeiros se preparam especialmente para a aprovação, ou seja, ficam imersos nas especificidades da matéria, enquanto a rede neural funcionava de forma bastante improvisada – da mesma forma, um adulto passa exames escolares, contando apenas com o conhecimento acumulado. A forma padrão de testar redes neurais é o teste MMLU (Massive Multitask Language Understanding) – inclui perguntas de 57 áreas, mas não avalia respostas a perguntas abertas ou escrita de tarefas criativas. Portanto, Yandex decidiu pelo Exame Estadual Unificado de Literatura.

avalanche

Postagens recentes

SpaceX lançou veículos privados Firefly Blue Ghost e ispace Resilience to the Moon

Hoje, 15 de janeiro, às 01h11, horário da Costa Leste dos EUA (09h11, horário de…

22 minutos atrás

Tesla lançou a produção do novo Modelo Y na Alemanha – os americanos serão os últimos a recebê-lo

Na semana passada, a Tesla não só apresentou uma versão reestilizada do seu carro elétrico…

32 minutos atrás

Imagens promocionais de smartphones Samsung Galaxy S25 vazaram online

Vazaram na Internet imagens promocionais de smartphones da principal série Samsung Galaxy S25, cujo anúncio…

42 minutos atrás

A Microsoft prepara mais uma onda de demissões – afetará funcionários de diversos perfis

Em 2024, a Microsoft insistiu que a segurança da informação era a sua principal prioridade,…

1 hora atrás