A rede neural YandexGPT 2 passou com sucesso no Exame Estadual Unificado de Literatura

O grande modelo de linguagem YandexGPT 2, desenvolvido pela Yandex, lidou com diversas versões do Exame Estadual Unificado na literatura, recebendo uma pontuação média de 55 pontos. Isso é superior ao limite mínimo exigido para admissão em uma universidade (40 pontos) e próximo da pontuação média (64 pontos) que os alunos russos recebem quando escolhem uma determinada disciplina e se preparam especialmente para o exame.

Fonte da imagem: Yandex

O Exame Estadual Unificado de literatura contém diversos testes de diversos tipos: questões de erudição, além de tarefas para avaliar o estilo de escrita e as habilidades criativas. Não é uma tarefa fácil para uma rede neural, mas o YandexGPT 2 passou em todos os testes: na primeira parte do exame analisou o trabalho e respondeu dúvidas sobre ele e, na segunda, escreveu uma redação sobre o tema proposto .

Como parte do teste, os especialistas da Yandex receberam do Centro de Educação Matemática Continuada de Moscou versões do verdadeiro Exame Estadual Unificado de Literatura, que foram usados ​​​​nos exames de treinamento de 2021 a 2023, e garantiram que não houvesse respostas para essas perguntas em a matriz de dados usada no treinamento YandexGPT 2. Assim, a rede neural trabalhou com tarefas em pé de igualdade com qualquer escolar, escolhendo as opções propostas e gerando respostas para questões abertas. O teste foi realizado por especialistas oficiais em literatura do Exame do Estado Unificado.

A diferença entre os escolares que fazem o Exame Estadual Unificado e o YandexGPT 2 é que os primeiros se preparam especialmente para a aprovação, ou seja, ficam imersos nas especificidades da matéria, enquanto a rede neural funcionava de forma bastante improvisada – da mesma forma, um adulto passa exames escolares, contando apenas com o conhecimento acumulado. A forma padrão de testar redes neurais é o teste MMLU (Massive Multitask Language Understanding) – inclui perguntas de 57 áreas, mas não avalia respostas a perguntas abertas ou escrita de tarefas criativas. Portanto, Yandex decidiu pelo Exame Estadual Unificado de Literatura.

avalanche

Postagens recentes

Life is Strange: Reunion – O desespero leva ao sucesso. Análise / Jogos

Jogado no PlayStation 5 Quando Life is Strange: Double Exposure foi lançado, parecia que a…

3 horas atrás

O diretor criativo da Naughty Dog deixou os fãs curiosos com uma foto de sua viagem de negócios — a imagem parece ser uma prévia de Uncharted 5.

Lançados em 2016 e 2017, Uncharted 4: A Thief's End e Uncharted: The Lost Legacy…

5 horas atrás

O avião sem leme X-65 da Boeing está um passo mais perto de voar — ele será controlado por correntes de ar.

A Aurora Flight Sciences, subsidiária da Boeing, anunciou um marco importante no projeto da aeronave…

6 horas atrás

Atualmente, a memória representa até 30% dos custos de construção de data centers — quatro vezes mais do que em 2023.

Os analistas da SemiAnalysis estimam que a memória representará aproximadamente 30% do investimento total de…

6 horas atrás

A Terra é visível pela vigia: o comandante da missão lunar Artemis II enviou fotos deslumbrantes do nosso planeta.

Há algumas horas, a espaçonave Orion e sua tripulação concluíram com sucesso uma manobra de…

6 horas atrás

A MSI lançou o adaptador PCIe sem fio Herald BE9400 com suporte para Wi-Fi 7 e Bluetooth 5.4.

A MSI lançou o adaptador sem fio Herald BE9400 como uma placa de expansão PCIe,…

6 horas atrás