Durante uma grande transmissão ao vivo de apresentação do seu modelo de IA GPT-5, a OpenAI exibiu uma série de gráficos que deveriam ilustrar as impressionantes capacidades do novo modelo. No entanto, após uma análise mais detalhada, alguns dos gráficos apresentavam falhas graves.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

Em um gráfico que, ironicamente, deveria mostrar as altas pontuações do GPT-5 em “avaliação da propensão à fraude em modelos”, a escala não corresponde aos números. Por exemplo, para “fraude de código”, o GPT-5 é listado como 50,0%, enquanto o3 é listado como 47,4%. No entanto, a barra para o3 é mais alta no gráfico. Além disso, o blog corporativo da OpenAI lista um número completamente diferente para o GPT-5 — 16,5%, que provavelmente é o número correto.

Fonte da imagem: x.com/shreyk0

No teste SWE-bench Verified, uma das pontuações do GPT-5 deveria ser menor que a do o3, mas corresponde a uma barra mais alta no gráfico; no mesmo gráfico, as pontuações do o3 e do GPT-4o diferem, mas são ilustradas por barras do mesmo tamanho. A OpenAI levou o erro a sério: o CEO da empresa, Sam Altman, pediu desculpas e acrescentou que as versões corretas foram publicadas no blog corporativo.

Fonte da imagem: x.com/EgeErdil2

A OpenAI não especificou se o próprio GPT-5 foi usado para criar os diagramas, mas tal incidente claramente não acrescenta credibilidade no contexto de uma apresentação em larga escala do novo modelo. Especialmente considerando que os desenvolvedores alegaram que o GPT-5 reduziu significativamente o nível de alucinações.

admin

Postagens recentes

As Aventuras de Elliot: Contos do Milênio – Um Retorno à Moda Antiga. Análise / Jogos

Jogado no Xbox Series S Em 2018, foi lançado Octopath Traveler, o primeiro jogo feito…

5 horas atrás

As Aventuras de Elliot: Contos do Milênio – Um Retorno à Moda Antiga. Resenha

Jogado no Xbox Series S Em 2018, foi lançado Octopath Traveler, o primeiro jogo feito…

5 horas atrás

Memória antiga de uma nova maneira: ASIC Meta✴ Vistara te ajudará a instalar DDR4 a partir de memória usada.

A Meta✴ desenvolveu o ASIC Vistara que, utilizando a tecnologia CXL, permitirá a instalação de…

5 horas atrás

Uma galáxia distante explodiu em um aglomerado galáctico e proporcionou um espetáculo de luzes que ocupou metade do céu.

Astrônomos relataram a descoberta de uma radiogaláxia incomum, RAD-BAARG, ao redor da qual se formou…

8 horas atrás

O Ayaneo Pocket Micro 2, um console portátil compacto com um processador Snapdragon 865 personalizado, foi lançado por US$ 239.

A Ayaneo lançou o Pocket Micro 2, seu segundo console Android em miniatura e formato…

9 horas atrás

Os Raspberry Pi 4 Modelo B com clock reduzido já estão disponíveis para compra.

Uma nova versão do computador de placa única Raspberry Pi 4 Modelo B já está…

10 horas atrás