Meta nega inflar artificialmente os resultados do teste do modelo de IA Llama 4

Um representante da Meta✴ negou rumores de que a empresa melhorou intencionalmente o desempenho de seus novos modelos Llama 4 AI em benchmarks. O vice-presidente de IA generativa, Ahmad Al-Dahle, disse em uma publicação no X que as alegações de que os resultados foram manipulados para esconder fraquezas nos modelos Maverick e Scout “simplesmente não eram verdadeiras”.

Fonte da imagem: Mariia Shalabaieva/Unsplash

Boatos de manipulação surgiram nas redes sociais após uma publicação de um ex-funcionário da Meta✴. Um usuário de uma plataforma chinesa alegou que saiu da empresa em protesto contra “métodos de teste injustos”. Essas acusações mais tarde se espalharam para o X (antigo Twitter) e o Reddit, escreve o TechCrunch.

No entanto, Al-Dahle enfatizou que o Meta✴ não treinou os modelos Llama 4 Maverick e Llama 4 Scout em “conjuntos de dados de teste”, que são amostras especiais usadas para avaliar IA. Tal prática poderia inflar artificialmente os resultados, criando uma falsa impressão sobre as capacidades dos modelos.

As suspeitas surgiram inicialmente devido às diferenças na maneira como o Llama 4 Maverick funcionava em diferentes plataformas. Os pesquisadores notaram que a versão do modelo no benchmark LM Arena se comportou de forma diferente da versão disponível publicamente e não conseguiu lidar com certas tarefas. Além disso, o Meta✴ usou uma versão experimental do Maverick para melhorar os resultados de benchmark, o que também levantou questões.

Ao mesmo tempo, Al-Dahle observa que o motivo pelo qual os usuários estão atualmente enfrentando instabilidade na qualidade dos modelos pode estar relacionado às configurações dos provedores de nuvem em cujos servidores os scripts estão hospedados. “Lançamos os modelos assim que ficaram prontos e levará alguns dias para que todas as implementações públicas sejam configuradas de acordo com nossos requisitos”, explicou ele. A Meta✴ prometeu continuar trabalhando na correção de bugs do Llama 4 em qualquer caso para rápida integração dos desenvolvedores em seus projetos.

avalanche

Postagens recentes

Um desenvolvedor da tecnologia de pontos quânticos para TVs revelou as deficiências dos painéis de LED RGB.

No evento anual Display Week, em Los Angeles, a Nanosys, desenvolvedora da tecnologia "superquantum dot"…

3 horas atrás

A Microsoft aprimorou a experiência do touchpad e do teclado virtual no Windows 11, além de aumentar a estabilidade do Explorador de Arquivos.

Esta semana, a Microsoft lançou quatro versões beta do Windows 11 para o programa Windows…

4 horas atrás

Os Estados Unidos estão investigando acidentes envolvendo os robôs-táxi da Avride, empresa que antes fazia parte da Yandex.

A Administração Nacional de Segurança Rodoviária dos Estados Unidos (NHTSA) abriu uma investigação sobre a…

4 horas atrás

Os usuários do Instagram foram privados da criptografia de ponta a ponta em mensagens privadas.

Em 8 de maio, o Instagram descontinuou a criptografia de ponta a ponta para mensagens…

5 horas atrás

Um grupo de aplicativos fraudulentos do CallPhantom surgiu na Play Store, com 7,3 milhões de downloads.

A Google Play Store é considerada uma plataforma relativamente segura para baixar aplicativos Android, mas…

5 horas atrás