OpenAI abandona o modelo de IA com eficiência energética de Arrakis – seu desenvolvimento atingiu um beco sem saída inexplicável

A OpenAI, responsável pela rede neural GPT-4 e pelo serviço ChatGPT, estava trabalhando em um novo modelo de inteligência artificial chamado Arrakis, que oferecia maior eficiência e, consequentemente, menor custo de manutenção. Mas o projeto teve que ser suspenso devido a problemas de qualidade.

Fonte da imagem: Zac Wolff / unsplash.com

Supunha-se que o Arrakis teria capacidades comparáveis ​​ao GPT-4, mas seria mais barato de implantar – ele foi projetado usando o chamado princípio da dispersão. Isso significa que o processamento dos dados recebidos é realizado apenas por parte da rede neural, enquanto os “modelos densos” tradicionais utilizam todas as suas partes. O princípio da dispersão é utilizado, por exemplo, pelo Google no projeto Pathways.

O desenvolvimento do Arrakis começou no outono passado e o treinamento do modelo começou nesta primavera. Mas os desenvolvedores do OpenAI perceberam rapidamente que o sistema era muito lento. Durante um mês tentaram customizar o modelo, mas depois a direção encerrou o projeto. As razões do fracasso ainda não foram estabelecidas: o princípio da esparsidade funcionou bem nos primeiros testes, mas não se manifestou num modelo maior.

Apesar do fracasso, a OpenAI poderá utilizar os desenvolvimentos do Arrakis e do modelo multimodal Gobi em outros projetos. A Microsoft também tinha grandes esperanças em Arrakis: a gigante do software passou agora a desenvolver modelos de linguagem menos dispendiosos, à medida que o elevado custo de manutenção da IA ​​generativa começou a ameaçar o seu negócio.

Arrakis gerou não apenas texto, mas também imagens e vídeos; ela teve menos alucinações que o GPT-4; e ela poderia trabalhar como agente autônoma. O modelo foi parcialmente treinado em dados sintéticos e seu lançamento está previsto para 2024. O projeto poderá resultar em todo um sistema de criação de modelos mais eficientes – existe uma versão que contribuiu para o desenvolvimento da rede neural GPT-3.5 Turbo.

avalanche

Postagens recentes

O Internet Archive está assumindo a tarefa de curar a internet da “deterioração de links”.

O Internet Archive Project é uma organização sem fins lucrativos que, como o próprio nome…

8 horas atrás

“Então Concord não te ensinou nada?” A Sony anunciou o jogo de ação cooperativo Horizon Hunters Gathering, e os fãs estão confusos.

A editora Sony Interactive Entertainment e a desenvolvedora Guerrilla Games revelaram por completo o spin-off…

9 horas atrás

O Bitcoin despencou para menos de US$ 67.000, com os investidores assustados e vendendo suas moedas.

O Bitcoin caiu para US$ 66.896,43 hoje, com o sentimento dos investidores se inclinando cada…

9 horas atrás

A Starlink se tornou uma mina de ouro para a SpaceX e está prestes a se expandir, passando de dispositivos de IA para satélites ao controle orbital.

Antecipando seu IPO previsto para este ano, a SpaceX planeja expandir sua divisão Starlink e…

9 horas atrás

A Intel desenvolveu uma nova geração de capacitores integrados — a chave para o fornecimento estável de energia para os chips de IA do futuro.

Ao discutirmos novas tecnologias de processo, constantemente mencionamos os transistores como componentes-chave que determinam o…

9 horas atrás

The Elder Scrolls IV: Oblivion Remastered chegará ao Nintendo Switch 2, mas os fãs não estão exatamente entusiasmados.

Juntamente com as datas de lançamento das versões para Nintendo Switch 2 de Fallout 4…

10 horas atrás