Agora qualquer um pode treinar uma IA de raciocínio por apenas US$ 450 – Sky-T1 é de código aberto

Esta semana, pesquisadores do Sky Computing Lab da Universidade da Califórnia, Berkeley, lançaram o modelo de inteligência artificial Sky-T1-32B-Preview. Estamos falando de uma rede neural com capacidade de raciocínio que pode competir com OpenAI o1 em vários indicadores-chave.

Fonte da imagem: Lee Campbell/Unsplash

Aparentemente, o Sky-T1 é o primeiro modelo a suportar o raciocínio de código aberto, o que permitirá que seja replicado do zero. Os desenvolvedores publicaram o conjunto de dados que foi usado para treinar o algoritmo, bem como outros dados necessários para executar o modelo de IA.

Uma das principais características do algoritmo é que seu treinamento não exige custos significativos. “Notavelmente, o Sky-T1-32B-Preview foi treinado por menos de US$ 450”, escreveram os desenvolvedores em seu blog. Assim, demonstraram claramente que é possível criar um modelo de IA com capacidades de raciocínio de alto nível sem investimento financeiro significativo.

Até recentemente, o custo de treinar um grande modelo linguístico com características comparáveis ​​era medido em milhões de dólares. Foi possível reduzir significativamente os custos através da utilização de dados sintéticos, ou seja, dados gerados por outras redes neurais. Por exemplo, o algoritmo Palmyra X 004 lançado recentemente pela Winter foi treinado em dados sintéticos e custou aos desenvolvedores US$ 700 mil.

Ao contrário de muitos algoritmos de IA, os modelos de raciocínio verificam os factos de forma eficaz, o que lhes permite fornecer respostas mais precisas e são menos propensos a cometer erros que enganem os utilizadores. Além disso, os modelos de raciocínio normalmente demoram mais para gerar uma resposta a uma consulta em comparação com algoritmos convencionais de IA. No entanto, os modelos de raciocínio são geralmente mais confiáveis, especialmente em áreas como física, matemática e ciências.

Segundo relatos, os desenvolvedores aproveitaram o modelo de raciocínio QwQ-32B-Preview do Alibaba para criar o conjunto de dados de treinamento Sky-T1 inicial. Os dados foram então convertidos usando GPT-4o-mini da OpenAI em um formato mais preciso. O processo de treinamento do Sky-T1 com 32 bilhões de parâmetros durou cerca de 19 horas, para as quais foram utilizados 8 aceleradores gráficos Nvidia H100.

«No futuro, nos concentraremos no desenvolvimento de modelos mais eficientes que mantenham um forte desempenho de raciocínio, bem como na exploração das melhores práticas para melhorar a eficiência e a precisão dos modelos durante os testes. Fique ligado enquanto progredimos nessas iniciativas interessantes”, escreveram os desenvolvedores em uma postagem no blog.

avalanche

Postagens recentes

Vídeo: Robô Humanoide Figura 02 Aprende a Lavar Louça

A startup Figure atualizou seu modelo de IA Helix Vision Language Action (VLA), dando ao…

3 horas atrás

Apple enfrentará processo por pirataria de IA

A Apple está enfrentando um processo judicial após autores de livros acusarem a empresa de…

10 horas atrás

Os criadores de Borderlands 4 relembraram o lançamento iminente do jogo de tiro e revelaram planos para seu desenvolvimento futuro

As desenvolvedoras Gearbox Software e a publisher 2K divulgaram o lançamento de seu ambicioso jogo…

12 horas atrás