Categorias: Mercado de tecnologia e TI. notíciaProgramas

Agora qualquer um pode treinar uma IA de raciocínio por apenas US$ 450 – Sky-T1 é de código aberto

Esta semana, pesquisadores do Sky Computing Lab da Universidade da Califórnia, Berkeley, lançaram o modelo de inteligência artificial Sky-T1-32B-Preview. Estamos falando de uma rede neural com capacidade de raciocínio que pode competir com OpenAI o1 em vários indicadores-chave.

Fonte da imagem: Lee Campbell/Unsplash

Aparentemente, o Sky-T1 é o primeiro modelo a suportar o raciocínio de código aberto, o que permitirá que seja replicado do zero. Os desenvolvedores publicaram o conjunto de dados que foi usado para treinar o algoritmo, bem como outros dados necessários para executar o modelo de IA.

Uma das principais características do algoritmo é que seu treinamento não exige custos significativos. “Notavelmente, o Sky-T1-32B-Preview foi treinado por menos de US$ 450”, escreveram os desenvolvedores em seu blog. Assim, demonstraram claramente que é possível criar um modelo de IA com capacidades de raciocínio de alto nível sem investimento financeiro significativo.

Até recentemente, o custo de treinar um grande modelo linguístico com características comparáveis era medido em milhões de dólares. Foi possível reduzir significativamente os custos através da utilização de dados sintéticos, ou seja, dados gerados por outras redes neurais. Por exemplo, o algoritmo Palmyra X 004 lançado recentemente pela Winter foi treinado em dados sintéticos e custou aos desenvolvedores US$ 700 mil.

Ao contrário de muitos algoritmos de IA, os modelos de raciocínio verificam os factos de forma eficaz, o que lhes permite fornecer respostas mais precisas e são menos propensos a cometer erros que enganem os utilizadores. Além disso, os modelos de raciocínio normalmente demoram mais para gerar uma resposta a uma consulta em comparação com algoritmos convencionais de IA. No entanto, os modelos de raciocínio são geralmente mais confiáveis, especialmente em áreas como física, matemática e ciências.

Segundo relatos, os desenvolvedores aproveitaram o modelo de raciocínio QwQ-32B-Preview do Alibaba para criar o conjunto de dados de treinamento Sky-T1 inicial. Os dados foram então convertidos usando GPT-4o-mini da OpenAI em um formato mais preciso. O processo de treinamento do Sky-T1 com 32 bilhões de parâmetros durou cerca de 19 horas, para as quais foram utilizados 8 aceleradores gráficos Nvidia H100.

«No futuro, nos concentraremos no desenvolvimento de modelos mais eficientes que mantenham um forte desempenho de raciocínio, bem como na exploração das melhores práticas para melhorar a eficiência e a precisão dos modelos durante os testes. Fique ligado enquanto progredimos nessas iniciativas interessantes”, escreveram os desenvolvedores em uma postagem no blog.

avalanche

Anterior « Graças à IA generativa, a capacidade do data center hiperescalador triplicará até 2030

Deixar comentário

Publicado por

avalanche

2 horas atrás

Postagens recentes

Mercado de tecnologia e TI. notícia

Graças à IA generativa, a capacidade do data center hiperescalador triplicará até 2030

De acordo com o Synergy Research Group, a capacidade média dos data centers hiperescaladores que…

3 horas atrás

“Fallout 5 está aqui”: os jogadores gostaram da jogabilidade do RPG de ação Atomfall sobre a Inglaterra pós-nuclear

Os desenvolvedores do estúdio britânico Rebellion Developments publicaram um vídeo de gameplay de seu RPG…

4 horas atrás

Um entusiasta lançou um modelo moderno de IA em um console Xbox 360 de 20 anos

O usuário da rede social X Andrei David conseguiu instalar e executar um modelo de…

6 horas atrás

Tesla é forçada a fazer recall de centenas de milhares de veículos elétricos devido a um grande defeito nos computadores de bordo

Até agora, problemas de hardware em eletrônicos não causaram recalls de produtos Tesla com frequência,…

9 horas atrás

O tribunal negou aos britânicos o direito de continuar a procurar US$ 700 milhões em bitcoins em um aterro sanitário.

Um morador da cidade britânica de Newport, James Howells, conseguiu se tornar uma celebridade graças…

10 horas atrás

CES 2025 revela dispositivo de comunicação por satélite HMD OffGrid que funciona com qualquer smartphone

Na CES 2025 em Las Vegas, a HMD Global apresentou o dispositivo compacto HMD OffGrid,…

11 horas atrás