Agora qualquer um pode treinar uma IA de raciocínio por apenas US$ 450 – Sky-T1 é de código aberto

Esta semana, pesquisadores do Sky Computing Lab da Universidade da Califórnia, Berkeley, lançaram o modelo de inteligência artificial Sky-T1-32B-Preview. Estamos falando de uma rede neural com capacidade de raciocínio que pode competir com OpenAI o1 em vários indicadores-chave.

Fonte da imagem: Lee Campbell/Unsplash

Aparentemente, o Sky-T1 é o primeiro modelo a suportar o raciocínio de código aberto, o que permitirá que seja replicado do zero. Os desenvolvedores publicaram o conjunto de dados que foi usado para treinar o algoritmo, bem como outros dados necessários para executar o modelo de IA.

Uma das principais características do algoritmo é que seu treinamento não exige custos significativos. “Notavelmente, o Sky-T1-32B-Preview foi treinado por menos de US$ 450”, escreveram os desenvolvedores em seu blog. Assim, demonstraram claramente que é possível criar um modelo de IA com capacidades de raciocínio de alto nível sem investimento financeiro significativo.

Até recentemente, o custo de treinar um grande modelo linguístico com características comparáveis ​​era medido em milhões de dólares. Foi possível reduzir significativamente os custos através da utilização de dados sintéticos, ou seja, dados gerados por outras redes neurais. Por exemplo, o algoritmo Palmyra X 004 lançado recentemente pela Winter foi treinado em dados sintéticos e custou aos desenvolvedores US$ 700 mil.

Ao contrário de muitos algoritmos de IA, os modelos de raciocínio verificam os factos de forma eficaz, o que lhes permite fornecer respostas mais precisas e são menos propensos a cometer erros que enganem os utilizadores. Além disso, os modelos de raciocínio normalmente demoram mais para gerar uma resposta a uma consulta em comparação com algoritmos convencionais de IA. No entanto, os modelos de raciocínio são geralmente mais confiáveis, especialmente em áreas como física, matemática e ciências.

Segundo relatos, os desenvolvedores aproveitaram o modelo de raciocínio QwQ-32B-Preview do Alibaba para criar o conjunto de dados de treinamento Sky-T1 inicial. Os dados foram então convertidos usando GPT-4o-mini da OpenAI em um formato mais preciso. O processo de treinamento do Sky-T1 com 32 bilhões de parâmetros durou cerca de 19 horas, para as quais foram utilizados 8 aceleradores gráficos Nvidia H100.

«No futuro, nos concentraremos no desenvolvimento de modelos mais eficientes que mantenham um forte desempenho de raciocínio, bem como na exploração das melhores práticas para melhorar a eficiência e a precisão dos modelos durante os testes. Fique ligado enquanto progredimos nessas iniciativas interessantes”, escreveram os desenvolvedores em uma postagem no blog.

avalanche

Postagens recentes

Após dois anos de espera, finalmente chegou ao que foi prometido: o Google lançou o aplicativo do YouTube para o Apple Vision Pro.

O headset de realidade aumentada Apple Vision Pro receberá um aplicativo nativo do YouTube para…

12 minutos atrás

Triunfo da AMD: Ryzen conquista mais de 36% do mercado de CPUs para desktops, enquanto a Intel perde terreno em todos os segmentos.

Segundo a Mercury Research, a AMD encerrou 2025 com um resultado "triunfante", aumentando sua participação…

54 minutos atrás

A Europa acaba de lançar seu foguete mais potente até o momento, o Ariane 64, em sua configuração máxima.

Em 12 de fevereiro de 2026, às 19h45, horário de Moscou, a Europa lançou seu…

1 hora atrás

O ambicioso simulador de sobrevivência Blackfrost: The Long Dark 2 não será lançado em 2026, devido a prejuízos sofridos pelos desenvolvedores.

Raphael van Lierop, chefe do estúdio canadense Hinterland, relatou o adiamento forçado do simulador de…

2 horas atrás

O ambicioso simulador de sobrevivência Blackfrost: The Long Dark 2 não será lançado em 2026, devido a prejuízos sofridos pelos desenvolvedores.

Raphael van Lierop, chefe do estúdio canadense Hinterland, relatou o adiamento forçado do simulador de…

2 horas atrás