Agora qualquer um pode treinar uma IA de raciocínio por apenas US$ 450 – Sky-T1 é de código aberto

Esta semana, pesquisadores do Sky Computing Lab da Universidade da Califórnia, Berkeley, lançaram o modelo de inteligência artificial Sky-T1-32B-Preview. Estamos falando de uma rede neural com capacidade de raciocínio que pode competir com OpenAI o1 em vários indicadores-chave.

Fonte da imagem: Lee Campbell/Unsplash

Aparentemente, o Sky-T1 é o primeiro modelo a suportar o raciocínio de código aberto, o que permitirá que seja replicado do zero. Os desenvolvedores publicaram o conjunto de dados que foi usado para treinar o algoritmo, bem como outros dados necessários para executar o modelo de IA.

Uma das principais características do algoritmo é que seu treinamento não exige custos significativos. “Notavelmente, o Sky-T1-32B-Preview foi treinado por menos de US$ 450”, escreveram os desenvolvedores em seu blog. Assim, demonstraram claramente que é possível criar um modelo de IA com capacidades de raciocínio de alto nível sem investimento financeiro significativo.

Até recentemente, o custo de treinar um grande modelo linguístico com características comparáveis ​​era medido em milhões de dólares. Foi possível reduzir significativamente os custos através da utilização de dados sintéticos, ou seja, dados gerados por outras redes neurais. Por exemplo, o algoritmo Palmyra X 004 lançado recentemente pela Winter foi treinado em dados sintéticos e custou aos desenvolvedores US$ 700 mil.

Ao contrário de muitos algoritmos de IA, os modelos de raciocínio verificam os factos de forma eficaz, o que lhes permite fornecer respostas mais precisas e são menos propensos a cometer erros que enganem os utilizadores. Além disso, os modelos de raciocínio normalmente demoram mais para gerar uma resposta a uma consulta em comparação com algoritmos convencionais de IA. No entanto, os modelos de raciocínio são geralmente mais confiáveis, especialmente em áreas como física, matemática e ciências.

Segundo relatos, os desenvolvedores aproveitaram o modelo de raciocínio QwQ-32B-Preview do Alibaba para criar o conjunto de dados de treinamento Sky-T1 inicial. Os dados foram então convertidos usando GPT-4o-mini da OpenAI em um formato mais preciso. O processo de treinamento do Sky-T1 com 32 bilhões de parâmetros durou cerca de 19 horas, para as quais foram utilizados 8 aceleradores gráficos Nvidia H100.

«No futuro, nos concentraremos no desenvolvimento de modelos mais eficientes que mantenham um forte desempenho de raciocínio, bem como na exploração das melhores práticas para melhorar a eficiência e a precisão dos modelos durante os testes. Fique ligado enquanto progredimos nessas iniciativas interessantes”, escreveram os desenvolvedores em uma postagem no blog.

avalanche

Postagens recentes

Conforme as cartas forem lançadas, conforme a rede ditar: a AWS está implementando uma arquitetura de rede RNG quase aleatória em seus data centers.

A AWS publicou uma descrição técnica da arquitetura de rede de data center que implementará…

23 horas atrás

O chefe da NASA afirma que os voos do foguete New Glenn não serão retomados antes de 2028, eliminando a Blue Origin da corrida lunar.

Durante um teste estático de ignição em 29 de maio de 2026, o foguete New…

23 horas atrás

Foi anunciado o sucessor espiritual de Zeus: Master of Olympus – o jogo de estratégia de construção de cidades Theos: Cities of Myth, onde história e mito se entrelaçam.

A editora Dotemu (Ninja Gaiden: Ragebound, Marvel Cosmic Invasion) e a Triskell Interactive, desenvolvedora de…

23 horas atrás

Plataforma de referência de IA Qualcomm Dragonwing IQ10 para robótica é apresentada.

Cristiano Amon, CEO da Qualcomm, apresentou a plataforma robótica Dragonwing IQ10 atualizada na Computex 2026.…

24 horas atrás

O RPG infernal baseado em turnos, Entropy, do criador de Dread Delusion, recebeu uma demo e uma data de lançamento no Acesso Antecipado do Steam.

A editora DreadXP e o estúdio britânico Lovely Hellplace (Dread Delusion) anunciaram a data de…

24 horas atrás