Agora qualquer um pode treinar uma IA de raciocínio por apenas US$ 450 – Sky-T1 é de código aberto

Esta semana, pesquisadores do Sky Computing Lab da Universidade da Califórnia, Berkeley, lançaram o modelo de inteligência artificial Sky-T1-32B-Preview. Estamos falando de uma rede neural com capacidade de raciocínio que pode competir com OpenAI o1 em vários indicadores-chave.

Fonte da imagem: Lee Campbell/Unsplash

Aparentemente, o Sky-T1 é o primeiro modelo a suportar o raciocínio de código aberto, o que permitirá que seja replicado do zero. Os desenvolvedores publicaram o conjunto de dados que foi usado para treinar o algoritmo, bem como outros dados necessários para executar o modelo de IA.

Uma das principais características do algoritmo é que seu treinamento não exige custos significativos. “Notavelmente, o Sky-T1-32B-Preview foi treinado por menos de US$ 450”, escreveram os desenvolvedores em seu blog. Assim, demonstraram claramente que é possível criar um modelo de IA com capacidades de raciocínio de alto nível sem investimento financeiro significativo.

Até recentemente, o custo de treinar um grande modelo linguístico com características comparáveis ​​era medido em milhões de dólares. Foi possível reduzir significativamente os custos através da utilização de dados sintéticos, ou seja, dados gerados por outras redes neurais. Por exemplo, o algoritmo Palmyra X 004 lançado recentemente pela Winter foi treinado em dados sintéticos e custou aos desenvolvedores US$ 700 mil.

Ao contrário de muitos algoritmos de IA, os modelos de raciocínio verificam os factos de forma eficaz, o que lhes permite fornecer respostas mais precisas e são menos propensos a cometer erros que enganem os utilizadores. Além disso, os modelos de raciocínio normalmente demoram mais para gerar uma resposta a uma consulta em comparação com algoritmos convencionais de IA. No entanto, os modelos de raciocínio são geralmente mais confiáveis, especialmente em áreas como física, matemática e ciências.

Segundo relatos, os desenvolvedores aproveitaram o modelo de raciocínio QwQ-32B-Preview do Alibaba para criar o conjunto de dados de treinamento Sky-T1 inicial. Os dados foram então convertidos usando GPT-4o-mini da OpenAI em um formato mais preciso. O processo de treinamento do Sky-T1 com 32 bilhões de parâmetros durou cerca de 19 horas, para as quais foram utilizados 8 aceleradores gráficos Nvidia H100.

«No futuro, nos concentraremos no desenvolvimento de modelos mais eficientes que mantenham um forte desempenho de raciocínio, bem como na exploração das melhores práticas para melhorar a eficiência e a precisão dos modelos durante os testes. Fique ligado enquanto progredimos nessas iniciativas interessantes”, escreveram os desenvolvedores em uma postagem no blog.

avalanche

Postagens recentes

Kratos, da série God of War da Amazon, é o dublador de Thor em God of War: Ragnarok.

A Amazon MGM Studios e a Sony Pictures Television escolheram o ator principal para a…

20 minutos atrás

O bot de IA da Alibaba, Qwen, agora pode pedir comida por delivery e reservar viagens.

A Alibaba apresentou uma grande atualização para seu bot de IA, o Qwen, que agora…

21 minutos atrás

Sai da frente, Google Translate: a OpenAI lançou o ChatGPT Translate.

A OpenAI lançou discretamente seu serviço de tradução online, o ChatGPT Translate. Ele é um…

21 minutos atrás

Intel garante: fabricantes de laptops têm estoques de memória suficientes para durar de 9 a 12 meses.

Este ano, o segmento de laptops poderá apresentar resultados excepcionais, que só poderão ser afetados…

2 horas atrás

A TSMC poderá iniciar a produção de chips de IA OpenAI Titan de 3 nm ainda este ano; a segunda geração passará a utilizar a tecnologia de 1,6 nm.

Obcecado com a ideia de desenvolver rapidamente uma infraestrutura de computação de IA, o CEO…

2 horas atrás

Três ex-funcionários da OpenAI retornaram à empresa após deixarem a startup de IA de Mira Murati.

O escândalo envolvendo a renúncia não concretizada do CEO da OpenAI, Sam Altman, inspirou roteiristas…

2 horas atrás