Agora qualquer um pode treinar uma IA de raciocínio por apenas US$ 450 – Sky-T1 é de código aberto

Esta semana, pesquisadores do Sky Computing Lab da Universidade da Califórnia, Berkeley, lançaram o modelo de inteligência artificial Sky-T1-32B-Preview. Estamos falando de uma rede neural com capacidade de raciocínio que pode competir com OpenAI o1 em vários indicadores-chave.

Fonte da imagem: Lee Campbell/Unsplash

Aparentemente, o Sky-T1 é o primeiro modelo a suportar o raciocínio de código aberto, o que permitirá que seja replicado do zero. Os desenvolvedores publicaram o conjunto de dados que foi usado para treinar o algoritmo, bem como outros dados necessários para executar o modelo de IA.

Uma das principais características do algoritmo é que seu treinamento não exige custos significativos. “Notavelmente, o Sky-T1-32B-Preview foi treinado por menos de US$ 450”, escreveram os desenvolvedores em seu blog. Assim, demonstraram claramente que é possível criar um modelo de IA com capacidades de raciocínio de alto nível sem investimento financeiro significativo.

Até recentemente, o custo de treinar um grande modelo linguístico com características comparáveis ​​era medido em milhões de dólares. Foi possível reduzir significativamente os custos através da utilização de dados sintéticos, ou seja, dados gerados por outras redes neurais. Por exemplo, o algoritmo Palmyra X 004 lançado recentemente pela Winter foi treinado em dados sintéticos e custou aos desenvolvedores US$ 700 mil.

Ao contrário de muitos algoritmos de IA, os modelos de raciocínio verificam os factos de forma eficaz, o que lhes permite fornecer respostas mais precisas e são menos propensos a cometer erros que enganem os utilizadores. Além disso, os modelos de raciocínio normalmente demoram mais para gerar uma resposta a uma consulta em comparação com algoritmos convencionais de IA. No entanto, os modelos de raciocínio são geralmente mais confiáveis, especialmente em áreas como física, matemática e ciências.

Segundo relatos, os desenvolvedores aproveitaram o modelo de raciocínio QwQ-32B-Preview do Alibaba para criar o conjunto de dados de treinamento Sky-T1 inicial. Os dados foram então convertidos usando GPT-4o-mini da OpenAI em um formato mais preciso. O processo de treinamento do Sky-T1 com 32 bilhões de parâmetros durou cerca de 19 horas, para as quais foram utilizados 8 aceleradores gráficos Nvidia H100.

«No futuro, nos concentraremos no desenvolvimento de modelos mais eficientes que mantenham um forte desempenho de raciocínio, bem como na exploração das melhores práticas para melhorar a eficiência e a precisão dos modelos durante os testes. Fique ligado enquanto progredimos nessas iniciativas interessantes”, escreveram os desenvolvedores em uma postagem no blog.

avalanche

Postagens recentes

Donald Trump ameaçou impor tarifas de 100% aos países que tributam os serviços digitais de empresas americanas.

Tendo-se cercado de representantes da indústria tecnológica americana durante seu segundo mandato, Donald Trump está…

34 minutos atrás

A Apple e a SpaceX terão a oportunidade de testar a tecnologia Intel 14A neste outono.

Pouco depois de assinar um acordo de cooperação com a Intel, Elon Musk, chefe da…

1 hora atrás

As ações de tecnologia caíram globalmente na sexta-feira, mas a Apple contrariou a tendência.

Diversos eventos ocorreram na última semana, impactando de maneiras variadas a direção das ações de…

3 horas atrás

As Aventuras de Elliot: Contos do Milênio – Um Retorno à Moda Antiga. Análise / Jogos

Jogado no Xbox Series S Em 2018, foi lançado Octopath Traveler, o primeiro jogo feito…

9 horas atrás

As Aventuras de Elliot: Contos do Milênio – Um Retorno à Moda Antiga. Resenha

Jogado no Xbox Series S Em 2018, foi lançado Octopath Traveler, o primeiro jogo feito…

9 horas atrás