Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Os pesquisadores criaram um análogo do modelo de IA OpenAI em 26 minutos usando o método de destilação

Pesquisadores da Stanford e da Universidade de Washington criaram um modelo de IA que supera o Openai na solução de problemas matemáticos. O modelo, chamado S1, foi treinado em um conjunto limitado de dados de 1000 perguntas por destilação. Isso tornou possível obter alta eficiência com recursos mínimos e provar que grandes empresas como OpenAI, Microsoft, Meta✴ e Google podem não precisar criar grandes centers, preenchendo -os com milhares de processadores gráficos da NVIDIA.

Fonte da imagem: Growtika/Unsplash

O método de destilação que os cientistas aplicou foi uma solução essencial no experimento. Essa abordagem permite que pequenos modelos estudem sobre as respostas fornecidas por modelos maiores de IA. Nesse caso, como escreve a Verge, a S1 melhorou rapidamente suas habilidades usando as respostas do modelo de inteligência artificial Gemini 2.0 Flash Thinking Experimental, desenvolvido pelo Google.

O modelo S1 foi criado com base no projeto QWEN2.5 do Alibaba (Cloud) Open Source. Inicialmente, os pesquisadores usaram um conjunto de dados de 59.000 perguntas, mas durante os experimentos chegaram à conclusão de que um aumento na quantidade de dados não fornece melhorias significativas e, para o treinamento final, eles usaram apenas um pequeno conjunto de 1000 questões. Ao mesmo tempo, foi utilizado apenas 16 GPU NVIDIA H100.

No S1, também foi utilizada uma técnica chamada “Escala de tempo de teste”, que permite que o modelo “reflita” antes de gerar uma resposta. Os pesquisadores também estimularam o modelo a dobrar suas conclusões adicionando um comando na forma da palavra “espera” (“espera”), que forçou a IA a continuar raciocinando e corrigindo erros em suas respostas.

Alega-se que o modelo S1 mostrou resultados impressionantes e foi capaz de superar a previsão OpenAI O1 em 27 % ao resolver problemas matemáticos. O modelo R1 recentemente sensacional da DeepSeek também usou uma abordagem semelhante para relativamente pouco dinheiro. É verdade que agora o OpenAI acusa o Deepseek de extrair informações de seus modelos, violando as condições de serviço. Vale a pena dizer que, nas condições de usar o Google Gemini, é indicado que sua API é proibida de usar para criar bots de bate -papo concorrentes.

Um aumento no número de modelos menores e mais baratos pode, de acordo com especialistas, entregar todo o setor e provar que não há necessidade de investir bilhões de dólares em treinamento de IA, criar grandes centers e comprar uma grande quantidade de GPU.

avalanche

Próximo Asrock transferirá parte de sua produção da China por causa das novas tarifas importadas introduzidas por Trump »

Anterior « Os processadores Qualcomm ocupavam 10 % do mercado dos EUA no segmento de PC com Windows mais de US $ 800

Deixar comentário

Publicado por

avalanche

1 ano atrás

Postagens recentes

Sensores e sistemas de sensores

O MIT criou um chip de navegação com o mesmo consumo de energia de um LED para pequenos drones e óculos de realidade aumentada.

Engenheiros do Instituto de Tecnologia de Massachusetts (MIT) apresentaram um chip especializado, o Gleanmer, que…

20 minutos atrás

Consoles de jogos

Foram divulgadas as primeiras análises do console portátil MSI Claw 8 EX AI+ com Intel Arc G3: rápido, mas muito caro.

Analistas independentes publicaram seus primeiros testes do novo console portátil para jogos MSI Claw 8…

3 horas atrás

Monitores, projetores, sintonizadores de TV, televisões

A AOC apresentou o vibrante monitor gamer OLED Agon Pro AGP277QKDC, com capacidade de overclock para 720Hz em resolução HD.

A AOC lançou o monitor gamer OLED Agon Pro AGP277QKDC de 27,7 polegadas. O novo…

3 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Após uma violação de dados, a Meta interrompeu o monitoramento de todas as atividades dos funcionários para treinamento de IA.

A Meta suspendeu seu programa interno de monitoramento de funcionários, que registrava a atividade do…

3 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

Nada revelará o smartphone Phone (4b) em 7 de julho.

Nada foi confirmado se o primeiro smartphone da série "(b)" será de fato lançado com…

3 horas atrás

Jogos

O brutal jogo de estratégia medieval Stronghold 4 recebeu uma demo gratuita no Steam.

O estúdio britânico Firefly, pertencente à Devolver Digital, anunciou o lançamento de uma demo prometida…

4 horas atrás

Os pesquisadores criaram um análogo do modelo de IA OpenAI em 26 minutos usando o método de destilação

Conteúdo relacionado

Postagens recentes

O MIT criou um chip de navegação com o mesmo consumo de energia de um LED para pequenos drones e óculos de realidade aumentada.

Foram divulgadas as primeiras análises do console portátil MSI Claw 8 EX AI+ com Intel Arc G3: rápido, mas muito caro.

A AOC apresentou o vibrante monitor gamer OLED Agon Pro AGP277QKDC, com capacidade de overclock para 720Hz em resolução HD.

Após uma violação de dados, a Meta interrompeu o monitoramento de todas as atividades dos funcionários para treinamento de IA.

Nada revelará o smartphone Phone (4b) em 7 de julho.

O brutal jogo de estratégia medieval Stronghold 4 recebeu uma demo gratuita no Steam.