Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

O campo da IA se interessou por pequenos modelos de linguagem – eles são mais baratos e mais eficazes do que os grandes em tarefas específicas

O mercado de IA está atualmente observando uma tendência de uso de modelos de linguagem pequena (SLMs), que têm menos parâmetros do que modelos de linguagem grande (LLMs) e são mais adequados para uma gama mais restrita de tarefas, escreve a revista Wired.

Fonte da imagem: Luke Jones/unsplash.com

As versões mais recentes dos LLMs da OpenAI, Meta✴ e DeepSeek têm centenas de bilhões de parâmetros, o que os torna melhores na detecção de padrões e relacionamentos, tornando-os mais poderosos e precisos. Entretanto, seu treinamento e uso exigem enormes recursos computacionais e financeiros. Por exemplo, treinar o modelo Gemini 1.0 Ultra custou ao Google US$ 191 milhões. De acordo com o Electric Power Research Institute, executar uma única consulta no ChatGPT requer cerca de 10 vezes mais energia do que uma única pesquisa no Google.

IBM, Google, Microsoft e OpenAI lançaram recentemente SLMs com apenas alguns bilhões de parâmetros. Eles não podem ser usados como ferramentas de uso geral, como os LLMs, mas fazem um ótimo trabalho em tarefas mais específicas, como resumir conversas, responder perguntas de pacientes como um chatbot de saúde e coletar dados em dispositivos inteligentes. “Eles também podem ser executados em um laptop ou celular, em vez de em um enorme centro de dados”, disse Zico Kolter, cientista da computação da Universidade Carnegie Mellon.

Para treinar modelos pequenos, os pesquisadores usam vários métodos, como a destilação de conhecimento, na qual o LLM gera um conjunto de dados de alta qualidade transferindo conhecimento para o SLM, como um professor dando aulas para um aluno. Pequenos modelos também são criados a partir de modelos maiores por meio de “aparamento” – remoção de partes desnecessárias ou ineficazes da rede neural.

Como os SLMs têm menos parâmetros que os modelos maiores, seu raciocínio pode ser mais transparente. Um modelo de alvo pequeno terá um desempenho tão bom quanto um grande na execução de tarefas específicas, mas será mais fácil de desenvolver e treinar. “Esses modelos eficientes podem economizar dinheiro, tempo e recursos de computação”, disse Leshem Choshen, cientista pesquisador do MIT-IBM Watson AI Lab.

avalanche

Próximo Tesla Cybertruck fracassa - vendas de picapes futuristas são significativamente menores do que o esperado »

Anterior « UE ameaça tributar empresas dos EUA se negociações com Trump fracassarem

Deixar comentário

Publicado por

avalanche

11 meses atrás

Postagens recentes

Carros, motos, veículos

Os chineses dobraram a capacidade das baterias de íon-lítio produzidas em massa simplesmente substituindo o eletrólito.

Cientistas chineses publicaram um artigo na revista Nature que pode desencadear uma revolução nas baterias…

1 hora atrás

Notícias da rede

A OpenAI demitiu um funcionário por usar informações privilegiadas para apostar em mercados de previsão.

A OpenAI demitiu um funcionário por usar informações confidenciais sobre negociações realizadas em mercados de…

2 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O Google descobriu como proteger o HTTPS contra ataques de computação quântica sem aumentar o tamanho dos certificados TLS.

O Google propôs uma solução que poderia ajudar a proteger os certificados necessários para o…

2 horas atrás

TrendForce: Os investimentos de capital de oito empresas de hiperescala em 2026 ultrapassarão o PIB da Irlanda.

Este ano, a TrendForce estima que os oito maiores provedores de nuvem do mundo —…

3 horas atrás

Espaço

A NASA alterou radicalmente o programa Artemis para evitar perder a corrida lunar para a China: o pouso foi adiado e o módulo de pouso SLS foi reduzido.

Altos funcionários dos EUA afirmaram repetidamente que um segundo pouso lunar da China antes dos…

3 horas atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

Supermicro apresenta plataforma MicroBlade de alta densidade baseada no AMD EPYC 4005

A Supermicro anunciou sua nova plataforma de servidores MicroBlade para implantações em nuvem e edge…

4 horas atrás