Google apresenta Gemma 2 2B, um modelo de linguagem compacto que supera o GPT 3.5 Turbo

O Google revelou o Gemma 2 2B, um modelo de linguagem de inteligência artificial (LLM) compacto, mas poderoso, que pode competir com os líderes do setor, apesar de seu tamanho significativamente menor. Com apenas 2,6 bilhões de parâmetros, o novo modelo de linguagem oferece desempenho equivalente a concorrentes muito maiores, incluindo OpenAI GPT-3.5 e Mistral AI Mixtral 8x7B.

Fonte da imagem: Google

No teste LMSYS Chatbot Arena, uma popular plataforma online para benchmarking e avaliação da qualidade de modelos de inteligência artificial, o Gemma 2 2B obteve 1.130 pontos. Este resultado está um pouco à frente dos resultados do GPT-3.5-Turbo-0613 (1117 pontos) e Mixtral-8x7B (1114 pontos) – modelos com dez vezes mais parâmetros.

O Google diz que Gemma 2 2B também obteve pontuação de 56,1 no teste MMLU (Massive Multitask Language Understanding) e 36,6 no teste MBPP (Mostly Basic Python Programming), o que é uma melhoria significativa em relação à versão anterior.

Gemma 2 2B desafia a sabedoria convencional de que modelos de linguagem maiores têm um desempenho inerentemente melhor do que os menores. O desempenho do Gemma 2 2B mostra que métodos de treinamento sofisticados, eficiência arquitetônica e conjuntos de dados de alta qualidade podem compensar a falta de parâmetros. O desenvolvimento do Gemma 2 2B também destaca a crescente importância das técnicas de compressão e destilação de modelos de IA. A capacidade de compilar com eficiência informações de modelos maiores em modelos menores abre as portas para ferramentas de IA mais acessíveis, sem sacrificar o desempenho.

O Google treinou Gemma 2 2B em um enorme conjunto de dados de 2 trilhões de tokens usando sistemas alimentados por seus aceleradores proprietários de IA TPU v5e. O suporte a vários idiomas amplia seu potencial de uso em aplicações globais. O modelo Gemma 2 2B é de código aberto. Pesquisadores e desenvolvedores podem acessar o modelo por meio da plataforma Hugging Face. Ele também oferece suporte a várias estruturas, incluindo PyTorch e TensorFlow.

avalanche

Postagens recentes

ChatGPT sofreu uma interrupção global

ChatGPT parou de funcionar para muitos usuários ao redor do mundo. Várias postagens nas redes…

53 minutos atrás

Os desenvolvedores do Assetto Corsa Evo confirmaram qual conteúdo o jogo terá no início do acesso antecipado e o que esperar do lançamento completo

A editora 505 Games e os desenvolvedores do estúdio italiano Kunos Simulazioni compartilharam detalhes de…

54 minutos atrás

A NASA contratou empresas privadas para fornecer comunicações num raio de 2 milhões de km da Terra.

A NASA selecionou recentemente quatro empresas para fornecer serviços de comunicações em órbita baixa da…

2 horas atrás

A montadora chinesa GAC ​​apresenta o robô humanóide GoMate com 38 graus de liberdade

A gigante automobilística chinesa GAC ​​apresentou em um evento em Xangai um robô humanóide com…

4 horas atrás

O principal concorrente da Tesla lançou o desenvolvimento de robôs humanóides

A chinesa BYD, uma das maiores fabricantes mundiais de veículos elétricos, montou um laboratório especial…

4 horas atrás