Anunciado na semana passada, o modelo de linguagem grande do Google PaLM 2 foi treinado em um volume cinco vezes maior que o do modelo 2022. Isso permite que a nova rede neural resolva tarefas mais complexas em programação, matemática e redação de textos, descobriram os jornalistas da CNBC.

Fonte da imagem: blog.google
O Google PaLM 2 foi treinado com 3,6 trilhões de tokens – esses elementos de treinamento de grandes modelos de linguagem ajudam as redes neurais a prever as próximas palavras em sequências. Os algoritmos de predição, por sua vez, permitem que grandes modelos de linguagem componham frases coerentes. Sua versão anterior, Google PaLM, lançada em 2022, foi treinada para 780 bilhões de tokens.
No último evento do Google I/O, a empresa demonstrou ativamente os recursos da inteligência artificial em sua integração em busca, e-mail, trabalho com documentos de texto e planilhas, mas não forneceu detalhes sobre a quantidade de dados de treinamento. Uma estratégia semelhante foi adotada pela OpenAI, que introduziu recentemente o GPT-4. As empresas explicam suas ações pela natureza competitiva dos negócios, e o público insiste em maior transparência em relação à IA.
O Google, no entanto, disse que o novo modelo acabou sendo menor que os anteriores, ou seja, a eficiência da tecnologia na execução de tarefas mais complexas aumentou. O PaLM 2, de acordo com os documentos internos da empresa, é treinado em 340 bilhões de parâmetros, enquanto a primeira versão tinha 540 bilhões deles – isso indica que a complexidade do modelo aumentou. A empresa confirmou que o PaLM 2 é treinado em 100 idiomas, permitindo a integração em 25 recursos e produtos do ecossistema Google, incluindo o chatbot experimental Bard.
O Google PaLM 2, de acordo com dados disponíveis publicamente, pode ser mais poderoso do que todos os modelos existentes. Para efeito de comparação, o Meta* LlaMA, anunciado em fevereiro, é treinado para 1,4 trilhão de tokens; A OpenAI, quando ainda compartilhava informações, relatou que o GPT-3 foi treinado em 300 bilhões de tokens; e o Google LaMDA, lançado há dois anos, foi treinado para 1,5 trilhão de tokens.
* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal decidiu definitivamente liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.
