Confronto: testes comparativos dos modelos de IA conversacional YandexGPT e GigaChat

Nosso interesse nos modelos domésticos de IA generativa YandexGPT e GigaChat se deve a vários fatores. Em primeiro lugar, neste momento estes são os dois maiores projetos no domínio da inteligência artificial no mercado russo, que começaram aproximadamente ao mesmo tempo e estão a ser ativamente desenvolvidos e melhorados pelos desenvolvedores. Em segundo lugar, em comparação com soluções estrangeiras, não têm dificuldades com a língua russa e não são inferiores aos seus homólogos estrangeiros numa série de características. E por fim, YandexGPT e GigaChat estão disponíveis para um amplo público em diversas versões sem restrições – aproveitamos isso para testes comparativos de produtos.

De acordo com dados de pesquisa do Yandex, desde o início de 2022, o interesse do público Runet em redes neurais cresceu mais de quinze vezes (fonte da imagem: serviço Neurostat, ya.ru/ai/stat)

⇡#Aspectos tecnicos

Primeiro, algumas informações básicas sobre o que é cada um dos modelos de IA discutidos na revisão.

YandexGPT. Rede neural da família Generative Pretrained Transformer (GPT) da Yandex. Foi lançado pela primeira vez em maio de 2023 como parte do assistente virtual Alice e posteriormente foi usado em muitos serviços Yandex. YandexGPT foi treinado em duas etapas. Primeiramente, foram utilizados textos disponíveis publicamente – materiais de livros, sites, artigos, selecionados usando tecnologias de busca Yandex. Em seguida, a rede neural foi treinada em centenas de milhares de exemplos de respostas significativas e bem escritas, para cuja coleta e preparação Yandex usou tecnologias de crowdsourcing e uma equipe de treinadores de IA.

A terceira geração do YandexGPT está atualmente disponível. Segundo os desenvolvedores, a nova rede neural generativa processa melhor instruções com diversas condições, funciona mais corretamente com os fatos, dá respostas mais precisas e completas, comete menos erros estilísticos e, em alguns casos, é superior em qualidade aos modelos estrangeiros Llama-2 70B e ChatGPT-3.5 Turbo. Além de Alice, o YandexGPT está integrado à pesquisa Yandex e aos aplicativos móveis, Yandex Browser, Yandex Station e outros produtos da empresa. Os supercomputadores Yandex são usados ​​para treinar a rede neural.

GigaChat. Desenvolvimento do Sberbank, anunciado em abril de 2023. A arquitetura GigaChat é baseada no conjunto de redes neurais NeONKA (NEural Omnimodal Network with Knowledge-Awareness), que inclui vários modelos de IA, incluindo RuGPT-3 para trabalhar com textos e Kandinsky 3.1 para gerar imagens. Você pode interagir com o GigaChat por meio de um navegador, bem como com bots no Telegram messenger e na rede social VKontakte. Além disso, o serviço está disponível em dispositivos inteligentes Sber e no aplicativo móvel Salyut no Android.

O desenvolvimento do GigaChat e as melhorias nos modelos que lhe estão subjacentes envolvem as equipas SberDevices e Sber AI com o apoio do Instituto AIRI de Inteligência Artificial e de vários especialistas da indústria envolvidos na transferência de conhecimentos de vários assuntos para o GigaChat, configurando o serviço para o correto execução de instruções e precisão. Os modelos de IA são treinados no supercomputador Christofari Neo.

⇡#Testes de comparação

Para testes de avaliação dos modelos YandexGPT e GigaChat, usamos os serviços web a.ya.ru (“Alice”) e developers.sber.ru/portal/products/gigachat construídos com base neles. Em cada um dos cenários listados abaixo, foi utilizada a mesma solicitação para diferentes serviços, cujo resultado do processamento foi avaliado em uma escala de cinco pontos, levando em consideração os critérios de confiabilidade, completude, precisão e relevância dos dados gerados pela inteligência artificial e conformidade com padrões éticos.

Trabalhe no modo de perguntas e respostas. A força das redes neurais generativas modernas é sua impressionante base de conhecimento, que lhes permite navegar em qualquer área da atividade humana e encontrar uma resposta para quase qualquer pergunta em questão de segundos. YandexGPT com GigaChat não foi exceção à regra e nossas perguntas de controle “Qual é o comprimento da linha principal Baikal-Amur?”, “Onde foi produzida a aeronave Tu-144?” respondido sem erros. Ao mesmo tempo, o serviço Sber forneceu respostas detalhadas, enquanto Alisa se limitou a frases concisas.

Clique aqui e abaixo para ver as imagens em tamanho real.

A erudição dos desenvolvimentos domésticos de IA também está em ordem: ambos conseguiram se acostumar com o papel de especialistas no jogo intelectual televisivo “O quê? Onde? Quando?” e deu a resposta correta a uma pergunta que tiramos aleatoriamente, feita por um telespectador em uma das transmissões do programa. A pergunta era: “Em uma caixa preta há algo belo e vivo, na outra há algo belo mas morto. Os mortos, que substituíram este vivo nas casas dos holandeses do século XVII. O que há nas caixas pretas? Ambos os serviços adivinharam que se tratava de flores frescas e natureza morta, com o GigaChat a dar uma resposta mais detalhada.

Mas com perguntas complicadas como “Por que Pushkin não gostava de assistir TV?” e “Que modelo de smartphone Leo Tolstoy tinha?” nem tudo correu tão bem. O GigaChat navegou no prazo, detectou inconsistências, ativou a lógica e respondeu corretamente. “Alice” respondeu corretamente apenas a segunda pergunta e não percebeu o problema na primeira.

Avaliações finais: YandexGPT – 4 pontos, GigaChat – 5 pontos.

Gerando respostas detalhadas. Este cenário é geralmente relevante em circunstâncias relacionadas à resolução de problemas e tarefas cotidianas que exigem instruções e explicações detalhadas sobre o princípio do “aqui e agora”. Podem ser casos relacionados à solução de falhas do Windows, remoção de vírus de um computador, reparo independente de equipamentos que pararam de funcionar repentinamente, preparação de pratos com produtos disponíveis e outras situações da vida. Simulamos um deles e pedimos à inteligência artificial para ajudar a resolver um erro crítico do Windows Kernel Power. Ambos os serviços deram conta da tarefa, mas Alice, como sempre, revelou-se mesquinha com as palavras, e o GigaChat, ao contrário, emitiu as instruções mais detalhadas listando as possíveis causas do erro e um alerta sobre a importância de criar cópias de backup de dados.

Avaliações finais: YandexGPT – 4 pontos, GigaChat – 5 pontos.

Geração de texto. Outro cenário muito utilizado no trabalho com chatbots inteligentes, cuja mente eletrônica é capaz de produzir textos das mais diversas áreas temáticas, sejam ensaios, poemas, contos de fadas, parabéns, artigos, cartas comerciais, monografias, roteiros de eventos, currículos para contratação e muito mais que podem surgir na sua cabeça.

Foi assim que “Alice” e GigaChat responderam à proposta de elaborar um texto sobre o carro doméstico Lada Vesta para um folheto publicitário:

E foi assim que responderam ao pedido para redigir uma saudação de aniversário original:

No geral, nada mal, mas é claramente visível que os voos de fantasia dos serviços de IA estão aproximadamente no mesmo nível e, nesta disciplina de teste, eles têm uma paridade clara.

Avaliações finais: YandexGPT – 5 pontos, GigaChat – 5 pontos.

Breve resumo do conteúdo das páginas web. Somente o serviço Yandex pode analisar e fazer anotações sobre volumosos materiais de texto postados na rede global – o chatbot Sbera admitiu honestamente que não está conectado à Internet e só pode trabalhar com dados de texto carregados manualmente, bem como com documentos em formatos TXT (até 200 KB) e PDF (até 4 MB). Em termos de interação online com recursos de rede, o GigaChat é completamente inferior ao seu concorrente.

Avaliações finais: YandexGPT – 5 pontos, GigaChat – 1 ponto.

Tradução de textos. Nem Alice nem o GigaChat tiveram problemas para traduzir documentos em inglês para o russo. No entanto, a utilização de outras áreas da tradução mostrou o completo fracasso do serviço Yandex: descobriu-se que o seu conhecimento era suficiente apenas para traduzir palavras individuais e pequenas frases. Isso é bastante estranho, já que a empresa possui um sistema de tradução automática construído com base no YandexGPT, que conhece uma centena de idiomas e pode dar uma vantagem às soluções concorrentes. Talvez no futuro um tradutor completo seja integrado ao Alice. Enquanto isso, a vantagem fica do lado do GigaChat, que é capaz de traduzir textos em qualquer direção.

Pontuações finais: YandexGPT – 2 pontos, GigaChat – 5 pontos.

Resolvendo equações matemáticas. Se o chatbot GigaChat teve vantagem na tradução de textos para línguas estrangeiras, então a situação é exatamente oposta quando se trata de resolver equações algébricas e outras. No nosso caso, a rede neural Alice analisou rapidamente a equação x3–3x–2=0 em seus componentes e forneceu uma solução detalhada com uma resposta exata. O serviço Sber também tentou mostrar seu intelecto, gerando uma enorme “folha” com cálculos e conclusões matemáticas, mas nunca encontrou a resposta correta para o problema do 10º ano. Acontece.

Avaliações finais: YandexGPT – 5 pontos, GigaChat – 1 ponto.

Criação de imagens com base em descrições de texto. Uma função que se tornou uma espécie de padrão de facto na indústria de inteligência artificial generativa. No GigaChat, graças à integração do chatbot com a rede neural Kandinsky, ele realmente funciona e gera imagens longe de serem perfeitas, mas ainda assim relevantes para a solicitação do usuário. YandexGPT não pode fazer isso, e isso não é surpreendente: este modelo de IA é “adaptado” para trabalhar com textos e, para desenhar, o arsenal Yandex fornece uma rede neural separada, Yandex AI Rendering Technology (YandexART), que está integrada na Masterpiece. e outros serviços da empresa, com exceção de – infelizmente! – “Alice.” Talvez no futuro, os desenvolvedores do Yandex incutam habilidades de desenho em seu assistente virtual, mas por enquanto o chatbot Sbera é líder nesta disciplina.

Pontuações finais: YandexGPT – 1 ponto, GigaChat – 4 pontos.

Trabalhando com informações atualizadas. O número um nesta categoria é, sem dúvida, o serviço de IA “Alice”. Estando conectado aos recursos da rede global, pode trabalhar com fontes de notícias (selecionadas separadamente nas configurações do chatbot), informar sobre taxas de câmbio e o custo dos títulos, receber informações sobre a previsão do tempo, o custo de determinadas mercadorias no Yandex mercado on-line e muito mais. O GigaChat está privado de acesso à Internet e não pode operar com dados atuais.

Avaliações finais: YandexGPT – 5 pontos, GigaChat – 1 ponto.

Conversa com o usuário. Ambos os serviços – YandexGPT e GigaChat – podem atuar como interlocutores virtuais para conversas íntimas durante uma xícara de chá. Basta enviar a frase “Vamos bater um papo” para qualquer um dos chatbots, e ele entrará automaticamente na conversa sobre temas abstratos. Os diálogos são suportados tendo em conta o contexto das mensagens anteriores e a possibilidade de colocar questões esclarecedoras durante a conversa – isto permite comunicar com a inteligência artificial como com uma pessoa que acompanha o fio da conversa. No nosso caso, o GigaChat era mais aberto, falante e sociável, e “Alice”, como sempre, respondia com frases curtas e secas e não era propícia à comunicação.

Avaliações finais: YandexGPT – 4 pontos, GigaChat – 5 pontos.

⇡#Resumindo

Nosso resultado médio foi o seguinte: YandexGPT marcou 3,8 pontos nas disciplinas de teste, GigaChat marcou 3,6 pontos. Há paridade entre os dois serviços de IA – um tanto semelhantes em conceito e funcionalidade implementada, mas em alguns aspectos radicalmente diferentes um do outro.

Os pontos fortes do desenvolvimento do Yandex são a capacidade de extrair informações atualizadas de fontes on-line e gerar respostas claras e verificadas às solicitações dos usuários. Ao mesmo tempo, “Alice” é muitas vezes lacônica, francamente fraca no conhecimento de línguas estrangeiras e certamente não pode reivindicar os louros de uma artista venerável (mais precisamente, de uma artista). O serviço Sber, por sua vez, atrai pela criatividade e pelo hábito de ir ao fundo das coisas – é sociável, dá respostas abrangentes às dúvidas e desenha bem. No entanto, ele está sujeito às chamadas alucinações com respostas convincentes, mas completamente fictícias, o que se manifesta claramente quando o GigaChat resolve problemas matemáticos.

Seja como for, ambos os produtos estão no início de sua trajetória de desenvolvimento. E não há dúvida de que num futuro próximo, YandexGPT e GigaChat enfrentarão novos patamares, oportunidades e amplas perspectivas, cujo papel fundamental na implementação será desempenhado pela concorrência, que é o motor do progresso em qualquer área, inclusive em no campo da inteligência artificial.

avalanche

Postagens recentes

Discos rígidos de 60 TB estarão disponíveis em quatro anos graças à introdução do HAMR

De acordo com a American Engineering Association IEEE, até 2028, o volume de unidades de…

56 minutos atrás

O Ministério do Desenvolvimento Digital publicou regras para registrar dez mil blogueiros no registro Roskomnadzor

O Ministério do Desenvolvimento Digital da Federação Russa e Roskomnadzor prepararam regras para verificar os…

2 horas atrás

Elecom anunciou cabos USB4 2.0 – velocidades de até 80 Gbps e até 240 W de potência

O USB Implementers Forum (USB-IF), uma organização sem fins lucrativos que apoia o desenvolvimento e…

2 horas atrás

Arctic confirmou a compatibilidade de seus sistemas de refrigeração com processadores Arrow Lake-S

A Arctic foi um dos primeiros fabricantes de sistemas de refrigeração a mencionar o soquete…

3 horas atrás

Insider confiável: Assassin’s Creed IV: Black Flag remake será lançado mais cedo do que o esperado

Quando os rumores de um remake de Assassin's Creed IV: Black Flag começaram a surgir…

3 horas atrás

Rivian caminha para o pôr do sol: a empresa lançará menos veículos elétricos em 2024 do que em 2023

Rivian anunciou que lançará menos veículos elétricos este ano do que em 2023. A empresa…

3 horas atrás