Os parceiros contratuais do Google, trabalhando para melhorar a qualidade das respostas do chatbot Gemini AI do Google, comparam-nas com as respostas do chatbot concorrente da Anthropic, Claude, escreve o TechCrunch, citando correspondência interna da empresa. Ao mesmo tempo, o Google deixou sem resposta a pergunta do TechCrunch sobre se recebeu permissão para usar Claude em testes com o Gemini.
Fonte da imagem: Google
As empresas muitas vezes avaliam a eficácia dos modelos de IA desenvolvidos em comparação com os desenvolvimentos dos concorrentes usando benchmarks do setor, em vez de instruir os empreiteiros a compará-los com as capacidades de IA dos seus concorrentes.
Os desenvolvedores contratados do Google que trabalham para melhorar o Gemini devem avaliar cada resposta do modelo com base em vários critérios, como confiança e nível de detalhe. De acordo com correspondência publicada pelo TechCrunch, eles têm até 30 minutos por solicitação para determinar qual resposta é melhor – Gêmeos ou Claude.
Os desenvolvedores relatam que as respostas de Claude são mais focadas na segurança do que as de Gemini. “As configurações de segurança de Claude são as mais rigorosas” entre os modelos de IA, observou um dos desenvolvedores contratados no chat do serviço. Em alguns casos, Claude não respondeu a solicitações que considerava inseguras, como a sugestão de encenação com outro assistente de IA. Em outro caso, Claude evitou responder a uma pergunta, enquanto a resposta de Gemini foi sinalizada como uma “violação grave de segurança” porque incluía “nudez e escravidão”.
Shira McNamara, porta-voz do Google DeepMind, desenvolvedor do Gemini, não respondeu à pergunta do TechCrunch sobre se o Google havia recebido permissão da Anthropic para usar Claude. Ela esclareceu que a DeepMind “compara resultados de simulação” para avaliação, mas não treina Gemini para trabalhar com modelos da Antrópico. “Qualquer sugestão de que usamos modelos antrópicos para treinar Gêmeos é imprecisa”, disse McNamara.
As aplicações industriais dos robôs humanoides chineses não se limitarão ao mercado interno, conforme revelado…
Pesquisadores da Universidade de Nova Gales do Sul (UNSW) desenvolveram um tipo fundamentalmente novo de…
Em meados do verão passado, a OpenAI concluiu a aquisição da startup de Jony Ive…
O jogo de aventura Tides of Tomorrow, publicado pela THQ Nordic e desenvolvido pela Digixart…
Na semana passada, o aplicativo Google Clock foi atualizado para a versão 8.5. O desenvolvedor…
O Yandex Maps adicionou a capacidade de compartilhar sua localização em tempo real, permitindo que…