A Anthropic, uma das principais concorrentes da OpenAI, lançou o Claude 3.7 Sonnet, seu primeiro “modelo de raciocínio híbrido”. A empresa afirma que pode resolver problemas mais complexos do que seus antecessores e superá-los em áreas como matemática e codificação.

Fonte da imagem: Antrópico

A OpenAI e outras empresas oferecem modelos com capacidades de raciocínio separadas dos modelos regulares de IA generativa. A Anthropic decidiu combiná-los em um sistema para obter uma solução universal. Como resultado, o usuário pode escolher quando os modelos Claude 3.7 Sonnet devem responder normalmente e quando pensar mais sobre a resposta. No modo padrão, o Claude 3.7 Sonnet é simplesmente uma versão melhorada do anterior Claude 3.5 Sonnet com dados mais recentes (seu banco de dados inclui informações até novembro de 2024). No modo Pensamento Avançado, a IA pensa por si mesma antes de responder, o que melhora o desempenho ao resolver problemas de matemática, física, seguir instruções complexas, codificação e muitos outros.
A chefe de pesquisa de produtos da Anthropic, Dianne Penn, disse ao The Verge que a empresa queria tornar o modelo mais fácil de usar. “Nós pensamos fundamentalmente que o raciocínio é mais uma característica da IA do que algo completamente separado”, ela diz, observando que Claude não demora muito para responder à pergunta “que horas são?” em comparação a uma consulta mais complexa como “planeje uma viagem de duas semanas para a Itália, considerando o clima no final de março”.

Além do novo modelo, a Anthropic também lançou uma “prévia de pesquisa limitada” de seu agente de programação de IA chamado Claude Code. Embora a Anthropic já ofereça ferramentas de codificação de IA como o Cursor, a empresa anuncia seu novo Claude Code como “um colaborador ativo que pode pesquisar e ler código, editar arquivos, escrever e executar testes, enviar e enviar código para o GitHub e usar ferramentas de linha de comando”.
O Anthropic também permite que os desenvolvedores controlem como o modelo “pensa” e até mesmo definam um limite de tempo para pensar. “Às vezes, você só precisa dizer a um desenvolvedor que a resposta a essa pergunta não deve levar mais de 200 milissegundos”, observa Michael Gerstenhaber, vice-presidente de produtos da Anthropic.
Penn diz que o Claude 3.7 da Sonnet é notavelmente melhor que seus concorrentes no manuseio de “codificação de agentes”, tarefas financeiras e jurídicas. Uma porta-voz da Anthropic disse que os funcionários da empresa estão usando ativamente o novo modelo para criar designs de sites, jogos interativos e até mesmo gastar até 45 minutos codificando, “criando casos de teste e editando casos de teste iterativamente”.
Penn também revelou que a empresa está testando seus modelos para ver se eles conseguem rodar o antigo videogame Pokémon simulando o pressionamento de botões do controle por meio de uma API. Claude 3.5 Sonnet não conseguiu escapar de Pallet Town no início do jogo, enquanto a versão 3.7 conseguiu derrotar vários chefes.
O lançamento do Claude 3.7 Sonnet mostra que a indústria de IA está caminhando para oferecer um modelo único que pode responder rapidamente e pensar em problemas complexos, em vez de vários modelos separados. O CEO da OpenAI, Sam Altman, falou recentemente sobre algo semelhante.
