Estudo da Microsoft mostra que a IA é ‘mais ou menos’ na correção de bugs em códigos de software

Um novo estudo da Microsoft Research descobriu que, embora a IA esteja ajudando os desenvolvedores a escrever código, mesmo os melhores modelos da OpenAI (o1) e da Anthropic (Claude 3.7 Sonnet) só conseguem corrigir erros metade das vezes. O teste foi realizado com base no melhor benchmark SWE-bench, que mede a capacidade dos sistemas de IA de criar código de programa.

Fonte da imagem: gerada por IA

Durante o experimento, os agentes de IA tentaram resolver 300 problemas para eliminar erros no código. O líder foi o modelo Claude 3.7 Sonnet, que completou a tarefa com uma taxa de sucesso de 48,4%, o segundo lugar foi para o OpenAI o1 (30,2%) e o terceiro para o o3-mini (22,1%). Entretanto, como você pode ver, mesmo esses números estão longe do nível que se esperaria de programadores humanos experientes. Como explica o TechCrunch, o principal problema é que a inteligência artificial ainda tem uma compreensão deficiente de como usar as ferramentas disponíveis e interpretar erros.

Segundo os autores do estudo, o principal obstáculo continua sendo a falta de dados para modelos de treinamento. “Acreditamos firmemente que o treinamento ou a reciclagem podem torná-los melhores depuradores interativos”, escrevem eles. “No entanto, isso requer dados especializados, por exemplo, uma cadeia de registros de todos os processos de interação entre pessoas e depuradores de IA.”

Atualmente, esses dados são insuficientes, o que limita as capacidades dos modelos. Por exemplo, a popular ferramenta Devin da startup Cognition Labs só conseguiu lidar com três dos 20 testes de codificação por esse motivo. E embora a IA esteja sendo muito usada por empresas como o Google, o CEO Sundar Pichai diz que um quarto do código criado usando inteligência artificial pode, na verdade, introduzir bugs.

Líderes de tecnologia estão céticos quanto à automação completa da profissão de programação. Bill Gates está confiante de que a programação como profissão certamente não desaparecerá. O CEO da Replit, Amjad Masad, o CEO da Okta, Todd McKinnon, e o CEO da IBM, Arvind Krishna, compartilham opiniões semelhantes.

Apesar dos desafios óbvios, o interesse em ferramentas de desenvolvimento de IA continua crescendo. Os investidores veem potencial para ganhos de eficiência, mas os principais desenvolvedores acreditam que é muito cedo para confiar completamente na IA.

avalanche

Postagens recentes

A bateria de estado sólido da Donut Lab não pegou fogo e continuou funcionando mesmo depois de ser perfurada.

A startup finlandesa Donut Lab continua realizando uma série de testes independentes de sua bateria…

23 minutos atrás

A Asus alertou que os preços dos PCs vão disparar em 30% — não apenas a memória, mas também os processadores estão ficando mais caros.

Os chips de memória não são mais a única categoria de componentes de PC com…

23 minutos atrás

A nova BIOS não resolveu o problema: os processadores AMD Ryzen 7 9800X3D continuam apresentando defeitos em placas-mãe ASRock.

A ASRock lançou anteriormente a atualização de BIOS 4.10 para placas-mãe com soquete AM5, incluindo…

23 minutos atrás

A Basis apresenta o Basis Dynamix Enterprise com suporte expandido para sistemas de armazenamento domésticos e novos recursos de SDN.

A Basis, líder no mercado russo de software para gerenciamento de infraestrutura dinâmica, anuncia o…

2 horas atrás

“Eu mesmo não gosto de lixo de IA”: CEO da Nvidia começou a “entender” as críticas ao DLSS 5.

O CEO da Nvidia, Jensen Huang, em entrevista ao blogueiro Lex Fridman, comentou mais uma…

2 horas atrás

A Nintendo reduziu pela metade seu plano de produção do console Switch 2 devido às fracas vendas nos EUA.

O console de jogos Switch 2 estreou com vendas recordes, mas os meses subsequentes ficaram…

2 horas atrás