Cientistas da Apple apresentaram três projetos para programação de IA: treinamento, detecção de bugs e testes.

A Apple publicou três artigos dedicados à sua pesquisa em inteligência artificial. Os cientistas da empresa propuseram novas abordagens para encontrar bugs em códigos, testar soluções de software geradas por IA e treinar modelos e agentes capazes de gerar código funcional.

Fonte da imagem: Milad Fakurian / unsplash.com

O primeiro estudo concentra-se em um modelo que a Apple apelidou de ADE-QVAET. Ele visa abordar problemas inerentes aos modelos tradicionais de IA moderna, como alucinações, comportamento fora de contexto do modelo ao analisar grandes bases de código e perda de conexão com a lógica de negócios real da solução de software atual. O ADE-QVAET visa melhorar a precisão da previsão de erros combinando quatro técnicas de IA: Evolução Diferencial Adaptativa (ADE), Autocodificador Variacional Quântico (QVAE), Arquitetura de Transformador e Redução e Aumento Adaptativo de Ruído (ANRA).

O ADE serve como um mecanismo alternativo de treinamento de modelos, o QVAE facilita a detecção de padrões mais profundos nos dados, o transformador ajuda a rastrear as relações entre esses padrões e o ANRA limpa e balanceia os dados para garantir resultados de IA consistentes. Ao contrário de um modelo de linguagem grande, este modelo não analisa diretamente o código; ele avalia sua complexidade, tamanho e estrutura, procurando padrões que possam indicar possíveis localizações de erros. Após treinar o modelo em 90% do conjunto de dados original, os pesquisadores descobriram que a precisão da previsão ADE-QVAET variou de 95% a 98%. Isso significa que o modelo demonstra alta confiabilidade e alta eficiência na identificação de erros válidos, com praticamente nenhum falso positivo.O segundo estudo, conduzido principalmente pelos autores do primeiro, pretende formar ferramentas para planear e criarFerramentas de teste para grandes projetos de software. Cientistas construíram o sistema Agentic RAG (Retrieval-Augmented Generation) a partir de um grande modelo de linguagem e agentes de IA. Ele planeja, escreve e organiza testes de software de forma autônoma, facilitando o trabalho dos engenheiros de qualidade — essas tarefas ocupam de 30% a 40% do tempo deles, de acordo com os autores do estudo.

Fonte da imagem: Igor Omilaev / unsplash.com

A conexão de múltiplos agentes ao modelo de IA baseado em RAG ajudou a aumentar a precisão dos testes de software de 65% no modelo anterior de RAG sem agentes para 94,8% no modelo baseado em IA e agentes. O tempo de teste de software foi reduzido em 85%, a precisão das ferramentas de teste aumentou em 85% e a economia de custos projetada foi de 35%. O novo sistema reduziu o tempo de implementação de soluções de software em dois meses. A única limitação do sistema Agentic RAG da Apple é que ele foi testado em sistemas corporativos complexos de RH e contabilidade, bem como em ferramentas SAP.

O terceiro projeto, chamado SWE-Gym, não foi projetado para prever erros ou testar software — é um mecanismo de aprendizado para agentes de IA. Ao aprender a ler, editar e testar códigos de software do mundo real, esses agentes ganham a capacidade de corrigir erros. A plataforma SWE-Gym foi construída utilizando 2.438 problemas reais em Python, provenientes de 11 repositórios de código aberto — cada um contendo um ambiente executável e um conjunto de testes, permitindo que agentes de IA pratiquem a escrita e a depuração de código em condições realistas. Os autores do estudo também criaram a plataforma SWE-Gym Lite, baseada em 230 problemas mais simples, o que ajuda a acelerar o treinamento e a reduzir os custos computacionais.

Os agentes treinados com o SWE-Gym resolveram corretamente 72,5% dos problemas, o que significa que a plataforma melhorou seu desempenho em 20 pontos percentuais em comparação com os métodos anteriores. Com o SWE-Gym Lite, o tempo de treinamento é reduzido pela metade em comparação com o original.plataforma completa, mas os agentes treinados em uma versão leve são projetados para trabalhar com tarefas mais simples.

admin

Postagens recentes

A OpenAI integrará o modelo de voz Bidi 1 ao ChatGPT, que poderá falar e ouvir simultaneamente.

A OpenAI pretende transformar o ChatGPT em um superaplicativo, e outra grande atualização está atualmente…

46 minutos atrás

A Microsoft quebrou o sistema de conversas por e-mail no Outlook para macOS, mas prometeu corrigir o problema.

Na atualização mais recente do Outlook para macOS, versão 16.110, compilação 26061317, a Microsoft desativou…

46 minutos atrás

Electronic Arts: A IA generativa levou a um aumento na criatividade dos desenvolvedores.

A Electronic Arts, editora e desenvolvedora americana, reconheceu a IA generativa como a base de…

46 minutos atrás

A OneXPlayer definiu o preço do console de jogos portátil OneXPlayer 3, equipado com um processador Intel Arc G3 Extreme, a partir de US$ 1.399.

A OneXPlayer lançou uma campanha de financiamento coletivo para seu novo console portátil OneXPlayer 3,…

1 hora atrás

O Google trouxe o Telegram de volta para a seção indiana da Play Store, enquanto a Apple está ficando para trás.

O Google reinstalou o aplicativo Telegram na Play Store indiana após uma proibição temporária que…

2 horas atrás