A Apple publicou três artigos dedicados à sua pesquisa em inteligência artificial. Os cientistas da empresa propuseram novas abordagens para encontrar bugs em códigos, testar soluções de software geradas por IA e treinar modelos e agentes capazes de gerar código funcional.
Fonte da imagem: Milad Fakurian / unsplash.com
O primeiro estudo concentra-se em um modelo que a Apple apelidou de ADE-QVAET. Ele visa abordar problemas inerentes aos modelos tradicionais de IA moderna, como alucinações, comportamento fora de contexto do modelo ao analisar grandes bases de código e perda de conexão com a lógica de negócios real da solução de software atual. O ADE-QVAET visa melhorar a precisão da previsão de erros combinando quatro técnicas de IA: Evolução Diferencial Adaptativa (ADE), Autocodificador Variacional Quântico (QVAE), Arquitetura de Transformador e Redução e Aumento Adaptativo de Ruído (ANRA).
O ADE serve como um mecanismo alternativo de treinamento de modelos, o QVAE facilita a detecção de padrões mais profundos nos dados, o transformador ajuda a rastrear as relações entre esses padrões e o ANRA limpa e balanceia os dados para garantir resultados de IA consistentes. Ao contrário de um modelo de linguagem grande, este modelo não analisa diretamente o código; ele avalia sua complexidade, tamanho e estrutura, procurando padrões que possam indicar possíveis localizações de erros. Após treinar o modelo em 90% do conjunto de dados original, os pesquisadores descobriram que a precisão da previsão ADE-QVAET variou de 95% a 98%. Isso significa que o modelo demonstra alta confiabilidade e alta eficiência na identificação de erros válidos, com praticamente nenhum falso positivo.O segundo estudo, conduzido principalmente pelos autores do primeiro, pretende formar ferramentas para planear e criarFerramentas de teste para grandes projetos de software. Cientistas construíram o sistema Agentic RAG (Retrieval-Augmented Generation) a partir de um grande modelo de linguagem e agentes de IA. Ele planeja, escreve e organiza testes de software de forma autônoma, facilitando o trabalho dos engenheiros de qualidade — essas tarefas ocupam de 30% a 40% do tempo deles, de acordo com os autores do estudo.
Fonte da imagem: Igor Omilaev / unsplash.com
A conexão de múltiplos agentes ao modelo de IA baseado em RAG ajudou a aumentar a precisão dos testes de software de 65% no modelo anterior de RAG sem agentes para 94,8% no modelo baseado em IA e agentes. O tempo de teste de software foi reduzido em 85%, a precisão das ferramentas de teste aumentou em 85% e a economia de custos projetada foi de 35%. O novo sistema reduziu o tempo de implementação de soluções de software em dois meses. A única limitação do sistema Agentic RAG da Apple é que ele foi testado em sistemas corporativos complexos de RH e contabilidade, bem como em ferramentas SAP.
O terceiro projeto, chamado SWE-Gym, não foi projetado para prever erros ou testar software — é um mecanismo de aprendizado para agentes de IA. Ao aprender a ler, editar e testar códigos de software do mundo real, esses agentes ganham a capacidade de corrigir erros. A plataforma SWE-Gym foi construída utilizando 2.438 problemas reais em Python, provenientes de 11 repositórios de código aberto — cada um contendo um ambiente executável e um conjunto de testes, permitindo que agentes de IA pratiquem a escrita e a depuração de código em condições realistas. Os autores do estudo também criaram a plataforma SWE-Gym Lite, baseada em 230 problemas mais simples, o que ajuda a acelerar o treinamento e a reduzir os custos computacionais.
Os agentes treinados com o SWE-Gym resolveram corretamente 72,5% dos problemas, o que significa que a plataforma melhorou seu desempenho em 20 pontos percentuais em comparação com os métodos anteriores. Com o SWE-Gym Lite, o tempo de treinamento é reduzido pela metade em comparação com o original.plataforma completa, mas os agentes treinados em uma versão leve são projetados para trabalhar com tarefas mais simples.
Durante os estágios iniciais do treinamento de veículos automatizados, esses veículos se destacavam no trânsito…
A TeamGroup apresentou a série T-Force Z54E M.2 NVMe Gen 5 de unidades de estado…
A subsidiária da Xpeng, AeroHT, mudou de nome e revelou um novo táxi aéreo, ou…
É geralmente aceito que experimentos extremos de overclocking são algo por si só, lembrando mais…
O remake de 2023 do terror espacial Dead Space efetivamente encerrou a série, mas a…
A Xiaomi anunciou oficialmente a data de lançamento de sua principal linha de smartphones, a…