A Apple está desenvolvendo um agente de IA que entende as interfaces dos aplicativos e pode interagir com elas em nome do usuário, rodando localmente no dispositivo. Trata-se do algoritmo Ferret-UI Lite, com 3 bilhões de parâmetros, que, em testes, iguala ou supera os benchmarks de modelos de IA até 24 vezes maiores.
Fonte da imagem: 9to5mac.com
Em dezembro de 2023, uma equipe de nove pesquisadores publicou o artigo “FERRET: Refer and Ground Anything Anywhere at Any Granularity” (FERRET: Referencie e Fundamente Qualquer Coisa em Qualquer Lugar com Qualquer Granularidade). Nele, descreveram um modelo de linguagem multimodal que pode ser treinado com diversos tipos de dados e compreender referências em linguagem natural a fragmentos de imagem específicos. Desde então, a Apple publicou uma série de artigos expandindo a família de modelos de IA Ferret, incluindo os algoritmos Ferretv2, Ferret-UI e Ferret-UI 2.
Assim, os modelos Ferret-UI expandiram significativamente as capacidades originais do FERRET e foram treinados para abordar o que os pesquisadores geralmente chamam de deficiências dos grandes modelos de linguagem multimodais (MLLMs). “Os avanços recentes em MLLMs são notáveis, mas esses MLLMs de propósito geral frequentemente têm dificuldades para reconhecer e interagir efetivamente com interfaces de usuário (UIs). Neste artigo, apresentamos o Ferret-UI, um novo MLLM projetado para aprimorar o reconhecimento de UIs em dispositivos móveis, equipado com recursos de referência, ancoragem e raciocínio. Dado que as interfaces móveis normalmente têm uma proporção de aspecto mais alta e contêm elementos menores (como ícones e texto) do que imagens naturais, adicionamos ‘resolução arbitrária’ ao Ferret para aumentar os detalhes e aproveitar as pistas visuais aprimoradas”, afirma o artigo da Apple.
Há alguns dias, a Apple expandiu sua família de modelos Ferret-UI e publicou os resultados de sua pesquisa, “Ferret-UI Lite: Lições da Construção de Pequenos Agentes de GUI para Dispositivos Móveis”. O Ferret-UI é baseado em um framework LLM de 13 bilhões de parâmetros, que se concentra na compreensão de interfaces móveis e capturas de tela com resolução fixa. O Ferret-UI 2 expandiu o sistema para suportar múltiplas plataformas e resoluções mais altas. O Ferret-UI Lite, por sua vez, é um modelo muito mais leve, projetado para rodar no dispositivo local. Ele permanece competitivo com agentes de GUI significativamente maiores.
A publicação dos pesquisadores afirma que “a maioria dos métodos existentes para construir agentes de GUI […] se concentra em modelos grandes e fundamentais”. Isso ocorre porque “os poderosos recursos de raciocínio e planejamento de grandes modelos do lado do servidor permitem que esses sistemas de agentes alcancem resultados impressionantes em uma variedade de tarefas de navegação em GUI”.
Observa-se que progressos significativos foram feitos tanto em sistemas GUI multicomponentes quanto em sistemas GUI de ponta a ponta, utilizando diversas abordagens para otimizar uma variedade de tarefas associadas à interação baseada em agentes com interfaces gráficas (comunicação de baixo nível com elementos da GUI, compreensão na tela, planejamento em múltiplas etapas e introspecção). No entanto, todos esses sistemas são inerentemente grandes demais e exigem alto poder computacional para serem executados de forma eficiente em um dispositivo local.
Para solucionar esse problema, pesquisadores desenvolveram o Ferret-UI Lite, uma versão do Ferret-UI com 3 bilhões de parâmetros, construída sobre a arquitetura existente do Ferret-UI.”Utilizando múltiplos componentes-chave” e aplicando insights obtidos com o treinamento de pequenos LLMs (Modelos de Aprendizado de Liderança).
O Ferret-UI Lite utiliza dados de treinamento reais e sintéticos de múltiplos domínios de GUI (Interface Gráfica do Usuário), técnicas de recorte dinâmico e otimização para aprimorar a compreensão de segmentos específicos de GUI. Métodos de ajuste fino supervisionado e aprendizado por reforço também foram empregados. O resultado foi um modelo de IA que se equipara ou até mesmo supera modelos de agentes de GUI concorrentes, com até 24 vezes mais parâmetros.
Diversas inovações, incluindo o fato de o próprio modelo gerar dados de treinamento, são intrigantes. Os pesquisadores criaram um sistema multiagente que interage diretamente com interfaces gráficas reais para gerar em massa exemplos sintéticos para seu treinamento. Um gerador de tarefas de treinamento é utilizado, definindo metas de dificuldade crescente, e um agente de planejamento divide o processo de alcançá-las em etapas. Um agente de ancoragem executa sequencialmente todas as etapas na tela, e um agente de avaliação verifica os resultados.
Este pipeline permite que o sistema de treinamento capture a incerteza das interações do mundo real, incluindo erros e estados inesperados. Isso seria mais difícil se o modelo fosse treinado exclusivamente com dados reais rotulados manualmente. Curiosamente, o Ferret-UI e o Ferret-UI 2 foram treinados com imagens de interfaces do iOS e de outras plataformas da Apple, enquanto o Ferret-UI Lite foi treinado com imagens de interfaces do Android, aplicativos web e GUIs de desktop.
Os testes mostraram que o Ferret-UI Lite tem um bom desempenho em tarefas de curto prazo e baixo nível, mas apresenta menos sucesso na resolução de tarefas mais complexas e com várias etapas. Essa é uma compensação esperada, dadas as limitações do modelo relativamente pequeno, que pode ser executado localmente no dispositivo. Por outro lado, o Ferret-UI Lite garante um alto nível de privacidade de dados, já que o algoritmo é executado localmente e não transmite dados para os servidores da Apple.
A G42 Holdings, uma holding sediada nos Emirados Árabes Unidos, e a Cerebras, em parceria…
A G42 Holdings, uma holding sediada nos Emirados Árabes Unidos, e a Cerebras, em parceria…
No ano passado, a popular plataforma de jogos Roblox, da empresa americana Roblox Corporation, foi…
Assinantes do YouTube Premium relataram que seus alto-falantes Google Home começaram a reproduzir anúncios e…
Anteriormente, foi anunciado que a divisão Xbox da Microsoft havia passado por mudanças na liderança.…
O WhatsApp está trabalhando em um novo recurso de formatação de texto que permitirá aos…