Cientistas da Apple desenvolveram a tecnologia RubiCap — uma forma de treinar modelos de inteligência artificial para descrever imagens com mais detalhes e eficiência do que modelos maiores.

Fonte da imagem: Steve Johnson / unsplash.com

Ao preparar uma descrição detalhada de uma imagem, um modelo de IA precisa identificar múltiplos objetos e regiões dentro do quadro para, em seguida, descrevê-los com um alto grau de detalhamento. Isso ajuda a compreender a composição de forma mais profunda do que com uma descrição geral. Na prática, essa habilidade pode ser útil para treinar modelos de IA derivados, criar geradores de imagens com base em descrições textuais e desenvolver recursos de acessibilidade. Construir sistemas para descrições detalhadas de imagens se mostra proibitivamente caro e exige muitos recursos, tanto na fase inicial de treinamento quanto posteriormente, durante o aprendizado por reforço.

Para solucionar esses problemas, os engenheiros da Apple selecionaram aleatoriamente 50.000 imagens dos conjuntos de treinamento PixMoCap e DenseFusion-4V-100K. Para cada uma dessas imagens, descrições foram geradas por modelos de visão computacional existentes, incluindo Google Gemini 2.5 Pro, OpenAI GPT-5, Alibaba Qwen2.5-VL-72B-Instruct, Google Gemma-3-27B-IT e Alibaba Qwen3-VL-30B-A3B-Instruct; Os modelos atualmente treinados da Apple também geraram suas próprias descrições de imagens. O Gemini 2.5 Pro, atuando como especialista, reanalisou as imagens com as variantes de legenda e os resultados do modelo treinado, determinando onde os sistemas participantes concordavam e quais detalhes eles omitiram ou distorceram; e desenvolvendo critérios claros para avaliar as descrições. O Qwen2.5-7B-Instruct, atuando como juiz, avaliou as descrições em relação a cada um dos critérios propostos e gerou um sinal de recompensa para o modelo treinado.Como resultado, o modelo treinado recebeu feedback preciso e de alta qualidade sobre o que precisava ser corrigido, e feedbacks mais precisos começaram a ser gerados.Descrições sem depender de uma única resposta “correta”. Os engenheiros da Apple treinaram três modelos de IA proprietários: RubiCap-2B, RubiCap-3B e RubiCap-7B, com 2, 3 e 7 bilhões de parâmetros, respectivamente. Em tarefas de descrição de imagens, eles tiveram um desempenho melhor do que modelos semelhantes criados por outros desenvolvedores com 32 bilhões e até 72 bilhões de parâmetros. Notavelmente, o RubiCap-3B, em alguns casos, demonstrou resultados melhores do que o RubiCap-7B, confirmando que o tamanho do modelo nem sempre determina seu desempenho.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *