A Apple treinou pequenos modelos de IA para descrever imagens melhor do que os de seus principais concorrentes.

Cientistas da Apple desenvolveram a tecnologia RubiCap — uma forma de treinar modelos de inteligência artificial para descrever imagens com mais detalhes e eficiência do que modelos maiores.

Fonte da imagem: Steve Johnson / unsplash.com

Ao preparar uma descrição detalhada de uma imagem, um modelo de IA precisa identificar múltiplos objetos e regiões dentro do quadro para, em seguida, descrevê-los com um alto grau de detalhamento. Isso ajuda a compreender a composição de forma mais profunda do que com uma descrição geral. Na prática, essa habilidade pode ser útil para treinar modelos de IA derivados, criar geradores de imagens com base em descrições textuais e desenvolver recursos de acessibilidade. Construir sistemas para descrições detalhadas de imagens se mostra proibitivamente caro e exige muitos recursos, tanto na fase inicial de treinamento quanto posteriormente, durante o aprendizado por reforço.

Para solucionar esses problemas, os engenheiros da Apple selecionaram aleatoriamente 50.000 imagens dos conjuntos de treinamento PixMoCap e DenseFusion-4V-100K. Para cada uma dessas imagens, descrições foram geradas por modelos de visão computacional existentes, incluindo Google Gemini 2.5 Pro, OpenAI GPT-5, Alibaba Qwen2.5-VL-72B-Instruct, Google Gemma-3-27B-IT e Alibaba Qwen3-VL-30B-A3B-Instruct; Os modelos atualmente treinados da Apple também geraram suas próprias descrições de imagens. O Gemini 2.5 Pro, atuando como especialista, reanalisou as imagens com as variantes de legenda e os resultados do modelo treinado, determinando onde os sistemas participantes concordavam e quais detalhes eles omitiram ou distorceram; e desenvolvendo critérios claros para avaliar as descrições. O Qwen2.5-7B-Instruct, atuando como juiz, avaliou as descrições em relação a cada um dos critérios propostos e gerou um sinal de recompensa para o modelo treinado.Como resultado, o modelo treinado recebeu feedback preciso e de alta qualidade sobre o que precisava ser corrigido, e feedbacks mais precisos começaram a ser gerados.Descrições sem depender de uma única resposta “correta”. Os engenheiros da Apple treinaram três modelos de IA proprietários: RubiCap-2B, RubiCap-3B e RubiCap-7B, com 2, 3 e 7 bilhões de parâmetros, respectivamente. Em tarefas de descrição de imagens, eles tiveram um desempenho melhor do que modelos semelhantes criados por outros desenvolvedores com 32 bilhões e até 72 bilhões de parâmetros. Notavelmente, o RubiCap-3B, em alguns casos, demonstrou resultados melhores do que o RubiCap-7B, confirmando que o tamanho do modelo nem sempre determina seu desempenho.

admin

Compartilhar
Publicado por
admin

Postagens recentes

O Google deu permissão à Apple para extrair os modelos de IA da Gemini e executá-los diretamente no iPhone ou no Mac.

Esta semana, o jornalista da Bloomberg, Mark Gurman, descreveu o que esperar da assistente virtual…

19 minutos atrás

A DJI apresenta o drone compacto Avata 360 com visibilidade panorâmica em 8K.

A DJI, maior fabricante chinesa de drones civis, apresentou o Avata 360. Ele oferece vídeo…

47 minutos atrás

Gartner: Até 2030, o custo da inferência diminuirá em 90%, mas a IA de alta qualidade não ficará mais barata.

Segundo a previsão da Gartner, até 2030, a inferência de modelos de aprendizado de máquina…

1 hora atrás

A inteligência artificial da Microsoft e da NVIDIA acelerará a criação de novos reatores nucleares.

A Microsoft e a NVIDIA estão colaborando no setor de energia nuclear, mas não na…

1 hora atrás

Oficial: Comerciante do remake de Resident Evil 4 está profundamente endividado após três anos

O remake do jogo cult de ação e terror Resident Evil 4 completou recentemente três…

2 horas atrás

Acionistas processam a Supermicro por escândalo de contrabando de chips de IA para a China.

O escandaloso caso criminal envolvendo o contrabando de equipamentos de servidores para a China, no…

2 horas atrás