A Apple treinou pequenos modelos de IA para descrever imagens melhor do que os de seus principais concorrentes.

Cientistas da Apple desenvolveram a tecnologia RubiCap — uma forma de treinar modelos de inteligência artificial para descrever imagens com mais detalhes e eficiência do que modelos maiores.

Fonte da imagem: Steve Johnson / unsplash.com

Ao preparar uma descrição detalhada de uma imagem, um modelo de IA precisa identificar múltiplos objetos e regiões dentro do quadro para, em seguida, descrevê-los com um alto grau de detalhamento. Isso ajuda a compreender a composição de forma mais profunda do que com uma descrição geral. Na prática, essa habilidade pode ser útil para treinar modelos de IA derivados, criar geradores de imagens com base em descrições textuais e desenvolver recursos de acessibilidade. Construir sistemas para descrições detalhadas de imagens se mostra proibitivamente caro e exige muitos recursos, tanto na fase inicial de treinamento quanto posteriormente, durante o aprendizado por reforço.

Para solucionar esses problemas, os engenheiros da Apple selecionaram aleatoriamente 50.000 imagens dos conjuntos de treinamento PixMoCap e DenseFusion-4V-100K. Para cada uma dessas imagens, descrições foram geradas por modelos de visão computacional existentes, incluindo Google Gemini 2.5 Pro, OpenAI GPT-5, Alibaba Qwen2.5-VL-72B-Instruct, Google Gemma-3-27B-IT e Alibaba Qwen3-VL-30B-A3B-Instruct; Os modelos atualmente treinados da Apple também geraram suas próprias descrições de imagens. O Gemini 2.5 Pro, atuando como especialista, reanalisou as imagens com as variantes de legenda e os resultados do modelo treinado, determinando onde os sistemas participantes concordavam e quais detalhes eles omitiram ou distorceram; e desenvolvendo critérios claros para avaliar as descrições. O Qwen2.5-7B-Instruct, atuando como juiz, avaliou as descrições em relação a cada um dos critérios propostos e gerou um sinal de recompensa para o modelo treinado.Como resultado, o modelo treinado recebeu feedback preciso e de alta qualidade sobre o que precisava ser corrigido, e feedbacks mais precisos começaram a ser gerados.Descrições sem depender de uma única resposta “correta”. Os engenheiros da Apple treinaram três modelos de IA proprietários: RubiCap-2B, RubiCap-3B e RubiCap-7B, com 2, 3 e 7 bilhões de parâmetros, respectivamente. Em tarefas de descrição de imagens, eles tiveram um desempenho melhor do que modelos semelhantes criados por outros desenvolvedores com 32 bilhões e até 72 bilhões de parâmetros. Notavelmente, o RubiCap-3B, em alguns casos, demonstrou resultados melhores do que o RubiCap-7B, confirmando que o tamanho do modelo nem sempre determina seu desempenho.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Elon Musk planeja adquirir equipamentos de produção de chips na gigantesca fábrica da Terafab “na velocidade da luz”.

Recentemente, a lista de projetos tradicionalmente ambiciosos e de grande escala de Elon Musk foi…

35 minutos atrás

A nova versão da Starship concluiu um teste de ignição antes do seu lançamento em maio.

A SpaceX concluiu com sucesso um teste estático em escala real do estágio superior do…

36 minutos atrás

A Nvidia apresentou modelos de IA para calibração e correção de erros em computadores quânticos.

A Nvidia anunciou uma família de modelos de IA Ising projetados para solucionar um problema…

36 minutos atrás

O YouTube agora permite que os usuários desativem os vídeos Curtos.

Os usuários do YouTube agora podem desativar os vídeos Shorts nos aplicativos para Android e…

50 minutos atrás

“Vejam onde Elder Scrolls e Fallout começaram”: Todd Howard defende Starfield.

Lançado em 2023, o RPG espacial Starfield provou ser um dos lançamentos mais controversos da…

2 horas atrás