A Apple treinou pequenos modelos de IA para descrever imagens melhor do que os de seus principais concorrentes.

Cientistas da Apple desenvolveram a tecnologia RubiCap — uma forma de treinar modelos de inteligência artificial para descrever imagens com mais detalhes e eficiência do que modelos maiores.

Fonte da imagem: Steve Johnson / unsplash.com

Ao preparar uma descrição detalhada de uma imagem, um modelo de IA precisa identificar múltiplos objetos e regiões dentro do quadro para, em seguida, descrevê-los com um alto grau de detalhamento. Isso ajuda a compreender a composição de forma mais profunda do que com uma descrição geral. Na prática, essa habilidade pode ser útil para treinar modelos de IA derivados, criar geradores de imagens com base em descrições textuais e desenvolver recursos de acessibilidade. Construir sistemas para descrições detalhadas de imagens se mostra proibitivamente caro e exige muitos recursos, tanto na fase inicial de treinamento quanto posteriormente, durante o aprendizado por reforço.

Para solucionar esses problemas, os engenheiros da Apple selecionaram aleatoriamente 50.000 imagens dos conjuntos de treinamento PixMoCap e DenseFusion-4V-100K. Para cada uma dessas imagens, descrições foram geradas por modelos de visão computacional existentes, incluindo Google Gemini 2.5 Pro, OpenAI GPT-5, Alibaba Qwen2.5-VL-72B-Instruct, Google Gemma-3-27B-IT e Alibaba Qwen3-VL-30B-A3B-Instruct; Os modelos atualmente treinados da Apple também geraram suas próprias descrições de imagens. O Gemini 2.5 Pro, atuando como especialista, reanalisou as imagens com as variantes de legenda e os resultados do modelo treinado, determinando onde os sistemas participantes concordavam e quais detalhes eles omitiram ou distorceram; e desenvolvendo critérios claros para avaliar as descrições. O Qwen2.5-7B-Instruct, atuando como juiz, avaliou as descrições em relação a cada um dos critérios propostos e gerou um sinal de recompensa para o modelo treinado.Como resultado, o modelo treinado recebeu feedback preciso e de alta qualidade sobre o que precisava ser corrigido, e feedbacks mais precisos começaram a ser gerados.Descrições sem depender de uma única resposta “correta”. Os engenheiros da Apple treinaram três modelos de IA proprietários: RubiCap-2B, RubiCap-3B e RubiCap-7B, com 2, 3 e 7 bilhões de parâmetros, respectivamente. Em tarefas de descrição de imagens, eles tiveram um desempenho melhor do que modelos semelhantes criados por outros desenvolvedores com 32 bilhões e até 72 bilhões de parâmetros. Notavelmente, o RubiCap-3B, em alguns casos, demonstrou resultados melhores do que o RubiCap-7B, confirmando que o tamanho do modelo nem sempre determina seu desempenho.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Valve implementou medidas de proteção contra revendedores e prometeu novos lotes de Steam Controllers.

A demanda pelo Steam Controller foi tão alta que a Valve esgotou o primeiro lote…

3 horas atrás

Uma queda catastrófica nas vendas de placas-mãe está se aproximando, já que os usuários se recusam a atualizar seus PCs.

Segundo uma reportagem do DigiTimes, o mercado de placas-mãe para PCs está passando por uma…

3 horas atrás

O Telegram recebeu uma grande atualização de IA — agora é possível invocar bots em qualquer chat, além de outros novos recursos.

O Telegram recebeu uma grande atualização, quase inteiramente dedicada à IA e à automação. O…

4 horas atrás

A GeIL anunciou módulos DDR5 que operam a 8000 MT/s sem overclocking.

A GeIL apresentou os módulos de memória Spear V DDR5, capazes de operar a 8000…

5 horas atrás

O aplicativo Fitbit agora se tornou o Google Health e poderá coletar dados de saúde até mesmo do Apple Health.

A Fitbit tem sido uma das maiores fabricantes de dispositivos vestíveis por quase duas décadas,…

6 horas atrás

A AMD lança o acelerador de IA Instinct MI350P com 144 GB de HBM3E, PCIe 5.0 x16 e consumo de 600 W.

A AMD lançou o Instinct MI350P, um acelerador gráfico especializado em formato de placa de…

6 horas atrás