Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Apple treinou pequenos modelos de IA para descrever imagens melhor do que os de seus principais concorrentes.

Cientistas da Apple desenvolveram a tecnologia RubiCap — uma forma de treinar modelos de inteligência artificial para descrever imagens com mais detalhes e eficiência do que modelos maiores.

Fonte da imagem: Steve Johnson / unsplash.com

Ao preparar uma descrição detalhada de uma imagem, um modelo de IA precisa identificar múltiplos objetos e regiões dentro do quadro para, em seguida, descrevê-los com um alto grau de detalhamento. Isso ajuda a compreender a composição de forma mais profunda do que com uma descrição geral. Na prática, essa habilidade pode ser útil para treinar modelos de IA derivados, criar geradores de imagens com base em descrições textuais e desenvolver recursos de acessibilidade. Construir sistemas para descrições detalhadas de imagens se mostra proibitivamente caro e exige muitos recursos, tanto na fase inicial de treinamento quanto posteriormente, durante o aprendizado por reforço.

Para solucionar esses problemas, os engenheiros da Apple selecionaram aleatoriamente 50.000 imagens dos conjuntos de treinamento PixMoCap e DenseFusion-4V-100K. Para cada uma dessas imagens, descrições foram geradas por modelos de visão computacional existentes, incluindo Google Gemini 2.5 Pro, OpenAI GPT-5, Alibaba Qwen2.5-VL-72B-Instruct, Google Gemma-3-27B-IT e Alibaba Qwen3-VL-30B-A3B-Instruct; Os modelos atualmente treinados da Apple também geraram suas próprias descrições de imagens. O Gemini 2.5 Pro, atuando como especialista, reanalisou as imagens com as variantes de legenda e os resultados do modelo treinado, determinando onde os sistemas participantes concordavam e quais detalhes eles omitiram ou distorceram; e desenvolvendo critérios claros para avaliar as descrições. O Qwen2.5-7B-Instruct, atuando como juiz, avaliou as descrições em relação a cada um dos critérios propostos e gerou um sinal de recompensa para o modelo treinado.Como resultado, o modelo treinado recebeu feedback preciso e de alta qualidade sobre o que precisava ser corrigido, e feedbacks mais precisos começaram a ser gerados.Descrições sem depender de uma única resposta “correta”. Os engenheiros da Apple treinaram três modelos de IA proprietários: RubiCap-2B, RubiCap-3B e RubiCap-7B, com 2, 3 e 7 bilhões de parâmetros, respectivamente. Em tarefas de descrição de imagens, eles tiveram um desempenho melhor do que modelos semelhantes criados por outros desenvolvedores com 32 bilhões e até 72 bilhões de parâmetros. Notavelmente, o RubiCap-3B, em alguns casos, demonstrou resultados melhores do que o RubiCap-7B, confirmando que o tamanho do modelo nem sempre determina seu desempenho.

admin

Próximo Oficial: Comerciante do remake de Resident Evil 4 está profundamente endividado após três anos »

Anterior « Acionistas processam a Supermicro por escândalo de contrabando de chips de IA para a China.

Deixar comentário

Publicado por

admin

2 meses atrás

Postagens recentes

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Fundação OpenAI vai alocar US$ 250 milhões para apoiar a adaptação da força de trabalho diante da expansão da IA.

A Fundação OpenAI, uma organização sem fins lucrativos que detém participação na startup OpenAI, destinará…

55 minutos atrás

Notícias da rede

O YouTube aprendeu a criar um feed personalizado de vídeos com base nas descrições.

O site de hospedagem de vídeos YouTube lançou um novo recurso que permitirá aos usuários…

5 horas atrás

Consoles de jogos

A Valve retomou as vendas do Steam Deck, mas o preço subiu centenas de dólares.

O console portátil Steam Deck OLED da Valve está de volta ao estoque, mas a…

6 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O Google e a CrowdStrike desmantelaram a botnet Glassworm, que vinha atacando desenvolvedores de software de código aberto há dois anos.

A CrowdStrike e o Google, com o apoio da organização sem fins lucrativos Shadowserver, desmantelaram…

6 horas atrás

Notícias e análises financeiras

A fabricante chinesa de memórias CXMT está preparando seu maior IPO em anos para desafiar a Samsung e a Micron.

A ChangXin Memory Technologies (CXMT), maior fabricante de chips de memória da China, recebeu aprovação…

6 horas atrás

Jogos

“Vai surpreender e impressionar as pessoas”: Fontes internas revelam o título, o local do anúncio e a data de lançamento do remake de Rayman Legends.

Em 2026, a Ubisoft, editora e desenvolvedora francesa, já havia atualizado o primeiro jogo da…

6 horas atrás