A rede neural Flamingo do Google aprendeu a escrever descrições para vídeos do YouTube Shorts

A equipe conjunta do Google DeepMind falou sobre seu novo projeto, o modelo de linguagem visual Flamingo, que escreve descrições para vídeos curtos na seção YouTube Shorts. Essas postagens são postadas em minutos e muitas vezes carecem de descrições e títulos significativos, tornando-as difíceis de encontrar. Flamingo visa resolver este problema.

Fonte da imagem: deepmind.com

O modelo de linguagem visual escreve descrições de vídeos curtos analisando seus quadros de abertura e oferecendo explicações sobre o que está acontecendo, por exemplo: “um cachorro segura uma pilha de biscoitos na cabeça”. As descrições de texto geradas por IA são armazenadas em um formato de metadados que ajudará a “categorizar melhor os vídeos e combinar os resultados da pesquisa com as consultas do usuário”. A IA resolve um problema típico da seção de Shorts do YouTube: os autores geralmente negligenciam os metadados dos vídeos e os próprios vídeos são vistos principalmente no feed geral e, como resultado, não podem ser encontrados na pesquisa.

As descrições geradas pelo Flamingo não são exibidas aos espectadores ou mesmo aos criadores dos vídeos, disse Todd Sherman, diretor de gerenciamento de produtos do YouTube Shorts. No entanto, o texto dessas descrições é consistente com os padrões éticos dos produtos do Google, embora seja improvável que a IA tente injustamente colocar o vídeo sob uma luz ruim. O Flamingo já foi lançado no YouTube e adiciona suas próprias descrições a todos os novos vídeos na seção Shorts – uma parte significativa dos materiais já publicados, e principalmente os mais populares, também passaram pelo procedimento.

A administração da plataforma também não descartou que o modelo de IA comece a funcionar com vídeos longos do YouTube, embora a necessidade disso não seja tão alta: as pessoas passam horas, dias, semanas e até meses gravando e editando esses materiais , portanto, adicionar metadados a eles é apenas uma pequena parte do processo de criação do vídeo. E como os espectadores escolhem vídeos longos com base na miniatura e no título, há um incentivo natural para os criadores dessas postagens preencherem adequadamente os metadados.

avalanche

Postagens recentes

NVIDIA bate recorde da Apple para crescimento de valor de mercado em um dia

"A NVIDIA divulgou na quarta-feira um relatório trimestral no qual elevou sua orientação de ganhos…

27 minutos atrás

Os autores do GRIS apresentaram Neva – uma aventura comovente sobre uma garota e seu lobo mágico em um mundo moribundo

A editora Devolver Digital e os desenvolvedores do espanhol Nomada Studio, conhecido pelo jogo de…

1 hora atrás