A Apple publicou um artigo intitulado “Síntese de Imagem Monocular Nítida em Menos de um Segundo”, detalhando como treinou um modelo de IA para construir cenas 3D a partir de uma única imagem plana, proporcionando distâncias e escala realistas.

Fonte da imagem: x.com/timd_ca

A tarefa do modelo de IA é prever uma representação 3D de uma cena renderizada a partir de pontos de vista próximos. Em vez de modelos 3D rígidos tradicionais, a cena é construída a partir de representações 3D de uma função gaussiana — pequenos pontos desfocados de cor e luz localizados no espaço. Combinando vários milhões desses pontos, uma imagem específica pode ser reconstruída, parecendo idêntica do mesmo ponto de vista. Normalmente, alcançar esse resultado requer dezenas, senão centenas, de imagens tiradas de diferentes ângulos. O modelo SHARP da Apple prevê uma representação 3D completa usando o desdobramento gaussiano a partir de uma única fotografia e em uma única passagem da rede neural.

Para alcançar isso, os engenheiros da Apple treinaram o SHARP com uma grande quantidade de dados sintéticos e do mundo real, permitindo que o modelo aprendesse padrões gerais de profundidade e geometria em várias cenas. Dada uma nova foto, ele estima a profundidade, refina-a usando o conhecimento existente e, em seguida, prevê a posição e a aparência dos “sinos de Gauss” 3D em uma única passagem. No entanto, esse método tem uma desvantagem: o SHARP representa com precisão os ângulos próximos, mas não preenche as partes ocultas da cena. Isso significa que o usuário não poderá se afastar muito do ponto de vista de onde a foto foi tirada.

Graças a isso, os pesquisadores da Apple conseguiram uma velocidade bastante alta para o modelo, produzindo resultados em menos de um segundo com alta estabilidade. A empresa publicou o código-fonte do SHARP no GitHub. Curiosamente, em um exemplo, os arquivos-fonte…Os modelos 3D deixaram de ser imagens estáticas e passaram a ser arquivos de vídeo.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *