A empresa Meta* falou sobre o trabalho em tecnologias de som realistas para mundos virtuais – o projeto está sendo implementado com a ajuda de cientistas da Universidade do Texas em Austin. Como parte do projeto, foram desenvolvidos três modelos de inteligência artificial que estão disponíveis para desenvolvedores terceirizados.

Fonte da imagem: Rodger Shija / pixabay.com

Como explicou Kristen Garuman, professora de ciência da computação da Universidade do Texas e diretora de pesquisa da Meta* AI, a realidade aumentada e virtual não pode ser reduzida apenas ao componente visual – o som desempenha um papel importante em dar vida ao mundo. Sua qualidade é influenciada por vários fatores: a geometria da sala, os objetos colocados nela, bem como a distância da fonte. Por isso, nasceu a ideia de usar algoritmos de inteligência artificial para processamento de som.

O primeiro algoritmo, chamado AviTAR, é um “Modelo de correspondência visual-acústica” que transforma o som de acordo com o ambiente. Para explicar como o algoritmo funciona, os autores do projeto deram um exemplo. A mãe assistiu à apresentação do filho e, usando óculos de realidade aumentada, gravou diretamente do auditório. O algoritmo é ativado quando a mulher quer reproduzir a gravação em casa. O sistema varre a sala, levando em consideração os itens de interior localizados nela, e reproduz a gravação como se o jovem artista estivesse se apresentando na mesma sala.

O segundo algoritmo é chamado de dereverberação visualmente informada. Destina-se a remover o efeito de reverberação da gravação – múltiplos ecos que ocorrem quando o som reflete nas paredes e outros objetos. Voltando ao exemplo do show infantil, a mãe, ao tocar a gravação em casa, não ouvirá nada além de música.

Por fim, o terceiro modelo de IA chama-se VisualVoice – separa a voz humana de outras fontes sonoras. Por exemplo, se você gravar um vídeo de duas pessoas discutindo, o algoritmo destacará uma das vozes, abafando todas as outras. Conforme explicado em Meta*, para isso, a inteligência artificial precisa de pistas visuais – ela deve “ver” quem está falando e, com base nessas informações, distinguir as nuances necessárias no fluxo geral.

* Está incluído na lista de associações públicas e organizações religiosas em relação às quais o tribunal tomou uma decisão final para liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “Sobre o combate ao extremismo atividade”.

avalanche

Postagens recentes

Zotac e AXGaming lançam GeForce RTX 4070 Ti branca – ambas com leve overclock de fábrica

Zotac e AXGaming revelaram suas versões da placa de vídeo GeForce RTX 4070 Ti. A…

2 minutos atrás

Google vai estender a funcionalidade de versões mais antigas do Android

O Google anunciou o lançamento da estrutura Extension Software Developer Kit, que permitirá aos desenvolvedores…

16 minutos atrás

O desenvolvedor mostrou um protótipo do jogo para o qual as redes neurais ajudaram a criar o personagem principal e todo o local

Um desenvolvedor da Finlândia trabalhou recentemente em um protótipo do jogo, ao mesmo tempo em…

17 minutos atrás

“James Webb” mostra como uma onda de choque do tamanho da Via Láctea muda o espaço ao redor de um grupo de galáxias

Colisões de galáxias geram ondas de choque gigantes, que levam a muitos fenômenos interessantes até…

32 minutos atrás

Meta removerá o botão de loja da barra de navegação do Instagram

O aplicativo Instagram* está prestes a receber uma atualização que trará uma barra de navegação…

37 minutos atrás

Os hackers podem forçar remotamente os dispositivos Wi-Fi a esgotar suas baterias – usando o próprio Wi-Fi

Os dispositivos habilitados para Wi-Fi se comunicam entre si mesmo que não estejam conectados à…

52 minutos atrás