A empresa Meta* falou sobre o trabalho em tecnologias de som realistas para mundos virtuais – o projeto está sendo implementado com a ajuda de cientistas da Universidade do Texas em Austin. Como parte do projeto, foram desenvolvidos três modelos de inteligência artificial que estão disponíveis para desenvolvedores terceirizados.

Fonte da imagem: Rodger Shija / pixabay.com

Como explicou Kristen Garuman, professora de ciência da computação da Universidade do Texas e diretora de pesquisa da Meta* AI, a realidade aumentada e virtual não pode ser reduzida apenas ao componente visual – o som desempenha um papel importante em dar vida ao mundo. Sua qualidade é influenciada por vários fatores: a geometria da sala, os objetos colocados nela, bem como a distância da fonte. Por isso, nasceu a ideia de usar algoritmos de inteligência artificial para processamento de som.

O primeiro algoritmo, chamado AviTAR, é um “Modelo de correspondência visual-acústica” que transforma o som de acordo com o ambiente. Para explicar como o algoritmo funciona, os autores do projeto deram um exemplo. A mãe assistiu à apresentação do filho e, usando óculos de realidade aumentada, gravou diretamente do auditório. O algoritmo é ativado quando a mulher quer reproduzir a gravação em casa. O sistema varre a sala, levando em consideração os itens de interior localizados nela, e reproduz a gravação como se o jovem artista estivesse se apresentando na mesma sala.

O segundo algoritmo é chamado de dereverberação visualmente informada. Destina-se a remover o efeito de reverberação da gravação – múltiplos ecos que ocorrem quando o som reflete nas paredes e outros objetos. Voltando ao exemplo do show infantil, a mãe, ao tocar a gravação em casa, não ouvirá nada além de música.

Por fim, o terceiro modelo de IA chama-se VisualVoice – separa a voz humana de outras fontes sonoras. Por exemplo, se você gravar um vídeo de duas pessoas discutindo, o algoritmo destacará uma das vozes, abafando todas as outras. Conforme explicado em Meta*, para isso, a inteligência artificial precisa de pistas visuais – ela deve “ver” quem está falando e, com base nessas informações, distinguir as nuances necessárias no fluxo geral.

* Está incluído na lista de associações públicas e organizações religiosas em relação às quais o tribunal tomou uma decisão final para liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “Sobre o combate ao extremismo atividade”.

avalanche

Postagens recentes

Mais quadros, mais latência: Teste de latência com geração de quadros DLSS e FSR / Placas de vídeo

Desde que as placas de vídeo para jogos existem, conhecemos uma medida definitiva do seu…

2 horas atrás

O iPad dobrável corre o risco de nunca ser lançado devido à promoção de Ternus ao cargo de CEO da Apple.

Nos últimos anos, circularam rumores de que a Apple, além do iPhone dobrável, estaria desenvolvendo…

2 horas atrás

O jogo de tiro com temática de evacuação Arc Raiders receberá amanhã a grande atualização Riven Tides, que trará um novo mapa e diversas atividades.

A Embark Studios divulgou um trailer da grande atualização Riven Tides para seu jogo de…

3 horas atrás

A Valve anunciou o lançamento do Steam Controller, que de fato custa US$ 99.

A Valve anunciou oficialmente que as vendas do Steam Controller começarão em 4 de maio.…

4 horas atrás

Fonte interna: Ubisoft ameaçou demitir 50 desenvolvedores de Assassin’s Creed Codename Hexe para manter o orçamento sob controle.

Tom Henderson, uma fonte confiável, compartilhou novos detalhes dos bastidores sobre o RPG de ação…

4 horas atrás