A empresa Meta* falou sobre o trabalho em tecnologias de som realistas para mundos virtuais – o projeto está sendo implementado com a ajuda de cientistas da Universidade do Texas em Austin. Como parte do projeto, foram desenvolvidos três modelos de inteligência artificial que estão disponíveis para desenvolvedores terceirizados.
Como explicou Kristen Garuman, professora de ciência da computação da Universidade do Texas e diretora de pesquisa da Meta* AI, a realidade aumentada e virtual não pode ser reduzida apenas ao componente visual – o som desempenha um papel importante em dar vida ao mundo. Sua qualidade é influenciada por vários fatores: a geometria da sala, os objetos colocados nela, bem como a distância da fonte. Por isso, nasceu a ideia de usar algoritmos de inteligência artificial para processamento de som.
O primeiro algoritmo, chamado AviTAR, é um “Modelo de correspondência visual-acústica” que transforma o som de acordo com o ambiente. Para explicar como o algoritmo funciona, os autores do projeto deram um exemplo. A mãe assistiu à apresentação do filho e, usando óculos de realidade aumentada, gravou diretamente do auditório. O algoritmo é ativado quando a mulher quer reproduzir a gravação em casa. O sistema varre a sala, levando em consideração os itens de interior localizados nela, e reproduz a gravação como se o jovem artista estivesse se apresentando na mesma sala.
O segundo algoritmo é chamado de dereverberação visualmente informada. Destina-se a remover o efeito de reverberação da gravação – múltiplos ecos que ocorrem quando o som reflete nas paredes e outros objetos. Voltando ao exemplo do show infantil, a mãe, ao tocar a gravação em casa, não ouvirá nada além de música.
Por fim, o terceiro modelo de IA chama-se VisualVoice – separa a voz humana de outras fontes sonoras. Por exemplo, se você gravar um vídeo de duas pessoas discutindo, o algoritmo destacará uma das vozes, abafando todas as outras. Conforme explicado em Meta*, para isso, a inteligência artificial precisa de pistas visuais – ela deve “ver” quem está falando e, com base nessas informações, distinguir as nuances necessárias no fluxo geral.
* Está incluído na lista de associações públicas e organizações religiosas em relação às quais o tribunal tomou uma decisão final para liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “Sobre o combate ao extremismo atividade”.
Zotac e AXGaming revelaram suas versões da placa de vídeo GeForce RTX 4070 Ti. A…
O Google anunciou o lançamento da estrutura Extension Software Developer Kit, que permitirá aos desenvolvedores…
Um desenvolvedor da Finlândia trabalhou recentemente em um protótipo do jogo, ao mesmo tempo em…
Colisões de galáxias geram ondas de choque gigantes, que levam a muitos fenômenos interessantes até…
O aplicativo Instagram* está prestes a receber uma atualização que trará uma barra de navegação…
Os dispositivos habilitados para Wi-Fi se comunicam entre si mesmo que não estejam conectados à…