A empresa Meta* falou sobre o trabalho em tecnologias de som realistas para mundos virtuais – o projeto está sendo implementado com a ajuda de cientistas da Universidade do Texas em Austin. Como parte do projeto, foram desenvolvidos três modelos de inteligência artificial que estão disponíveis para desenvolvedores terceirizados.

Fonte da imagem: Rodger Shija / pixabay.com

Como explicou Kristen Garuman, professora de ciência da computação da Universidade do Texas e diretora de pesquisa da Meta* AI, a realidade aumentada e virtual não pode ser reduzida apenas ao componente visual – o som desempenha um papel importante em dar vida ao mundo. Sua qualidade é influenciada por vários fatores: a geometria da sala, os objetos colocados nela, bem como a distância da fonte. Por isso, nasceu a ideia de usar algoritmos de inteligência artificial para processamento de som.

O primeiro algoritmo, chamado AviTAR, é um “Modelo de correspondência visual-acústica” que transforma o som de acordo com o ambiente. Para explicar como o algoritmo funciona, os autores do projeto deram um exemplo. A mãe assistiu à apresentação do filho e, usando óculos de realidade aumentada, gravou diretamente do auditório. O algoritmo é ativado quando a mulher quer reproduzir a gravação em casa. O sistema varre a sala, levando em consideração os itens de interior localizados nela, e reproduz a gravação como se o jovem artista estivesse se apresentando na mesma sala.

O segundo algoritmo é chamado de dereverberação visualmente informada. Destina-se a remover o efeito de reverberação da gravação – múltiplos ecos que ocorrem quando o som reflete nas paredes e outros objetos. Voltando ao exemplo do show infantil, a mãe, ao tocar a gravação em casa, não ouvirá nada além de música.

Por fim, o terceiro modelo de IA chama-se VisualVoice – separa a voz humana de outras fontes sonoras. Por exemplo, se você gravar um vídeo de duas pessoas discutindo, o algoritmo destacará uma das vozes, abafando todas as outras. Conforme explicado em Meta*, para isso, a inteligência artificial precisa de pistas visuais – ela deve “ver” quem está falando e, com base nessas informações, distinguir as nuances necessárias no fluxo geral.

* Está incluído na lista de associações públicas e organizações religiosas em relação às quais o tribunal tomou uma decisão final para liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “Sobre o combate ao extremismo atividade”.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *