A empresa Meta* falou sobre o trabalho em tecnologias de som realistas para mundos virtuais – o projeto está sendo implementado com a ajuda de cientistas da Universidade do Texas em Austin. Como parte do projeto, foram desenvolvidos três modelos de inteligência artificial que estão disponíveis para desenvolvedores terceirizados.
Como explicou Kristen Garuman, professora de ciência da computação da Universidade do Texas e diretora de pesquisa da Meta* AI, a realidade aumentada e virtual não pode ser reduzida apenas ao componente visual – o som desempenha um papel importante em dar vida ao mundo. Sua qualidade é influenciada por vários fatores: a geometria da sala, os objetos colocados nela, bem como a distância da fonte. Por isso, nasceu a ideia de usar algoritmos de inteligência artificial para processamento de som.
O primeiro algoritmo, chamado AviTAR, é um “Modelo de correspondência visual-acústica” que transforma o som de acordo com o ambiente. Para explicar como o algoritmo funciona, os autores do projeto deram um exemplo. A mãe assistiu à apresentação do filho e, usando óculos de realidade aumentada, gravou diretamente do auditório. O algoritmo é ativado quando a mulher quer reproduzir a gravação em casa. O sistema varre a sala, levando em consideração os itens de interior localizados nela, e reproduz a gravação como se o jovem artista estivesse se apresentando na mesma sala.
O segundo algoritmo é chamado de dereverberação visualmente informada. Destina-se a remover o efeito de reverberação da gravação – múltiplos ecos que ocorrem quando o som reflete nas paredes e outros objetos. Voltando ao exemplo do show infantil, a mãe, ao tocar a gravação em casa, não ouvirá nada além de música.
Por fim, o terceiro modelo de IA chama-se VisualVoice – separa a voz humana de outras fontes sonoras. Por exemplo, se você gravar um vídeo de duas pessoas discutindo, o algoritmo destacará uma das vozes, abafando todas as outras. Conforme explicado em Meta*, para isso, a inteligência artificial precisa de pistas visuais – ela deve “ver” quem está falando e, com base nessas informações, distinguir as nuances necessárias no fluxo geral.
* Está incluído na lista de associações públicas e organizações religiosas em relação às quais o tribunal tomou uma decisão final para liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “Sobre o combate ao extremismo atividade”.