Na semana passada, a OpenAI apresentou o Sora, um modelo de inteligência artificial treinado para gerar vídeos realistas baseados em descrições de texto. A startup ElevenLabs ofereceu sua própria solução de efeitos sonoros para aplicar efeitos sonoros a tais vídeos.
A ElevenLabs foi fundada em 2022 pelo ex-engenheiro de aprendizado de máquina do Google Piotr Dabkowski e pelo ex-estrategista de implementação da Palantir Mati Staniszewski. A empresa lançou um modelo de conversão de texto em fala e tradução dublada para 20 idiomas, preservando o tom e o timbre originais da voz.
O novo projeto ElevenLabs chama-se Sound Effects – destina-se a criar efeitos sonoros para vídeos sem som; o som é gerado com base na descrição do texto. A empresa demonstrou o trabalho de seu mais recente modelo de IA usando vídeos criados pela rede neural OpenAI Sora. Eles usaram descrições simples como “o som das ondas”, “o som do metal”, “o chilrear dos pássaros” e “o motor de um carro de corrida”.
A ElevenLabs não divulgou detalhes técnicos sobre o funcionamento do sistema de IA, mas os resultados do novo modelo são bastante convincentes – os sons de fundo revelaram-se realistas: ruído da cidade, passos em uma rua movimentada, sinais de um robô humanóide e texto narrado que parece ter sido lido por um ator de Hollywood. A empresa ainda não revelou como planeja proteger seu projeto de tentativas de uso injusto – os efeitos sonoros da ElevenLabs podem ser do interesse de golpistas.