A Nvidia revelou um novo modelo experimental de IA generativa que a empresa descreve como um “canivete suíço para áudio”. O modelo Fugatto (Fundational Generative Audio Transformer Opus 1) usa prompts de texto para gerar arquivos novos ou modificar arquivos de música, voz e áudio existentes. Desenvolvedores de todo o mundo participaram da criação do modelo, o que fortaleceu as “capacidades multi-sotaques e multilíngues do modelo”.

Fonte da imagem: NVIDIA

«Queríamos criar um modelo que entendesse e gerasse som da mesma forma que os humanos”, disse o participante do projeto e gerente de pesquisa aplicada de áudio da Nvidia Rafael Valle. A empresa propôs vários cenários em que o modelo Fugatto pode ser procurado:

  • Os produtores musicais podem criar rapidamente um protótipo de música que pode ser facilmente editado experimentando diferentes estilos, vozes e instrumentos.
  • O Fugatto pode ser usado para criar ferramentas de aprendizagem de idiomas com a escolha da voz mais adequada.
  • Os desenvolvedores de videogames podem usá-lo para criar variações de recursos pré-gravados para corresponder às mudanças no jogo com base nas escolhas e ações do jogador.

Os pesquisadores afirmam que o modelo, com alguns ajustes adicionais, também pode realizar tarefas que não faziam parte do seu treinamento anterior. O modelo pode combinar instruções separadas, por exemplo, gerando uma fala com certa entonação e sotaque, ou o som de pássaros cantando durante uma tempestade. O modelo também pode gerar sons que mudam com o tempo, como o som de uma tempestade que se aproxima ou de um trem em movimento.

Fugatto não é a primeira tecnologia generativa de IA que pode criar sons a partir de prompts de texto. Meta✴ lançou anteriormente um modelo semelhante de IA de código aberto. O Google oferece sua própria ferramenta de conversão de texto em música de IA, MusicLM, que pode ser acessada através do site AI Test Kitchen da empresa.

A Nvidia ainda não disponibilizou acesso público ao Fugatto e se absteve de comentar o assunto.

avalanche

Postagens recentes

A Meta utiliza DDR4 em sistemas de servidor que não a suportam nativamente.

O boom da IA ​​previsivelmente direcionou a demanda para a memória DDR5, mais cara e…

1 hora atrás

A Netflix Coreia vazou a data de lançamento de Cyberpunk: Edgerunners 2.

Assim que a gigante do streaming Netflix confirmou a data de lançamento da série de…

9 horas atrás

Contrariando a tendência: a Amazon aumentou em um terço a capacidade de RAM do seu tablet Fire HD 10.

O Fire HD 8, lançado em 2024, é a mais recente adição à linha de…

10 horas atrás

A Valve publicou instruções para criar um painel com tela E Ink para a Steam Machine.

A Valve liberou os arquivos do projeto Inkterface — um painel frontal faça-você-mesmo com tela…

10 horas atrás

Os desenvolvedores de Ghostrunner adorariam trabalhar em Ghostrunner 3, mas há um porém.

Em vez de um possível Ghostrunner 3, os desenvolvedores do estúdio polonês One More Level…

11 horas atrás