Categorias: Editores de áudioMercado de tecnologia e TI. notícia

Introduziu o gerador de música Stable Audio AI, que cria com base em descrições de texto

A Stability AI, que desenvolveu a tecnologia de inteligência artificial Stable Diffusion para converter texto em imagens, anunciou o lançamento público da rede neural Stable Audio para gerar pequenos clipes de áudio com base em descrições de texto. O Stable Audio é baseado nas mesmas técnicas básicas de IA que o Stable Diffusion usa para criar imagens.

Fonte da imagem: Pixabay

«Stability AI é mais conhecido por seu trabalho com imagens, mas agora estamos lançando nosso primeiro produto para criação de música e áudio, chamado Stable Audio”, disse Ed Newton-Rex, vice-presidente de áudio da Stability AI. “A ideia é muito simples: você descreve em texto a música ou o áudio que deseja ouvir e nosso sistema gera para você.”

Ed conhece bem o mundo da música computacional: em 2011, criou a startup Jukedeck, que foi adquirida pela TikTok em 2019. No entanto, a tecnologia por trás do Stable Audio não tem suas raízes no Jukedeck, mas no estúdio interno de pesquisa de produção musical da Stability AI chamado Harmonai, criado por Zach Evans. Evans explicou que o modelo de texto usa uma técnica conhecida como Contrastive Language Audio Pretraining (CLAP). O modelo Stable Audio tem cerca de 1,2 bilhão de parâmetros, que é aproximadamente o mesmo que a versão original de geração de imagem do Stable Diffusion.

A capacidade de gerar faixas de áudio básicas usando tecnologia não é novidade. No passado, era utilizado um método denominado geração de símbolos, que normalmente é utilizado quando se trabalha com o formato MIDI (Musical Instrument Digital Interface). Os recursos generativos de IA do Stable Audio permitem aos usuários criar novas músicas que vão além das sequências repetitivas de notas típicas de MIDI e geração de símbolos.

Fonte da imagem: Coração Atômico

O Stable Audio funciona diretamente com amostras de áudio bruto para fornecer saída de maior qualidade. O modelo foi treinado em mais de 800.000 peças musicais licenciadas da biblioteca de áudio AudioSparks. “Um dos maiores desafios ao criar modelos de texto é obter dados de áudio que não sejam apenas áudio de alta qualidade, mas que também tenham metadados apropriados”, explicou Evans.

Uma das tarefas comuns que os usuários definem para modelos de geração de imagens é a estilização para um artista específico. No entanto, no caso do Stable Audio, os usuários não poderão recorrer à IA com tal solicitação – de acordo com os criadores do Stable Audio, a maioria dos músicos prefere ser mais criativo.

O modelo Stable Audio estará disponível gratuitamente e com plano tarifário Pro por US$ 12 por mês. A versão gratuita permite criar 20 faixas por mês com duração de até 20 segundos, e a versão Pro aumenta o número de faixas para 500 e o tempo de reprodução para 90 segundos. Este último também permite o uso comercial das obras. Como parte do lançamento, Stable Audio Stability AI também lançará um guia para prompts de texto.

avalanche

Próximo A placa de vídeo ASUS TX Gaming GeForce RTX 4070 BTF com conector de alimentação não tradicional estará à venda em 15 de setembro »

Anterior « SpaceX Starlink está se desenvolvendo rapidamente, mas ainda está muito longe das metas estabelecidas por Elon Musk

Deixar comentário

Publicado por

avalanche

3 anos atrás

Postagens recentes

Conforme as cartas forem lançadas, conforme a rede ditar: a AWS está implementando uma arquitetura de rede RNG quase aleatória em seus data centers.

A AWS publicou uma descrição técnica da arquitetura de rede de data center que implementará…

12 horas atrás

Espaço

O chefe da NASA afirma que os voos do foguete New Glenn não serão retomados antes de 2028, eliminando a Blue Origin da corrida lunar.

Durante um teste estático de ignição em 29 de maio de 2026, o foguete New…

12 horas atrás

Jogos

Foi anunciado o sucessor espiritual de Zeus: Master of Olympus – o jogo de estratégia de construção de cidades Theos: Cities of Myth, onde história e mito se entrelaçam.

A editora Dotemu (Ninja Gaiden: Ragebound, Marvel Cosmic Invasion) e a Triskell Interactive, desenvolvedora de…

13 horas atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

Alphabet venderá US$ 80 bilhões em ações para financiar o desenvolvimento de infraestrutura de IA.

A Alphabet não é apenas uma das maiores empresas do mercado de serviços em nuvem,…

13 horas atrás

Processadores

Plataforma de referência de IA Qualcomm Dragonwing IQ10 para robótica é apresentada.

Cristiano Amon, CEO da Qualcomm, apresentou a plataforma robótica Dragonwing IQ10 atualizada na Computex 2026.…

13 horas atrás

Jogos

O RPG infernal baseado em turnos, Entropy, do criador de Dread Delusion, recebeu uma demo e uma data de lançamento no Acesso Antecipado do Steam.

A editora DreadXP e o estúdio britânico Lovely Hellplace (Dread Delusion) anunciaram a data de…

13 horas atrás

Introduziu o gerador de música Stable Audio AI, que cria com base em descrições de texto

Conteúdo relacionado

Postagens recentes

Conforme as cartas forem lançadas, conforme a rede ditar: a AWS está implementando uma arquitetura de rede RNG quase aleatória em seus data centers.

O chefe da NASA afirma que os voos do foguete New Glenn não serão retomados antes de 2028, eliminando a Blue Origin da corrida lunar.

Foi anunciado o sucessor espiritual de Zeus: Master of Olympus – o jogo de estratégia de construção de cidades Theos: Cities of Myth, onde história e mito se entrelaçam.

Alphabet venderá US$ 80 bilhões em ações para financiar o desenvolvimento de infraestrutura de IA.

Plataforma de referência de IA Qualcomm Dragonwing IQ10 para robótica é apresentada.

O RPG infernal baseado em turnos, Entropy, do criador de Dread Delusion, recebeu uma demo e uma data de lançamento no Acesso Antecipado do Steam.