Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Amazon revela modelo de voz Nova Sonic AI

A Amazon revelou o Nova Sonic, um modelo de IA generativo que pode processar voz e gerar fala com som natural. Em testes de velocidade, reconhecimento de fala e qualidade de conversação, o Sonic provou ser competitivo com os principais modelos de voz da OpenAI e do Google.

Fonte da imagem: aboutamazon.com

Nova Sonic é a resposta da Amazon aos novos modelos de voz de IA, como o que está por trás do modo de áudio do ChatGPT; Todos eles oferecem formatos de comunicação mais naturais do que as versões anteriores da assistente de voz Alexa. Os avanços tecnológicos dos últimos anos tornaram modelos antigos e assistentes digitais, incluindo Alexa e Apple Siri, muito mais naturais em suas interações com humanos. O Nova Sonic está disponível na Bedrock, plataforma da Amazon para desenvolvedores de IA empresarial; A API de streaming bidirecional é suportada. O Nova Sonic, acrescentou a Amazon, custa 80% menos para operar do que o GPT-4o multimodal da OpenAI, e seus componentes já alimentam o Alexa+ atualizado.

Ele se destaca no roteamento de solicitações de usuários para várias APIs — o modelo “sabe” quando precisa recuperar informações da web em tempo real, analisar sua própria fonte de dados ou executar uma ação em um aplicativo externo — e usa a ferramenta apropriada para fazer isso. Durante uma conversa bidirecional, o Nova Sonic espera para falar “no momento certo”, levando em consideração as pausas e hesitações típicas da outra pessoa. Ele também produz uma transcrição de texto da fala do usuário, que os desenvolvedores podem usar em vários aplicativos.

Em tarefas de reconhecimento de fala, ele é menos propenso a erros do que outros modelos de IA de voz, o que significa que ele entende o usuário relativamente bem, mesmo que ele resmungue, cometa erros ou esteja em um ambiente barulhento. No teste de benchmark Multilingual LibriSpeech, que mede o desempenho do reconhecimento de fala em vários idiomas e dialetos, o Nova Sonic atingiu uma taxa de erro de palavra (WER) de apenas 4,2% em média em inglês, francês, italiano, alemão e espanhol. Ou seja, ao se preparar para transcrever uma fala, ele reconhece incorretamente aproximadamente quatro em cada cem palavras, em comparação a um humano.

No benchmark Augmented Multi Party Interaction, que avalia a qualidade da conversa falada com vários participantes, o Nova Sonic foi 46,7% mais preciso no WER do que o OpenAI GPT-4o-transcribe. O modelo da Amazon também se mostrou muito rápido, com uma latência média de 1,09 segundos contra 1,18 segundos do GPT-4o, que fundamenta a OpenAI Realtime API. A empresa pretende introduzir vários outros modelos de IA capazes de processar imagens, vídeo, voz e “outros dados sensoriais que são necessários quando transferidos para o mundo físico”.

avalanche

Próximo Microsoft ameaça bloquear usuários do Teams que não atualizarem »

Anterior « Mainframe para IA: IBM revela plataforma z17 com processadores Telum II de oito núcleos e aceleradores Spyre

Deixar comentário

Publicado por

avalanche

1 ano atrás

Postagens recentes

A AT&T reclama do domínio de “grupos do crime organizado do cobre” que roubam seus cabos.

Segundo a AT&T, somente em 2025, a empresa sofreu mais de 10.000 incidentes de roubo…

1 hora atrás

Notícias e análises financeiras

A OpenAI oferecerá algumas de suas ações a investidores de varejo.

Para a OpenAI, startup de IA em rápido crescimento, abrir o capital é um evento…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Tubi tornou-se o primeiro serviço de streaming a ser integrado ao ChatGPT.

O serviço de streaming Tubi tornou-se a primeira plataforma de streaming de vídeo a ser…

4 horas atrás

Desenvolvimento e fabricação de eletrônicos

A Intel e a SambaNova lançaram um produto capaz de desbancar a Nvidia no segmento de IA.

A Intel e a SambaNova anunciaram uma arquitetura heterogênea pronta para produção para inferência de…

4 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

A Apple ocupou metade das posições no ranking dos 10 melhores smartphones para o quarto trimestre de 2025.

Os smartphones da Apple conquistaram cinco das dez primeiras posições no ranking dos dispositivos mais…

4 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Um tribunal de apelações dos EUA decidiu que a Anthropic representa uma ameaça à segurança nacional e às cadeias de suprimentos.

No final de fevereiro, o Departamento de Guerra dos EUA adicionou a Anthropic à sua…

5 horas atrás

Amazon revela modelo de voz Nova Sonic AI

Conteúdo relacionado

Postagens recentes

A AT&T reclama do domínio de “grupos do crime organizado do cobre” que roubam seus cabos.

A OpenAI oferecerá algumas de suas ações a investidores de varejo.

Tubi tornou-se o primeiro serviço de streaming a ser integrado ao ChatGPT.

A Intel e a SambaNova lançaram um produto capaz de desbancar a Nvidia no segmento de IA.

A Apple ocupou metade das posições no ranking dos 10 melhores smartphones para o quarto trimestre de 2025.

Um tribunal de apelações dos EUA decidiu que a Anthropic representa uma ameaça à segurança nacional e às cadeias de suprimentos.