Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A OpenAI lançou o GPT-Realtime-2 e outros dois modelos de voz, mas eles estão disponíveis apenas por meio de uma API.

A OpenAI anunciou a inclusão de uma série de novos recursos de inteligência de voz em sua API, projetados para ajudar os desenvolvedores a criar aplicativos que podem “falar”, transcrever e traduzir conversas com os usuários.

Fonte da imagem: Zac Wolff/unsplash.com

Especificamente, três novos modelos de controle de voz em tempo real — GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper — estão agora disponíveis para desenvolvedores por meio da API Realtime. Esses novos modelos oferecem suporte a uma interação de voz mais natural, tradução em tempo real e transcrição de fala para texto com baixa latência.

O GPT-Realtime-2 foi projetado para interação de voz em tempo real, com a capacidade de analisar solicitações, invocar ferramentas, lidar com correções e continuar a conversa de forma natural. Diferentemente de seu antecessor, o GPT-Realtime-1.5, este modelo é baseado na lógica do GPT-5, projetado para lidar com solicitações de usuário mais complexas.

O GPT-Realtime-2 inclui os seguintes novos recursos para agentes de voz:

O GPT-Realtime-Translate foi projetado para fornecer serviços de tradução em tempo real, acompanhando o ritmo da conversa do usuário. O modelo suporta mais de 70 idiomas de entrada (idiomas que ele consegue entender) e 13 idiomas de saída (idiomas que ele transmite para o falante). O modelo é capaz de preservar o significado adaptando-se ao falante, mesmo quando os usuários mudam de contexto, usam pronúncias regionais ou vocabulário específico da área.

O GPT-Realtime-Whisper é um modelo de transcrição em fluxo contínuo projetado para conversão de fala em texto com baixa latência.“Os modelos que estamos lançando transformam o áudio em tempo real, de um simples diálogo, em interfaces de voz que realmente funcionam: ouvir, raciocinar, traduzir, transcrever e agir conforme a conversa se desenrola.”A empresa anunciou.

O GPT-Realtime-2 custa US$ 32 por 1 milhão de tokens de áudio de entrada, US$ 0,40 por 1 milhão de tokens de entrada em cache e US$ 64 por 1 milhão de tokens de áudio de saída. O GPT-Realtime-Translate custa US$ 0,034 por minuto e o GPT-Realtime-Whisper custa US$ 0,017 por minuto. Os desenvolvedores podem testar os novos modelos na plataforma online OpenAI Playground.

admin

Próximo Cientistas chineses comprimiram centenas de nanodiamantes no vácuo e descobriram por que esses minúsculos cristais perdem sua rigidez. »

Anterior « O Twitch vai intensificar suas medidas contra fraudes de espectadores.

Deixar comentário

Publicado por

admin

2 meses atrás

Postagens recentes

Jogos

Um mod foi lançado para Assassin’s Creed Black Flag Resynced que torna o jogo menos amarelo

\nGraças ao remake do filme de ação pirata de mundo aberto Assassin’s Creed IV: Black…

26 minutos atrás

Comentários sobre eventos recentes

Ações da SK Hynix despencam 15% na Coreia do Sul após estreia bem-sucedida nos EUA

\nNa semana passada, a SK hynix conseguiu entrar no mercado de ações americano e levantar…

57 minutos atrás

Jogos

Um jogador processou a Microsoft por sua conta do Xbox com uma biblioteca de jogos, que foi bloqueada após ser hackeada

\nO usuário do Reddit com o apelido Ordo_Liberal disse que conseguiu vencer uma ação judicial…

1 hora atrás

Jogos

Santa Monica Studio confirmou indiretamente quando God of War Laufey será lançado

\nOs desenvolvedores do estúdio americano Santa Monica, de propriedade da Sony Interactive Entertainment, confirmaram indiretamente…

2 horas atrás

Jogos

League of Legends Classic retornará os jogadores a 2013 – os primeiros detalhes do modo clássico do aclamado MOBA

\nApós o teaser recente, os desenvolvedores do estúdio americano Riot Games (de propriedade da gigante…