A OpenAI lançou o GPT-Realtime-2 e outros dois modelos de voz, mas eles estão disponíveis apenas por meio de uma API.

A OpenAI anunciou a inclusão de uma série de novos recursos de inteligência de voz em sua API, projetados para ajudar os desenvolvedores a criar aplicativos que podem “falar”, transcrever e traduzir conversas com os usuários.

Fonte da imagem: Zac Wolff/unsplash.com

Especificamente, três novos modelos de controle de voz em tempo real — GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper — estão agora disponíveis para desenvolvedores por meio da API Realtime. Esses novos modelos oferecem suporte a uma interação de voz mais natural, tradução em tempo real e transcrição de fala para texto com baixa latência.

O GPT-Realtime-2 foi projetado para interação de voz em tempo real, com a capacidade de analisar solicitações, invocar ferramentas, lidar com correções e continuar a conversa de forma natural. Diferentemente de seu antecessor, o GPT-Realtime-1.5, este modelo é baseado na lógica do GPT-5, projetado para lidar com solicitações de usuário mais complexas.

O GPT-Realtime-2 inclui os seguintes novos recursos para agentes de voz:

O GPT-Realtime-Translate foi projetado para fornecer serviços de tradução em tempo real, acompanhando o ritmo da conversa do usuário. O modelo suporta mais de 70 idiomas de entrada (idiomas que ele consegue entender) e 13 idiomas de saída (idiomas que ele transmite para o falante). O modelo é capaz de preservar o significado adaptando-se ao falante, mesmo quando os usuários mudam de contexto, usam pronúncias regionais ou vocabulário específico da área.

O GPT-Realtime-Whisper é um modelo de transcrição em fluxo contínuo projetado para conversão de fala em texto com baixa latência.“Os modelos que estamos lançando transformam o áudio em tempo real, de um simples diálogo, em interfaces de voz que realmente funcionam: ouvir, raciocinar, traduzir, transcrever e agir conforme a conversa se desenrola.”A empresa anunciou.

O GPT-Realtime-2 custa US$ 32 por 1 milhão de tokens de áudio de entrada, US$ 0,40 por 1 milhão de tokens de entrada em cache e US$ 64 por 1 milhão de tokens de áudio de saída. O GPT-Realtime-Translate custa US$ 0,034 por minuto e o GPT-Realtime-Whisper custa US$ 0,017 por minuto. Os desenvolvedores podem testar os novos modelos na plataforma online OpenAI Playground.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Microsoft lançará um superaplicativo com todos os serviços de IA do Copilot de uma só vez.

A Microsoft ainda não resolveu um problema urgente: seu portfólio inclui muitos assistentes de IA…

1 hora atrás

Caos no solo e pilhas de metal carbonizado: fotos das ruínas do complexo de lançamento da Blue Origin após a explosão foram divulgadas.

Como noticiado anteriormente, ontem, durante um teste estático do novo foguete New Glenn, da Blue…

2 horas atrás

O robô Atlas da Boston Dynamics executou um chute de futebol “rabona fantasma” sem que suas pernas se enroscassem.

O robô humanoide Hyundai Atlas dominou as técnicas do futebol tão bem que demonstrou um…

2 horas atrás

A tripulação da espaçonave Shenzhou 21, que estava isolada, finalmente retornou à Terra a bordo da espaçonave Shenzhou 22.

Os taikonautas que foram lançados ao espaço na espaçonave chinesa Shenzhou 21 retornaram à Terra…

2 horas atrás

O YouTube apresentou três novos recursos para podcasts, incluindo recomendações de IA e a possibilidade de ouvir em qualquer lugar.

O YouTube lançou novas funcionalidades para sua assinatura Premium de podcasts. A atualização inclui uma…

6 horas atrás

A Microsoft também está dando a entender que o anúncio do processador Nvidia N1X para laptops está iminente.

Rumores sobre o possível lançamento do tão aguardado processador N1X, desenvolvido pela Nvidia em parceria…

6 horas atrás