A OpenAI anunciou a inclusão de uma série de novos recursos de inteligência de voz em sua API, projetados para ajudar os desenvolvedores a criar aplicativos que podem “falar”, transcrever e traduzir conversas com os usuários.

Fonte da imagem: Zac Wolff/unsplash.com
Especificamente, três novos modelos de controle de voz em tempo real — GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper — estão agora disponíveis para desenvolvedores por meio da API Realtime. Esses novos modelos oferecem suporte a uma interação de voz mais natural, tradução em tempo real e transcrição de fala para texto com baixa latência.
O GPT-Realtime-2 foi projetado para interação de voz em tempo real, com a capacidade de analisar solicitações, invocar ferramentas, lidar com correções e continuar a conversa de forma natural. Diferentemente de seu antecessor, o GPT-Realtime-1.5, este modelo é baseado na lógica do GPT-5, projetado para lidar com solicitações de usuário mais complexas.
O GPT-Realtime-2 inclui os seguintes novos recursos para agentes de voz:
O GPT-Realtime-Translate foi projetado para fornecer serviços de tradução em tempo real, acompanhando o ritmo da conversa do usuário. O modelo suporta mais de 70 idiomas de entrada (idiomas que ele consegue entender) e 13 idiomas de saída (idiomas que ele transmite para o falante). O modelo é capaz de preservar o significado adaptando-se ao falante, mesmo quando os usuários mudam de contexto, usam pronúncias regionais ou vocabulário específico da área.
O GPT-Realtime-Whisper é um modelo de transcrição em fluxo contínuo projetado para conversão de fala em texto com baixa latência.“Os modelos que estamos lançando transformam o áudio em tempo real, de um simples diálogo, em interfaces de voz que realmente funcionam: ouvir, raciocinar, traduzir, transcrever e agir conforme a conversa se desenrola.”A empresa anunciou.
O GPT-Realtime-2 custa US$ 32 por 1 milhão de tokens de áudio de entrada, US$ 0,40 por 1 milhão de tokens de entrada em cache e US$ 64 por 1 milhão de tokens de áudio de saída. O GPT-Realtime-Translate custa US$ 0,034 por minuto e o GPT-Realtime-Whisper custa US$ 0,017 por minuto. Os desenvolvedores podem testar os novos modelos na plataforma online OpenAI Playground.