A OpenAI lançou o GPT-Realtime-2 e outros dois modelos de voz, mas eles estão disponíveis apenas por meio de uma API.

A OpenAI anunciou a inclusão de uma série de novos recursos de inteligência de voz em sua API, projetados para ajudar os desenvolvedores a criar aplicativos que podem “falar”, transcrever e traduzir conversas com os usuários.

Fonte da imagem: Zac Wolff/unsplash.com

Especificamente, três novos modelos de controle de voz em tempo real — GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper — estão agora disponíveis para desenvolvedores por meio da API Realtime. Esses novos modelos oferecem suporte a uma interação de voz mais natural, tradução em tempo real e transcrição de fala para texto com baixa latência.

O GPT-Realtime-2 foi projetado para interação de voz em tempo real, com a capacidade de analisar solicitações, invocar ferramentas, lidar com correções e continuar a conversa de forma natural. Diferentemente de seu antecessor, o GPT-Realtime-1.5, este modelo é baseado na lógica do GPT-5, projetado para lidar com solicitações de usuário mais complexas.

O GPT-Realtime-2 inclui os seguintes novos recursos para agentes de voz:

O GPT-Realtime-Translate foi projetado para fornecer serviços de tradução em tempo real, acompanhando o ritmo da conversa do usuário. O modelo suporta mais de 70 idiomas de entrada (idiomas que ele consegue entender) e 13 idiomas de saída (idiomas que ele transmite para o falante). O modelo é capaz de preservar o significado adaptando-se ao falante, mesmo quando os usuários mudam de contexto, usam pronúncias regionais ou vocabulário específico da área.

O GPT-Realtime-Whisper é um modelo de transcrição em fluxo contínuo projetado para conversão de fala em texto com baixa latência.“Os modelos que estamos lançando transformam o áudio em tempo real, de um simples diálogo, em interfaces de voz que realmente funcionam: ouvir, raciocinar, traduzir, transcrever e agir conforme a conversa se desenrola.”A empresa anunciou.

O GPT-Realtime-2 custa US$ 32 por 1 milhão de tokens de áudio de entrada, US$ 0,40 por 1 milhão de tokens de entrada em cache e US$ 64 por 1 milhão de tokens de áudio de saída. O GPT-Realtime-Translate custa US$ 0,034 por minuto e o GPT-Realtime-Whisper custa US$ 0,017 por minuto. Os desenvolvedores podem testar os novos modelos na plataforma online OpenAI Playground.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Ferramentas de Guerra: Warhammer 40.000: Dawn of War 4 – Desenvolvedores mostram os Tecno-Sacerdotes do Adeptus Mechanicus em batalha

A editora Deep Silver e os desenvolvedores do estúdio alemão King Art Games (Iron Harvest)…

41 minutos atrás

Os ciberataques estão em ascensão: o número de novos malwares aumentou 18 vezes em um ano.

De janeiro a abril de 2026, foram detectadas 1.174 amostras de malware usadas em ciberataques…

41 minutos atrás

O sindicato dos funcionários da Samsung realizará novas negociações com a direção na próxima semana.

A greve geral de 18 dias dos funcionários da Samsung Electronics, agendada para 21 de…

1 hora atrás