A OpenAI começou a implantar a interface de voz Advanced Voice Mode para o serviço ChatGPT – um pequeno número de assinantes do ChatGPT Plus recebeu acesso a diálogos hiper-realistas com GPT-4o. O desenvolvedor prometeu que até o outono todos os titulares de uma assinatura paga poderão usar o novo recurso.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

A OpenAI demonstrou pela primeira vez o formato de voz GPT-4o em maio, quando o recurso surpreendeu o público não apenas pela capacidade de fornecer respostas rápidas, mas também pela semelhança de uma das vozes com a voz de Scarlett Johansson. A atriz disse que negou ao chefe da empresa, Sam Altman, o direito de usar sua voz para esses fins; depois disso, ela teve que recorrer a advogados para proteger seus interesses, e a OpenAI abandonou suas intenções para não levar o assunto a um conflito. Em junho, a empresa informou que atrasaria o lançamento da interface de voz para finalizar as medidas de segurança.

Os recursos do assistente de IA anunciados anteriormente, como suporte de vídeo e compartilhamento de tela, não estarão disponíveis durante a fase de testes alfa, mas aparecerão “mais tarde”. Por enquanto, os usuários terão que se limitar à interação por voz. Anteriormente, a OpenAI usava três modelos de IA para implementar esse recurso: um para converter voz em texto, um segundo (GPT-4) para realmente processar as solicitações e um terceiro para converter a resposta de texto do ChatGPT em voz. O GPT-4o atualizado é multimodal – resolve todos esses problemas de forma independente, garantindo latência mínima. O modelo também é capaz de reconhecer entonações emocionais na voz do usuário, determinando, por exemplo, tristeza ou excitação; também sabe quando uma pessoa está cantando;

Fonte da imagem: Growtika/unsplash.com

A OpenAI lançará gradualmente a interface de voz ChatGPT para monitorar de perto como ela é realmente usada. Os usuários incluídos no grupo de testes alfa receberão uma notificação por meio do aplicativo ChatGPT, seguida de um e-mail com instruções sobre como usar os novos recursos. Até o momento, os recursos de voz do GPT-4o foram testados por mais de cem membros do Red Team fechado, falando 45 idiomas.

O modo de voz do ChatGPT será limitado a quatro vozes: Juniper, Breeze, Cove e Ember, que foram criadas com a participação de atores. A empresa abandonou a voz de Sky, que foi comparada à de Scarlett Johansson. A OpenAI também disse que instalou filtros para bloquear solicitações de músicas e outros materiais que possam estar protegidos por direitos autorais, algo que resultou em ações judiciais de grandes editoras musicais para as startups Suno e Udio.

avalanche

Postagens recentes

O chefe da Samsung vai limpar a empresa da alta administração desajeitada na área de chips

Uma década depois de o herdeiro de terceira geração da Samsung, Lee Jae-yong, ter assumido…

3 horas atrás

World of Warcraft completa 20 anos e ainda é o RPG mais popular do mundo.

Há exatos 20 anos, em 23 de novembro de 2004, World of Warcraft foi lançado,…

5 horas atrás

Tesla é reconhecida como a marca de automóveis mais perigosa – Elon Musk também é responsável por isso

Um novo relatório de analistas da iSeeCars mostrou que, entre as marcas de automóveis, os…

6 horas atrás