A OpenAI começou a implantar a interface de voz Advanced Voice Mode para o serviço ChatGPT – um pequeno número de assinantes do ChatGPT Plus recebeu acesso a diálogos hiper-realistas com GPT-4o. O desenvolvedor prometeu que até o outono todos os titulares de uma assinatura paga poderão usar o novo recurso.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

A OpenAI demonstrou pela primeira vez o formato de voz GPT-4o em maio, quando o recurso surpreendeu o público não apenas pela capacidade de fornecer respostas rápidas, mas também pela semelhança de uma das vozes com a voz de Scarlett Johansson. A atriz disse que negou ao chefe da empresa, Sam Altman, o direito de usar sua voz para esses fins; depois disso, ela teve que recorrer a advogados para proteger seus interesses, e a OpenAI abandonou suas intenções para não levar o assunto a um conflito. Em junho, a empresa informou que atrasaria o lançamento da interface de voz para finalizar as medidas de segurança.

Os recursos do assistente de IA anunciados anteriormente, como suporte de vídeo e compartilhamento de tela, não estarão disponíveis durante a fase de testes alfa, mas aparecerão “mais tarde”. Por enquanto, os usuários terão que se limitar à interação por voz. Anteriormente, a OpenAI usava três modelos de IA para implementar esse recurso: um para converter voz em texto, um segundo (GPT-4) para realmente processar as solicitações e um terceiro para converter a resposta de texto do ChatGPT em voz. O GPT-4o atualizado é multimodal – resolve todos esses problemas de forma independente, garantindo latência mínima. O modelo também é capaz de reconhecer entonações emocionais na voz do usuário, determinando, por exemplo, tristeza ou excitação; também sabe quando uma pessoa está cantando;

Fonte da imagem: Growtika/unsplash.com

A OpenAI lançará gradualmente a interface de voz ChatGPT para monitorar de perto como ela é realmente usada. Os usuários incluídos no grupo de testes alfa receberão uma notificação por meio do aplicativo ChatGPT, seguida de um e-mail com instruções sobre como usar os novos recursos. Até o momento, os recursos de voz do GPT-4o foram testados por mais de cem membros do Red Team fechado, falando 45 idiomas.

O modo de voz do ChatGPT será limitado a quatro vozes: Juniper, Breeze, Cove e Ember, que foram criadas com a participação de atores. A empresa abandonou a voz de Sky, que foi comparada à de Scarlett Johansson. A OpenAI também disse que instalou filtros para bloquear solicitações de músicas e outros materiais que possam estar protegidos por direitos autorais, algo que resultou em ações judiciais de grandes editoras musicais para as startups Suno e Udio.

avalanche

Postagens recentes

Intel aumentou seu fornecimento de componentes para laptops e desktops em 11%

Os relatórios trimestrais iniciais da Intel deixaram claro que, no segmento de clientes, a receita…

46 minutos atrás

Kunitsu-Gami: Caminho da Deusa – expulsaremos demônios com uma dança. Análise

Jogado no pc Os últimos seis ou sete anos podem ser chamados com segurança de…

9 horas atrás

China quer atribuir IDs individuais a todos os utilizadores da Internet para acabar com o anonimato

O governo chinês anunciou a introdução de um novo sistema nacional de identificação na Internet.…

11 horas atrás