A OpenAI poderá em breve apresentar um assistente digital alimentado por inteligência artificial multimodal. De acordo com o The Information, o novo assistente OpenAI pode até reconhecer o sarcasmo.
De acordo com as fontes de informação, a OpenAI demonstrou a vários clientes um novo modelo multimodal de IA capaz tanto de dialogar com o usuário quanto de reconhecer objetos. É possível que seja apresentado amanhã, 13 de maio, em evento que terá início às 20h, horário de Moscou.
O novo modelo fornece interpretação mais rápida e precisa de imagens e áudio do que os modelos de IA existentes para transcrição ou conversão de texto em fala. Como sugere o The Information, isso poderia ajudar a equipe de atendimento ao cliente a “entender melhor a entonação das vozes dos chamadores ou se eles estão sendo sarcásticos”. “Em teoria”, o modelo poderia ajudar os alunos a resolver problemas matemáticos ou a traduzir notações do mundo real. De acordo com fontes de recursos, o novo modelo de IA pode superar o GPT-4 Turbo em “responder a alguns tipos de perguntas”, mas ainda estará mais sujeito a tomar decisões erradas.
De acordo com o desenvolvedor Ananay Arora, a OpenAI também está se preparando para adicionar funcionalidade de chamadas telefônicas ao chatbot ChatGPT. Arora afirma ter encontrado evidências de que a OpenAI já imaginou o uso de servidores para comunicações de áudio e vídeo em tempo real.
É importante notar que o GPT-5 não terá esse recurso se for revelado na próxima semana, já que o CEO Sam Altman negou que o próximo evento tenha algo a ver com o sucessor 4 do GPT-5 AI. Ele também rejeitou os rumores de que a empresa lançará um novo mecanismo de busca baseado em IA na próxima semana.