ChatGPT ganhou visão – o bot aprendeu a entender as transmissões de vídeo da câmera e da tela de um smartphone

A OpenAI anunciou que o chatbot ChatGPT, alimentado por inteligência generativa, tem a capacidade de processar um stream de vídeo e conversar com os usuários sobre o que está “observando” usando um smartphone ou câmera de computador, ou o que vê na tela do dispositivo. O novo recurso está disponível no Modo de Voz Avançado.

Fonte da imagem: OpenAI

A empresa anunciou que o ChatGPT receberá uma função de visão computacional que permite “ver” pela câmera do smartphone do usuário ou por meio de transmissão de tela. Proprietários de assinaturas pagas ChatGPT Plus, Team e Pro agora têm acesso ao ChatGPT Enhanced Voice com reconhecimento de vídeo. A empresa afirma que os assinantes do ChatGPT Enterprise e Edu não receberão o recurso até janeiro e que não há cronograma para seu lançamento na UE, Suíça, Islândia, Noruega e Liechtenstein.

Em uma demonstração recente no programa 60 Minutes da CNN, o presidente da OpenAI, Greg Brockman, testou um modo de voz avançado com reconhecimento visual com o apresentador de TV Anderson Cooper sobre as habilidades anatômicas do chatbot. Quando Cooper desenhou partes do corpo no quadro, ChatGPT “entendeu” o que ele estava desenhando. Ao mesmo tempo, o ChatGPT cometeu um erro em uma tarefa de geometria neste modo, o que indica sua tendência a alucinar.

Desde seu anúncio em maio, a empresa atrasou diversas vezes o lançamento de um modo de voz aprimorado com reconhecimento visual. Em abril, a OpenAI prometeu que o modo estaria disponível para os usuários “dentro de algumas semanas”, mas admitiu meses depois que demoraria mais do que o planejado. E quando o Enhanced Voice foi lançado para alguns usuários em setembro, ele não tinha funcionalidade de visão computacional.

Google e Meta✴ também estão trabalhando em recursos semelhantes para seus chatbots. Esta semana, o Google disponibilizou seu recurso de IA de análise de vídeo em tempo real, Projeto Astra, para um grupo de “testadores confiáveis” na plataforma Android.

avalanche

Postagens recentes

Para motivar os principais executivos, a Meta oferecerá a eles opções de recompra de ações pela primeira vez desde seu IPO.

No ano passado, a Meta✴Platforms estabeleceu um alto padrão de remuneração para seus principais especialistas…

23 minutos atrás

A SK Hynix planeja abrir seu capital na bolsa de valores dos EUA ainda este ano.

Embora alguns especialistas apontem para condições desfavoráveis ​​para ofertas públicas iniciais (IPOs), empresas com necessidades…

1 hora atrás

A SpaceX está se preparando para protocolar os documentos necessários para uma oferta pública inicial (IPO) esta semana.

No final de janeiro, foi anunciado que a SpaceX, empresa aeroespacial de Elon Musk, programaria…

4 horas atrás

A Apple lançará um aplicativo Siri separado para iOS 27 e macOS 27.

Segundo Mark Gurman, da Bloomberg, a Apple planeja lançar o primeiro aplicativo Siri independente como…

7 horas atrás

A OpenAI encerrou abruptamente o Sora, o gerador viral de sátiras com IA.

A OpenAI decidiu inesperadamente encerrar seu aplicativo de criação de vídeos com inteligência artificial, o…

7 horas atrás

NVIDIA Groq 3: SRAM, desagregação, determinismo

As LPUs da Groq são fundamentalmente diferentes dos aceleradores de IA da NVIDIA, mas são…

8 horas atrás