ChatGPT ganhou visão – o bot aprendeu a entender as transmissões de vídeo da câmera e da tela de um smartphone

A OpenAI anunciou que o chatbot ChatGPT, alimentado por inteligência generativa, tem a capacidade de processar um stream de vídeo e conversar com os usuários sobre o que está “observando” usando um smartphone ou câmera de computador, ou o que vê na tela do dispositivo. O novo recurso está disponível no Modo de Voz Avançado.

Fonte da imagem: OpenAI

A empresa anunciou que o ChatGPT receberá uma função de visão computacional que permite “ver” pela câmera do smartphone do usuário ou por meio de transmissão de tela. Proprietários de assinaturas pagas ChatGPT Plus, Team e Pro agora têm acesso ao ChatGPT Enhanced Voice com reconhecimento de vídeo. A empresa afirma que os assinantes do ChatGPT Enterprise e Edu não receberão o recurso até janeiro e que não há cronograma para seu lançamento na UE, Suíça, Islândia, Noruega e Liechtenstein.

Em uma demonstração recente no programa 60 Minutes da CNN, o presidente da OpenAI, Greg Brockman, testou um modo de voz avançado com reconhecimento visual com o apresentador de TV Anderson Cooper sobre as habilidades anatômicas do chatbot. Quando Cooper desenhou partes do corpo no quadro, ChatGPT “entendeu” o que ele estava desenhando. Ao mesmo tempo, o ChatGPT cometeu um erro em uma tarefa de geometria neste modo, o que indica sua tendência a alucinar.

Desde seu anúncio em maio, a empresa atrasou diversas vezes o lançamento de um modo de voz aprimorado com reconhecimento visual. Em abril, a OpenAI prometeu que o modo estaria disponível para os usuários “dentro de algumas semanas”, mas admitiu meses depois que demoraria mais do que o planejado. E quando o Enhanced Voice foi lançado para alguns usuários em setembro, ele não tinha funcionalidade de visão computacional.

Google e Meta✴ também estão trabalhando em recursos semelhantes para seus chatbots. Esta semana, o Google disponibilizou seu recurso de IA de análise de vídeo em tempo real, Projeto Astra, para um grupo de “testadores confiáveis” na plataforma Android.

avalanche

Postagens recentes

O acordo da Nvidia com a Groq foi concebido para evitar problemas com as leis antitruste.

O princípio de que "tempo é dinheiro" é mais relevante do que nunca no campo…

50 minutos atrás

Outra GeForce RTX 5090 sofreu danos significativos depois que um conector de alimentação 12V-2×6 pegou fogo.

Um usuário do Reddit relatou um incêndio em um conector de alimentação 12V-2x6 de 12+4…

2 horas atrás

Há 50 anos, a inteligência artificial derrotou o campeão soviético de xadrez pela primeira vez.

Em 1975, uma aposta curiosa foi feita na URSS entre cientistas do Instituto de Ciências…

7 horas atrás

Há 50 anos, a inteligência artificial derrotou o campeão soviético de xadrez pela primeira vez.

Em 1975, uma aposta curiosa foi feita na URSS entre cientistas do Instituto de Ciências…

7 horas atrás

Médico do Ritmo – No Ritmo do Coração. Resenha

Processador Intel Core 2 Duo E4600 2.4 GHz / AMD Athlon 64 X2 4600 2.4…

7 horas atrás

A Intel montou um chip de IA gigante a partir de 16 núcleos de computação e 24 módulos HBM5.

A Intel foi a primeira a desenvolver uma arquitetura de chiplets claramente desagregada — as…

8 horas atrás