Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

A OpenAI pegou a IA mentindo deliberadamente e ainda não conseguiu erradicá-la completamente.

A OpenAI publicou os resultados de um estudo descrevendo seus esforços para combater a trapaça em modelos de IA. Às vezes, “a IA se comporta de uma certa maneira na superfície, ocultando suas verdadeiras intenções”, explicou a empresa.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

Um artigo preparado em conjunto com a Apollo Research compara esses mecanismos de conspiração às ações de um corretor da bolsa que infringe a lei para maximizar os lucros. Na maioria dos casos, esse comportamento da IA ainda é amplamente inofensivo. “As falhas mais comuns envolvem formas simples de trapaça — por exemplo, quando um modelo finge ter concluído uma tarefa sem realmente tê-la feito”, escrevem os pesquisadores. Uma solução eficaz para esses problemas é o método de “alinhamento consciente”. No entanto, os cientistas não encontraram uma maneira de treinar um modelo para que ele pare completamente de trapacear — na verdade, nesses casos, ele trapaceia de forma ainda mais sofisticada para evitar ser detectado.

Surpreendentemente, o modelo entende quando está sendo testado e pode começar a fingir que parou de trapacear para passar no teste, enquanto continua a enganar. “Os modelos costumam estar mais conscientes de que estão sendo avaliados.” “Essa consciência situacional pode, por si só, enfraquecer as tentativas de trapaça, independentemente do alinhamento genuíno”, relatam os autores do projeto. Modelos podem mentir, e isso não é novidade. Muitos usuários de chatbots já tiveram alucinações, nas quais a IA dá, com confiança, uma resposta que não corresponde à realidade. Mas uma alucinação é essencialmente um palpite confiante. Trapacear é diferente. É um ato intencional.

Fonte da imagem: Growtika / unsplash.com

Pesquisadores descobriram que um método chamado “alinhamento deliberado” reduz a incidência de tais incidentes. Ele envolve treinar um modelo com uma “especificação antitrapaça” e, em seguida, instruí-lo a verificar essa especificação antes de executar ações. Isso é semelhante a como os pais obrigam seus filhos a repetir as regras antes de deixá-los jogar. Pesquisadores da OpenAI insistem que as mentiras que flagraram seus próprios modelos cometendo, ou mesmo o serviço ChatGPT, não são tão graves.

“Este trabalho foi conduzido em ambientes simulados e acreditamos que representa casos de uso futuros. Até o momento, não detectamos nenhuma trapaça grave em nosso tráfego de produção. No entanto, é bem sabido que o ChatGPT trapaceia de alguma forma. Você poderia pedir para ele implementar um site, e ele poderia responder: ‘Sim, fiz um ótimo trabalho’. E isso seria apenas uma mentira.” “Ainda existem formas sutis de trapaça que ainda precisamos abordar”, comentou o cofundador da OpenAI, Wojciech Zaremba, sobre as descobertas do estudo ao TechCrunch.

No entanto, tais descobertas não devem ser ignoradas: a IA está sendo cada vez mais utilizada em ambientes corporativos, onde qualquer falha corre o risco de ser crítica. “À medida que a IA começa a ser incumbida de tarefas cada vez mais complexas, com consequências no mundo real, e começa a perseguir objetivos cada vez mais ambíguos e de longo prazo, prevemos que o potencial para comportamento malicioso aumente — e nossas capacidades de segurança e nossa capacidade de conduzir testes rigorosos devem ser fortalecidas de acordo”, disse ele.alertam os autores do estudo.

admin

Próximo O DDR4 continuará em falta, com preços previstos para subir pelo menos 10% em outubro. »

Anterior « Os criadores de Arma 4 anunciaram Cosmo Tales, um jogo de ação espacial com uma nave espacial consciente e viagens por dimensões alternativas.

Deixar comentário

Publicado por

admin

8 meses atrás

Postagens recentes

O mundo da robótica

Há mais de uma semana, robôs com inteligência artificial estão separando encomendas ao vivo, com os telespectadores apostando se eles vão quebrar.

Há mais de uma semana, a startup de robótica Figure AI vem transmitindo ao vivo…

22 minutos atrás

Na vanguarda da ciência

Astrônomos descobriram um “Saturno temperado” com um clima quase idêntico ao da Terra, e o telescópio Webb estudou sua atmosfera em detalhes pela primeira vez.

Cientistas americanos realizaram um estudo inédito da atmosfera de um raro exoplaneta do tamanho de…

48 minutos atrás

Desenvolvimento e fabricação de eletrônicos

As ações da Samsung disparam 6% após a suspensão de uma greve massiva.

As ações da Samsung Electronics subiram mais de 6% na quinta-feira, após o sindicato da…

48 minutos atrás

O mundo da robótica

O primeiro robô universal para cuidados domiciliares foi apresentado na China – e já há quem procure uma família para ele.

Em 20 de maio, a Hubei GigaBrain apresentou em Wuhan o que afirma ser o…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Anthropic pretende encerrar o trimestre atual com lucro pela primeira vez em sua história.

A Anthropic informou aos investidores que sua receita mais que dobrará, chegando a aproximadamente US$…

2 horas atrás

Jogos

Analistas: Subnautica 2 tornou-se o jogo mais vendido de 2026 no Steam em apenas cinco dias, ultrapassando Crimson Desert e Resident Evil Requiem.

O aclamado simulador de sobrevivência subaquática Subnautica 2, do estúdio americano Unknown Worlds Entertainment (de…

2 horas atrás

A OpenAI pegou a IA mentindo deliberadamente e ainda não conseguiu erradicá-la completamente.

Conteúdo relacionado

Postagens recentes

Há mais de uma semana, robôs com inteligência artificial estão separando encomendas ao vivo, com os telespectadores apostando se eles vão quebrar.

Astrônomos descobriram um “Saturno temperado” com um clima quase idêntico ao da Terra, e o telescópio Webb estudou sua atmosfera em detalhes pela primeira vez.

As ações da Samsung disparam 6% após a suspensão de uma greve massiva.

O primeiro robô universal para cuidados domiciliares foi apresentado na China – e já há quem procure uma família para ele.

A Anthropic pretende encerrar o trimestre atual com lucro pela primeira vez em sua história.

Analistas: Subnautica 2 tornou-se o jogo mais vendido de 2026 no Steam em apenas cinco dias, ultrapassando Crimson Desert e Resident Evil Requiem.