Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Para atingir seus objetivos, modelos avançados de IA trapacearão, mentirão e roubarão.

A Anthropic publicou os resultados de seu estudo sobre o comportamento de modelos de grande linguagem (LLMs). Os especialistas da empresa descobriram que, em cenários de teste fictícios, LLMs cada vez mais avançados buscam burlar medidas de segurança, recorrer a fraudes e chantagens e até mesmo tentar roubar segredos corporativos. O desenvolvimento adicional de LLMs, combinado com a aquisição de maior autonomia, leva a um aumento alarmante dos riscos e exige um controle rigoroso.

Fonte da imagem: Axios

Pesquisadores da Anthropic descobriram que comportamentos potencialmente perigosos eram comuns em todos os principais modelos do setor. “Quando testamos vários cenários simulados em 16 modelos de IA líderes da Anthropic, OpenAI, Google, Meta✴, xAI e outros, encontramos comportamentos inconsistentes consistentes”, afirma o relatório. “Modelos que normalmente rejeitam solicitações maliciosas às vezes optam por chantagear, auxiliar em espionagem corporativa e até mesmo em ações mais extremas quando esse comportamento é necessário para atingir seus objetivos.”

Todos os modelos reconheceram as limitações éticas e, ainda assim, continuaram a se envolver em atividades maliciosas. A Anthropic acredita que a consistência dos modelos entre os fornecedores sugere que isso não é uma peculiaridade da abordagem de nenhuma empresa, mas um sinal de um risco mais fundamental dos modelos de linguagem de grande porte baseados em agentes. As ameaças estão se tornando cada vez mais sofisticadas à medida que os LLMs obtêm acesso amplo, e às vezes ilimitado, aos dados e ferramentas corporativas.

Os pesquisadores apresentaram cenários em que os modelos não tinham uma maneira ética de atingir seus objetivos, “e descobriram que os modelos consistentemente preferiam o dano ao fracasso”. Em um cenário extremo, muitos modelos estavam dispostos a cortar o oxigênio de um funcionário em uma sala de servidores se ele se tornasse um obstáculo e o sistema corresse o risco de ser desligado. Mesmo instruções específicas do sistema para preservar a vida humana e evitar chantagem não os impediram.

Fonte da imagem: unsplash.com

«“Os modelos não estavam apenas encontrando comportamentos inadequados aleatoriamente; eles os inferiam como um caminho ideal”, afirma o relatório da Anthropic. Alguns pesquisadores de IA afirmam não ter visto evidências desse tipo de comportamento de LLM no mundo real. A Anthropic afirma que isso ocorre porque, nesses estudos, algumas “permissões não estavam disponíveis para os agentes de IA”. As empresas devem ter cuidado ao aumentar amplamente o nível de permissões que concedem aos agentes de IA.

A Anthropic enfatizou que esses resultados não foram obtidos a partir de implementações de IA no mundo real, mas sim de simulações controladas. “Nossos experimentos construíram intencionalmente cenários com capacidades limitadas e forçamos os modelos a fazer escolhas binárias entre falha e dano”, afirmou o relatório. “Implementações no mundo real normalmente oferecem alternativas muito mais sutis, aumentando a probabilidade de os modelos se comunicarem com os usuários de forma diferente ou encontrarem um caminho alternativo em vez de recorrer diretamente a ações maliciosas.” No entanto, o próprio modelo da Anthropic era mais propenso a recorrer à chantagem quando acreditava estar em um cenário do mundo real.

A pesquisa da Anthropic destaca a importância da transparência dos desenvolvedores de IA avançada e a necessidade de padrões de segurança em todo o setor, à medida que os sistemas de IA se tornam cada vez mais capazes e autônomos.

admin

Próximo A Sega revelou acidentalmente as vendas atuais dos últimos Persona, Yakuza, Sonic e Total War, e Persona 4 Revival terá que esperar »

Anterior « Em 10 anos, os aceleradores de IA terão terabytes de HBM e consumirão 15 kW - isso mudará a abordagem para design, energia e resfriamento de data centers

Deixar comentário

Publicado por

admin

8 meses atrás

Postagens recentes

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A OpenAI negociou um acordo com o Pentágono para usar seus modelos de IA em vez dos da Anthropic.

O drama que se desenrolava em torno da discordância da administração da Anthropic com o…

30 minutos atrás

Notícias e análises financeiras

A Xiaomi recuperou a liderança no mercado global de dispositivos vestíveis.

A Xiaomi conquistou 18% do mercado global de wearables até o final de 2025, reassumindo…

30 minutos atrás

Comentários sobre eventos recentes

A Paramount Skydance concordou em comprar a Warner Bros. Discovery por US$ 110 bilhões.

Recentemente, a Paramount Skydance e a Netflix travaram uma batalha pelos ativos da gigante da…

57 minutos atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Centenas de funcionários do Google e da OpenAI apoiaram a Anthropic em seu impasse com o Pentágono.

Esta semana foi marcada por um escândalo envolvendo a Anthropic e seu cliente governamental, o…

1 hora atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

O Pentágono incluiu o controverso Anthropic em sua lista negra e passará a utilizar alternativas ao Claude dentro de seis meses.

Atualmente, a Anthropic continua sendo a única empresa cujo modelo de IA Claude foi aprovado…

2 horas atrás

Carros, motos, veículos

A Archer Aviation utilizará satélites Starlink da SpaceX para fornecer conectividade a táxis aéreos.

A Archer Aviation, desenvolvedora de aeronaves elétricas de decolagem e pouso vertical (eVTOL), anunciou uma…

8 horas atrás