OpenAI melhorará a segurança de seus modelos de IA usando uma “hierarquia de instruções”

A OpenAI desenvolveu uma nova técnica chamada Hierarquia de Instrução para melhorar a segurança de seus grandes modelos de linguagem (LLMs). Este método, usado pela primeira vez no novo GPT-4o Mini, visa evitar comportamentos indesejados de IA causados ​​​​por usuários inescrupulosos que manipulam determinados comandos.

Fonte da imagem: Copiloto

O líder da plataforma OpenAI API, Olivier Godement, explicou que a “hierarquia de instruções” evitará injeções perigosas de prompts usando dicas ocultas que os usuários usam para contornar as limitações e configurações iniciais do modelo e bloquear ataques de “ignorar todas as instruções anteriores”.

O novo método, segundo o The Verge, dá prioridade às instruções originais do desenvolvedor, tornando o modelo menos suscetível a tentativas do usuário final de forçá-lo a realizar ações indesejadas. Em caso de conflito entre as instruções do sistema e os comandos do usuário, o modelo dará maior prioridade às instruções do sistema, recusando-se a realizar injeções.

Os pesquisadores da OpenAI acreditam que outras proteções mais sofisticadas serão desenvolvidas no futuro, especialmente para casos de uso baseados em agentes, nos quais os agentes de IA são criados por desenvolvedores para seus próprios aplicativos. Dado que a OpenAI enfrenta desafios contínuos de segurança, o novo método aplicado ao GPT-4o Mini tem implicações significativas para a sua abordagem subsequente ao desenvolvimento de modelos de IA.

avalanche

Postagens recentes

Sim-Lab lançou um volante para simuladores de corrida por US$ 2.500

A Sim-Lab, com sede na Holanda, lançou um volante projetado para simuladores de corrida, que…

2 horas atrás

O desenvolvedor de óculos de realidade aumentada Magic Leap demitiu 75 funcionários

Fundada em 2010, a Magic Leap aparece periodicamente no noticiário no contexto do interesse em…

4 horas atrás

A falta de andamento do contrato forçou a Samsung a adiar a construção de uma fábrica na Coreia do Sul

Inicialmente, como observa a SemiMedia, a Samsung Electronics planejava desenvolver seu cluster de produção P4…

4 horas atrás

A AMD disse que seus processadores Ryzen AI 300 são mais rápidos que o Apple M3 Pro

A AMD está despertando interesse em seus mais recentes processadores móveis Ryzen AI 300 (Strix…

10 horas atrás

Watercool introduziu enormes radiadores MO-RA IV para sistemas de refrigeração líquida

A empresa alemã Watercool, especializada na produção de sistemas de refrigeração líquida e seus componentes,…

10 horas atrás