OpenAI melhorará a segurança de seus modelos de IA usando uma “hierarquia de instruções”

A OpenAI desenvolveu uma nova técnica chamada Hierarquia de Instrução para melhorar a segurança de seus grandes modelos de linguagem (LLMs). Este método, usado pela primeira vez no novo GPT-4o Mini, visa evitar comportamentos indesejados de IA causados ​​​​por usuários inescrupulosos que manipulam determinados comandos.

Fonte da imagem: Copiloto

O líder da plataforma OpenAI API, Olivier Godement, explicou que a “hierarquia de instruções” evitará injeções perigosas de prompts usando dicas ocultas que os usuários usam para contornar as limitações e configurações iniciais do modelo e bloquear ataques de “ignorar todas as instruções anteriores”.

O novo método, segundo o The Verge, dá prioridade às instruções originais do desenvolvedor, tornando o modelo menos suscetível a tentativas do usuário final de forçá-lo a realizar ações indesejadas. Em caso de conflito entre as instruções do sistema e os comandos do usuário, o modelo dará maior prioridade às instruções do sistema, recusando-se a realizar injeções.

Os pesquisadores da OpenAI acreditam que outras proteções mais sofisticadas serão desenvolvidas no futuro, especialmente para casos de uso baseados em agentes, nos quais os agentes de IA são criados por desenvolvedores para seus próprios aplicativos. Dado que a OpenAI enfrenta desafios contínuos de segurança, o novo método aplicado ao GPT-4o Mini tem implicações significativas para a sua abordagem subsequente ao desenvolvimento de modelos de IA.

avalanche

Postagens recentes

A editora de Terminator: Survivors e Styx: Blades of Greed, que enfrenta falência, adiou a Nacon Connect 2026 para apresentar os jogos “em sua melhor forma”.

A editora francesa Nacon (Terminator: Survivors, Styx: Blades of Greed, RoboCop: Rogue City) confirmou o…

1 hora atrás

“Estranho no melhor sentido da palavra”: Os críticos deram seu veredicto sobre o jogo de RPG de fantasia da Esoteric Ebb, no estilo de Planescape: Torment e Disco Elysium.

Antes do seu lançamento amanhã, o RPG de fantasia Esoteric Ebb, do desenvolvedor sueco Christoffer…

2 horas atrás

ASML expandirá sua linha de produtos: litografias incluirão equipamentos avançados de embalagem de chips.

A ASML é a única fabricante de equipamentos de litografia ultravioleta extrema (EUV), essenciais para…

3 horas atrás

A Nvidia lançou o driver 595.71 WHQL para substituir o malsucedido 595.59 WHQL.

A Nvidia lançou um novo driver gráfico, GeForce Game Ready 595.71 WHQL, que substitui o…

3 horas atrás

O robô humanoide da Xiaomi trabalhou em uma linha de montagem de carros — 9 em cada 10 porcas foram apertadas corretamente.

Um robô humanoide da Xiaomi operou com sucesso em modo totalmente autônomo por três horas…

3 horas atrás

A Apple apresentou um novo iPad Air com chip M4, 12 GB de RAM e preço inicial de US$ 599.

A Apple apresentou oficialmente o iPhone 17e, cuja chegada era aguardada há algum tempo. Junto…

4 horas atrás