OpenAI melhorará a segurança de seus modelos de IA usando uma “hierarquia de instruções”

A OpenAI desenvolveu uma nova técnica chamada Hierarquia de Instrução para melhorar a segurança de seus grandes modelos de linguagem (LLMs). Este método, usado pela primeira vez no novo GPT-4o Mini, visa evitar comportamentos indesejados de IA causados ​​​​por usuários inescrupulosos que manipulam determinados comandos.

Fonte da imagem: Copiloto

O líder da plataforma OpenAI API, Olivier Godement, explicou que a “hierarquia de instruções” evitará injeções perigosas de prompts usando dicas ocultas que os usuários usam para contornar as limitações e configurações iniciais do modelo e bloquear ataques de “ignorar todas as instruções anteriores”.

O novo método, segundo o The Verge, dá prioridade às instruções originais do desenvolvedor, tornando o modelo menos suscetível a tentativas do usuário final de forçá-lo a realizar ações indesejadas. Em caso de conflito entre as instruções do sistema e os comandos do usuário, o modelo dará maior prioridade às instruções do sistema, recusando-se a realizar injeções.

Os pesquisadores da OpenAI acreditam que outras proteções mais sofisticadas serão desenvolvidas no futuro, especialmente para casos de uso baseados em agentes, nos quais os agentes de IA são criados por desenvolvedores para seus próprios aplicativos. Dado que a OpenAI enfrenta desafios contínuos de segurança, o novo método aplicado ao GPT-4o Mini tem implicações significativas para a sua abordagem subsequente ao desenvolvimento de modelos de IA.

avalanche

Postagens recentes

Com o anúncio do OCuLink Dev Kit, a Framework transforma o Laptop 16 modular em um “quase-desktop”.

A Framework, fabricante de laptops modulares, anunciou novos modelos para o Laptop 16, incluindo uma…

5 horas atrás

Linha de Defesa: Uma Visão Geral de Máquinas Virtuais e Sandboxes para Android

Aplicativos móveis com reputação duvidosa são muito comuns hoje em dia, mesmo de fontes confiáveis.…

5 horas atrás

A era dos Macs da Apple com processadores Intel está chegando ao fim – eles não receberão suporte para o próximo macOS 27.

O MacRumors lembrou que o macOS 26 Tahoe será a última versão principal do sistema…

5 horas atrás

Sai da frente, Logitech: a Framework está preparando um teclado sem fio com touchpad e arquitetura aberta.

A Framework anunciou o desenvolvimento de um novo teclado sem fio com touchpad, que substituirá…

5 horas atrás

A Turbo Cloud lançou uma plataforma para o lançamento rápido de modelos de IA com cobrança por minuto e escalonamento automático.

A provedora de nuvem Turbo Cloud (parte do cluster de TI comercial da Rostelecom) lançou…

6 horas atrás