Categorias: Mercado de tecnologia e TI. notíciaNotícias da rede

OpenAI melhorará a segurança de seus modelos de IA usando uma “hierarquia de instruções”

A OpenAI desenvolveu uma nova técnica chamada Hierarquia de Instrução para melhorar a segurança de seus grandes modelos de linguagem (LLMs). Este método, usado pela primeira vez no novo GPT-4o Mini, visa evitar comportamentos indesejados de IA causados por usuários inescrupulosos que manipulam determinados comandos.

Fonte da imagem: Copiloto

O líder da plataforma OpenAI API, Olivier Godement, explicou que a “hierarquia de instruções” evitará injeções perigosas de prompts usando dicas ocultas que os usuários usam para contornar as limitações e configurações iniciais do modelo e bloquear ataques de “ignorar todas as instruções anteriores”.

O novo método, segundo o The Verge, dá prioridade às instruções originais do desenvolvedor, tornando o modelo menos suscetível a tentativas do usuário final de forçá-lo a realizar ações indesejadas. Em caso de conflito entre as instruções do sistema e os comandos do usuário, o modelo dará maior prioridade às instruções do sistema, recusando-se a realizar injeções.

Os pesquisadores da OpenAI acreditam que outras proteções mais sofisticadas serão desenvolvidas no futuro, especialmente para casos de uso baseados em agentes, nos quais os agentes de IA são criados por desenvolvedores para seus próprios aplicativos. Dado que a OpenAI enfrenta desafios contínuos de segurança, o novo método aplicado ao GPT-4o Mini tem implicações significativas para a sua abordagem subsequente ao desenvolvimento de modelos de IA.

avalanche

Próximo A falta de andamento do contrato forçou a Samsung a adiar a construção de uma fábrica na Coreia do Sul »

Anterior « A AMD disse que seus processadores Ryzen AI 300 são mais rápidos que o Apple M3 Pro

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Sistemas operacionais

Deserto Carmesim — o Skyrim da Coreia do Sul. Análise / Jogos

19 de março de 2026 Jogado no PlayStation 5 Na primeira hora, o protagonista de…

2 horas atrás

Eletrônica vestível

Deserto Carmesim – O Skyrim da Coreia do Sul. Análise.

19 de março de 2026 Jogado no PlayStation 5 Na primeira hora, o protagonista de…

2 horas atrás

Eletrônica vestível

O primeiro relógio de pulso movido a energia solar do mundo completa 50 anos.

A Citizen comemorou o 50º aniversário do seu primeiro relógio de pulso analógico movido a…

6 horas atrás

Espaço

A NASA indignou empresas privadas ao abandonar estações orbitais comerciais – bilhões em investimentos estão em risco.

No evento do programa Ignition da NASA, em 24 de março, a agência propôs abandonar…

8 horas atrás

Mercado de TI

A pior semana do ano: gigantes da tecnologia perderam bilhões em valor de mercado devido à guerra e a problemas com a Meta.

O mercado de TI sofreu sua pior semana em quase um ano, com a queda…

8 horas atrás

Sistemas operacionais

O Apple Mac OS X celebrou seu aniversário de 25 anos.

Esta semana, o Mac OS X da Apple celebrou seu aniversário de 25 anos —…

8 horas atrás

OpenAI melhorará a segurança de seus modelos de IA usando uma “hierarquia de instruções”

Conteúdo relacionado

Postagens recentes

Deserto Carmesim — o Skyrim da Coreia do Sul. Análise / Jogos

Deserto Carmesim – O Skyrim da Coreia do Sul. Análise.

O primeiro relógio de pulso movido a energia solar do mundo completa 50 anos.

A NASA indignou empresas privadas ao abandonar estações orbitais comerciais – bilhões em investimentos estão em risco.

A pior semana do ano: gigantes da tecnologia perderam bilhões em valor de mercado devido à guerra e a problemas com a Meta.

O Apple Mac OS X celebrou seu aniversário de 25 anos.