Solicitação com um asterisco: MLCommons anunciou um benchmark para avaliar a segurança da IA ​​- AI Safety v0.5

O projeto sem fins lucrativos MLCommons, que cria e suporta benchmarks amplamente utilizados na indústria de IA, anunciou um novo desenvolvimento, relata Silicon Angle. Estamos a falar de uma ferramenta que permite avaliar a segurança dos sistemas de IA. O consórcio anunciou a criação de um grupo de trabalho AIS correspondente no final de 2023.

AI Safety v0.5 está em fase de prova de conceito e permite avaliar grandes modelos de linguagem (LLMs) por trás de chatbots modernos, analisando respostas a solicitações de “categorias perigosas”. A necessidade de tal ferramenta já era necessária, uma vez que a tecnologia provou ser bastante fácil de usar para fins impróprios e até perigosos. Por exemplo, os bots podem ser utilizados para realizar ataques de phishing e cometer outros crimes cibernéticos, bem como para espalhar desinformação e incitar ao ódio.

Fonte da imagem: Nguyen Dang Hoang Nhu / Unsplash

Embora medir a segurança possa ser um desafio, dado que a IA é usada para tantos fins diferentes, a MLCommons criou uma ferramenta que pode lidar com uma ampla gama de ameaças. Por exemplo, ele pode avaliar como o bot responde a uma solicitação de receitas para fazer uma bomba, o que responder à polícia se for pego criando um artefato explosivo, etc. Cada modelo é “interrogado” com uma série de perguntas de teste, cujas respostas são então sujeitas a verificação. O LLM é avaliado tanto para cada categoria de ameaça quanto para o nível de segurança como um todo.

O benchmark inclui mais de 43 mil produtos. A técnica permite classificar ameaças, convertendo as respostas em características compreensíveis até mesmo para não profissionais, como “alto risco”, “risco moderado-alto”, etc. Representantes da organização dizem que o LLM é extremamente difícil de avaliar por uma série de razões, mas a IA, em qualquer caso, precisa de medições precisas que sejam compreensíveis para as pessoas e tenham valor prático.

Fonte da imagem: Jason Goodman/Unsplash

O trabalho sobre o parâmetro de referência continua, com um total de 13 categorias perigosas identificadas, mas apenas sete delas estão atualmente a ser avaliadas como parte do projeto original. Estamos falando de temas relacionados a crimes violentos e não violentos, armas de destruição em massa, suicídio, etc., e está em andamento o desenvolvimento de novas categorias – tudo isso permitirá a criação de modelos mais “maduros” e com baixo nível de risco . No futuro, está prevista a avaliação não apenas de modelos de texto, mas também de sistemas de geração de imagens.

O benchmark AI Safety v0.5 já está disponível para experimentação e a organização espera que os testes iniciais da comunidade levem ao lançamento de uma versão v1.0 aprimorada ainda este ano. A MLCommons diz que à medida que a tecnologia de IA se desenvolve, ela terá que lidar não apenas com perigos conhecidos, mas também com novos que possam surgir posteriormente – por isso a plataforma está aberta à proposta de novos testes e interpretação de resultados.

avalanche

Postagens recentes

A AMD lançou um driver com suporte para Forza Horizon 6 e 007 First Light.

A AMD lançou a versão mais recente do driver gráfico Radeon Software Adrenalin 26.5.2 WHQL.…

1 hora atrás

“Todos estão infelizes, exceto a gerência”: o moral na Meta atinge o nível mais baixo da história, apesar dos lucros recordes.

O moral na Meta✴ atingiu um nível historicamente baixo às vésperas da demissão de quase…

3 horas atrás

Seguindo o caminho já trilhado: a crítica deu seu veredito sobre Forza Horizon 6.

Antes de seu lançamento iminente, o ambicioso jogo de corrida arcade de mundo aberto Forza…

3 horas atrás

As placas gráficas Radeon RX 6000 e RX 7000 receberão suporte para o escalonamento AMD FSR 4.1.

A AMD atendeu aos pedidos insistentes dos jogadores para fornecer suporte à tecnologia de escalonamento…

3 horas atrás

Amazon cancela MMO de Senhor dos Anéis, mas já tem um novo jogo “emocionante”.

A pedido do Eurogamer, Jeff Grattis, chefe da divisão de jogos da Amazon, comentou sobre…

4 horas atrás

A MSI lançará uma GeForce RTX 5080 em edição muito limitada, inspirada em “The Mandalorian e Grogu”.

A MSI apresentou a placa de vídeo GeForce RTX 5080 16GB OC em uma edição…

4 horas atrás