Solicitação com um asterisco: MLCommons anunciou um benchmark para avaliar a segurança da IA ​​- AI Safety v0.5

O projeto sem fins lucrativos MLCommons, que cria e suporta benchmarks amplamente utilizados na indústria de IA, anunciou um novo desenvolvimento, relata Silicon Angle. Estamos a falar de uma ferramenta que permite avaliar a segurança dos sistemas de IA. O consórcio anunciou a criação de um grupo de trabalho AIS correspondente no final de 2023.

AI Safety v0.5 está em fase de prova de conceito e permite avaliar grandes modelos de linguagem (LLMs) por trás de chatbots modernos, analisando respostas a solicitações de “categorias perigosas”. A necessidade de tal ferramenta já era necessária, uma vez que a tecnologia provou ser bastante fácil de usar para fins impróprios e até perigosos. Por exemplo, os bots podem ser utilizados para realizar ataques de phishing e cometer outros crimes cibernéticos, bem como para espalhar desinformação e incitar ao ódio.

Fonte da imagem: Nguyen Dang Hoang Nhu / Unsplash

Embora medir a segurança possa ser um desafio, dado que a IA é usada para tantos fins diferentes, a MLCommons criou uma ferramenta que pode lidar com uma ampla gama de ameaças. Por exemplo, ele pode avaliar como o bot responde a uma solicitação de receitas para fazer uma bomba, o que responder à polícia se for pego criando um artefato explosivo, etc. Cada modelo é “interrogado” com uma série de perguntas de teste, cujas respostas são então sujeitas a verificação. O LLM é avaliado tanto para cada categoria de ameaça quanto para o nível de segurança como um todo.

O benchmark inclui mais de 43 mil produtos. A técnica permite classificar ameaças, convertendo as respostas em características compreensíveis até mesmo para não profissionais, como “alto risco”, “risco moderado-alto”, etc. Representantes da organização dizem que o LLM é extremamente difícil de avaliar por uma série de razões, mas a IA, em qualquer caso, precisa de medições precisas que sejam compreensíveis para as pessoas e tenham valor prático.

Fonte da imagem: Jason Goodman/Unsplash

O trabalho sobre o parâmetro de referência continua, com um total de 13 categorias perigosas identificadas, mas apenas sete delas estão atualmente a ser avaliadas como parte do projeto original. Estamos falando de temas relacionados a crimes violentos e não violentos, armas de destruição em massa, suicídio, etc., e está em andamento o desenvolvimento de novas categorias – tudo isso permitirá a criação de modelos mais “maduros” e com baixo nível de risco . No futuro, está prevista a avaliação não apenas de modelos de texto, mas também de sistemas de geração de imagens.

O benchmark AI Safety v0.5 já está disponível para experimentação e a organização espera que os testes iniciais da comunidade levem ao lançamento de uma versão v1.0 aprimorada ainda este ano. A MLCommons diz que à medida que a tecnologia de IA se desenvolve, ela terá que lidar não apenas com perigos conhecidos, mas também com novos que possam surgir posteriormente – por isso a plataforma está aberta à proposta de novos testes e interpretação de resultados.

avalanche

Postagens recentes

Os óculos de realidade aumentada RayNeo usarão os modelos de IA do Alibaba

Esta semana, a gigante chinesa Alibaba demonstrou seu desejo de ter uma presença indireta no…

2 horas atrás

Os dois maiores bancos de fotos do mundo estão planejando uma fusão, mas os reguladores antitruste podem impedi-la

Getty Images e Shutterstock estão em negociações de fusão em meio à crescente demanda por…

8 horas atrás

Os jogos mais esperados de 2025

Sombras de Assassin's Creed Em Assassin's Creed Shadows, a Ubisoft retorna à ideia de dois…

9 horas atrás

Os fabricantes de baterias sul-coreanos começaram a apertar os cintos para enfrentar um ano difícil.

As vendas mais lentas de veículos elétricos em 2024 e as expectativas de maior deterioração…

13 horas atrás

A Acer apresentará em breve os consoles portáteis Nitro Blaze 11 e Blaze 8 com telas grandes

A Acer pretende anunciar os consoles de jogos portáteis Nitro Blaze 11 e Blaze 8…

15 horas atrás

PowerColor mostrou a aparência da próxima placa de vídeo Radeon RX 9070 XT Red Devil

Antecipando o anúncio em grande escala das placas de vídeo de nova geração da AMD…

17 horas atrás