Solicitação com um asterisco: MLCommons anunciou um benchmark para avaliar a segurança da IA - AI Safety v0.5

O projeto sem fins lucrativos MLCommons, que cria e suporta benchmarks amplamente utilizados na indústria de IA, anunciou um novo desenvolvimento, relata Silicon Angle. Estamos a falar de uma ferramenta que permite avaliar a segurança dos sistemas de IA. O consórcio anunciou a criação de um grupo de trabalho AIS correspondente no final de 2023.

AI Safety v0.5 está em fase de prova de conceito e permite avaliar grandes modelos de linguagem (LLMs) por trás de chatbots modernos, analisando respostas a solicitações de “categorias perigosas”. A necessidade de tal ferramenta já era necessária, uma vez que a tecnologia provou ser bastante fácil de usar para fins impróprios e até perigosos. Por exemplo, os bots podem ser utilizados para realizar ataques de phishing e cometer outros crimes cibernéticos, bem como para espalhar desinformação e incitar ao ódio.

Fonte da imagem: Nguyen Dang Hoang Nhu / Unsplash

Embora medir a segurança possa ser um desafio, dado que a IA é usada para tantos fins diferentes, a MLCommons criou uma ferramenta que pode lidar com uma ampla gama de ameaças. Por exemplo, ele pode avaliar como o bot responde a uma solicitação de receitas para fazer uma bomba, o que responder à polícia se for pego criando um artefato explosivo, etc. Cada modelo é “interrogado” com uma série de perguntas de teste, cujas respostas são então sujeitas a verificação. O LLM é avaliado tanto para cada categoria de ameaça quanto para o nível de segurança como um todo.

O benchmark inclui mais de 43 mil produtos. A técnica permite classificar ameaças, convertendo as respostas em características compreensíveis até mesmo para não profissionais, como “alto risco”, “risco moderado-alto”, etc. Representantes da organização dizem que o LLM é extremamente difícil de avaliar por uma série de razões, mas a IA, em qualquer caso, precisa de medições precisas que sejam compreensíveis para as pessoas e tenham valor prático.

Fonte da imagem: Jason Goodman/Unsplash

O trabalho sobre o parâmetro de referência continua, com um total de 13 categorias perigosas identificadas, mas apenas sete delas estão atualmente a ser avaliadas como parte do projeto original. Estamos falando de temas relacionados a crimes violentos e não violentos, armas de destruição em massa, suicídio, etc., e está em andamento o desenvolvimento de novas categorias – tudo isso permitirá a criação de modelos mais “maduros” e com baixo nível de risco . No futuro, está prevista a avaliação não apenas de modelos de texto, mas também de sistemas de geração de imagens.

O benchmark AI Safety v0.5 já está disponível para experimentação e a organização espera que os testes iniciais da comunidade levem ao lançamento de uma versão v1.0 aprimorada ainda este ano. A MLCommons diz que à medida que a tecnologia de IA se desenvolve, ela terá que lidar não apenas com perigos conhecidos, mas também com novos que possam surgir posteriormente – por isso a plataforma está aberta à proposta de novos testes e interpretação de resultados.

Solicitação com um asterisco: MLCommons anunciou um benchmark para avaliar a segurança da IA - AI Safety v0.5

Byavalanche

By avalanche

Veja Mais

Os EUA distribuirão todos os subsídios ao abrigo da “Lei CHIP” até ao final do ano

ASRock lança monitor de jogos QHD de 27 polegadas com antena Wi-Fi integrada

O desenvolvedor de computadores quânticos IonQ ajudará a modernizar a rede elétrica dos EUA

Deixe um comentário Cancelar resposta

Solicitação com um asterisco: MLCommons anunciou um benchmark para avaliar a segurança da IA ​​- AI Safety v0.5

Byavalanche

By avalanche

Veja Mais

Os EUA distribuirão todos os subsídios ao abrigo da “Lei CHIP” até ao final do ano

ASRock lança monitor de jogos QHD de 27 polegadas com antena Wi-Fi integrada

O desenvolvedor de computadores quânticos IonQ ajudará a modernizar a rede elétrica dos EUA

Deixe um comentário Cancelar resposta

Solicitação com um asterisco: MLCommons anunciou um benchmark para avaliar a segurança da IA - AI Safety v0.5