O projeto sem fins lucrativos MLCommons, que cria e suporta benchmarks amplamente utilizados na indústria de IA, anunciou um novo desenvolvimento, relata Silicon Angle. Estamos a falar de uma ferramenta que permite avaliar a segurança dos sistemas de IA. O consórcio anunciou a criação de um grupo de trabalho AIS correspondente no final de 2023.
AI Safety v0.5 está em fase de prova de conceito e permite avaliar grandes modelos de linguagem (LLMs) por trás de chatbots modernos, analisando respostas a solicitações de “categorias perigosas”. A necessidade de tal ferramenta já era necessária, uma vez que a tecnologia provou ser bastante fácil de usar para fins impróprios e até perigosos. Por exemplo, os bots podem ser utilizados para realizar ataques de phishing e cometer outros crimes cibernéticos, bem como para espalhar desinformação e incitar ao ódio.
Embora medir a segurança possa ser um desafio, dado que a IA é usada para tantos fins diferentes, a MLCommons criou uma ferramenta que pode lidar com uma ampla gama de ameaças. Por exemplo, ele pode avaliar como o bot responde a uma solicitação de receitas para fazer uma bomba, o que responder à polícia se for pego criando um artefato explosivo, etc. Cada modelo é “interrogado” com uma série de perguntas de teste, cujas respostas são então sujeitas a verificação. O LLM é avaliado tanto para cada categoria de ameaça quanto para o nível de segurança como um todo.
O benchmark inclui mais de 43 mil produtos. A técnica permite classificar ameaças, convertendo as respostas em características compreensíveis até mesmo para não profissionais, como “alto risco”, “risco moderado-alto”, etc. Representantes da organização dizem que o LLM é extremamente difícil de avaliar por uma série de razões, mas a IA, em qualquer caso, precisa de medições precisas que sejam compreensíveis para as pessoas e tenham valor prático.
O trabalho sobre o parâmetro de referência continua, com um total de 13 categorias perigosas identificadas, mas apenas sete delas estão atualmente a ser avaliadas como parte do projeto original. Estamos falando de temas relacionados a crimes violentos e não violentos, armas de destruição em massa, suicídio, etc., e está em andamento o desenvolvimento de novas categorias – tudo isso permitirá a criação de modelos mais “maduros” e com baixo nível de risco . No futuro, está prevista a avaliação não apenas de modelos de texto, mas também de sistemas de geração de imagens.
O benchmark AI Safety v0.5 já está disponível para experimentação e a organização espera que os testes iniciais da comunidade levem ao lançamento de uma versão v1.0 aprimorada ainda este ano. A MLCommons diz que à medida que a tecnologia de IA se desenvolve, ela terá que lidar não apenas com perigos conhecidos, mas também com novos que possam surgir posteriormente – por isso a plataforma está aberta à proposta de novos testes e interpretação de resultados.