Categorias: Mercado de tecnologia e TI. notícia

Solicitação com um asterisco: MLCommons anunciou um benchmark para avaliar a segurança da IA - AI Safety v0.5

O projeto sem fins lucrativos MLCommons, que cria e suporta benchmarks amplamente utilizados na indústria de IA, anunciou um novo desenvolvimento, relata Silicon Angle. Estamos a falar de uma ferramenta que permite avaliar a segurança dos sistemas de IA. O consórcio anunciou a criação de um grupo de trabalho AIS correspondente no final de 2023.

AI Safety v0.5 está em fase de prova de conceito e permite avaliar grandes modelos de linguagem (LLMs) por trás de chatbots modernos, analisando respostas a solicitações de “categorias perigosas”. A necessidade de tal ferramenta já era necessária, uma vez que a tecnologia provou ser bastante fácil de usar para fins impróprios e até perigosos. Por exemplo, os bots podem ser utilizados para realizar ataques de phishing e cometer outros crimes cibernéticos, bem como para espalhar desinformação e incitar ao ódio.

Fonte da imagem: Nguyen Dang Hoang Nhu / Unsplash

Embora medir a segurança possa ser um desafio, dado que a IA é usada para tantos fins diferentes, a MLCommons criou uma ferramenta que pode lidar com uma ampla gama de ameaças. Por exemplo, ele pode avaliar como o bot responde a uma solicitação de receitas para fazer uma bomba, o que responder à polícia se for pego criando um artefato explosivo, etc. Cada modelo é “interrogado” com uma série de perguntas de teste, cujas respostas são então sujeitas a verificação. O LLM é avaliado tanto para cada categoria de ameaça quanto para o nível de segurança como um todo.

O benchmark inclui mais de 43 mil produtos. A técnica permite classificar ameaças, convertendo as respostas em características compreensíveis até mesmo para não profissionais, como “alto risco”, “risco moderado-alto”, etc. Representantes da organização dizem que o LLM é extremamente difícil de avaliar por uma série de razões, mas a IA, em qualquer caso, precisa de medições precisas que sejam compreensíveis para as pessoas e tenham valor prático.

Fonte da imagem: Jason Goodman/Unsplash

O trabalho sobre o parâmetro de referência continua, com um total de 13 categorias perigosas identificadas, mas apenas sete delas estão atualmente a ser avaliadas como parte do projeto original. Estamos falando de temas relacionados a crimes violentos e não violentos, armas de destruição em massa, suicídio, etc., e está em andamento o desenvolvimento de novas categorias – tudo isso permitirá a criação de modelos mais “maduros” e com baixo nível de risco . No futuro, está prevista a avaliação não apenas de modelos de texto, mas também de sistemas de geração de imagens.

O benchmark AI Safety v0.5 já está disponível para experimentação e a organização espera que os testes iniciais da comunidade levem ao lançamento de uma versão v1.0 aprimorada ainda este ano. A MLCommons diz que à medida que a tecnologia de IA se desenvolve, ela terá que lidar não apenas com perigos conhecidos, mas também com novos que possam surgir posteriormente – por isso a plataforma está aberta à proposta de novos testes e interpretação de resultados.

avalanche

Próximo Mobileye recebeu pedidos de 46 milhões de chips para sistemas de assistência ao motorista »

Anterior « Os EUA distribuirão todos os subsídios ao abrigo da “Lei CHIP” até ao final do ano

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Comentários sobre eventos recentes

A GameStop não desistiu da ideia de comprar o eBay, apesar da resistência deste último.

Em maio deste ano, a varejista americana GameStop tentou adquirir a plataforma de leilões online…

33 minutos atrás

Comentários sobre eventos recentes

Líder de Engenharia do Apple Vision Pro se junta à OpenAI

A colaboração da startup de IA OpenAI com ex-funcionários da Apple no desenvolvimento de dispositivos…

1 hora atrás

Computadores e laptops Apple

A Apple planejou um MacBook Pro atualizado com um chip M6 e um MacBook Ultra com tela sensível ao toque baseado nos processadores M5 Pro e Max para o outono.

Os planos da Apple para laptops começam a tomar forma, graças a informações obtidas pelo…

1 hora atrás

Comentários sobre eventos recentes

As ações da SpaceX serão adicionadas ao índice Nasdaq 100 em um cronograma acelerado, ampliando o acesso para os investidores.

A Russell, gestora de índices de ações, confirmou ontem que as ações da SpaceX serão…

2 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

A Anthropic recebeu autorização para restaurar o acesso ao Mythos 5 para alguns clientes.

Há algumas semanas, as autoridades americanas ordenaram que cidadãos estrangeiros bloqueassem o acesso aos modelos…

3 horas atrás

Espaço

A China dobrará o tamanho de sua estação orbital Tiangong nos próximos anos e lançará um telescópio da classe Hubble.

A China planeja expandir sua estação espacial Tiangong de três para seis módulos nos próximos…

8 horas atrás