O OpenAI reduziu o tempo e os recursos gastos em testes de modelos poderosos de IA para segurança. Isso levanta preocupações de que as tecnologias da empresa estão sendo lançadas extremamente rápido e não são acompanhadas por medidas de segurança suficientes contra ameaças.

Fonte da imagem: Levart_Photographer/unsplash.com

A OpenAI e as empresas parceiras agora têm apenas alguns dias para conduzir avaliações de risco e desempenho de modelos de IA, um processo que antes levava meses. Os mecanismos de revisão da OpenAI se tornaram menos completos, e menos recursos estão sendo dedicados à identificação e mitigação de ameaças, já que a avaliação de US$ 300 bilhões força a empresa a lançar novos modelos rapidamente para manter uma vantagem competitiva, informou o Financial Times, citando oito pessoas familiarizadas com o assunto. À medida que as capacidades dos grandes modelos de linguagem se expandem, também aumenta a probabilidade de serem usados ​​como uma arma; mas a demanda por eles também está crescendo, e a direção da empresa se esforça para lançar produtos no menor tempo possível.

Não há um padrão global para o processo de teste de segurança da IA, mas disposições da Lei de IA da União Europeia entrarão em vigor este ano, exigindo que os desenvolvedores conduzam testes de segurança em seus modelos mais potentes. Anteriormente, alguns desenvolvedores se comprometeram voluntariamente com as autoridades do Reino Unido e dos EUA a permitir que pesquisadores terceirizados conduzissem tais testes. A OpenAI pretende lançar o novo modelo o3 na próxima semana, dando menos de uma semana para testes; mas a data de lançamento pode mudar.

Fonte da imagem: Levart_Photographer/unsplash.com

A empresa nunca dedicou tão pouco tempo a esta questão. Em 2023, o GPT-4 foi lançado, com avaliações conduzidas por cerca de seis meses antes. Algumas das capacidades perigosas do modelo, disse um dos testadores, foram descobertas apenas dois meses após o início do processo. A OpenAI se comprometeu a criar versões especiais de sistemas de IA para avaliar seu potencial para usos não direcionados — por exemplo, para ver se um vírus biológico pode se tornar mais infeccioso. Essa tarefa requer recursos significativos: coletar informações especializadas, por exemplo, sobre virologia, e enviá-las ao modelo com treinamento adicional – ajuste fino.

Na realidade, a empresa só cumpre suas obrigações até certo ponto, ajustando modelos mais antigos e menos eficientes e ignorando os mais poderosos e avançados. Por exemplo, o relatório de segurança do modelo o3-mini lançado em janeiro fornece informações sobre o GPT-4o anterior; a empresa não relatou alguns testes do o1 e do o3-mini. A OpenAI se defendeu dizendo que melhorou a eficiência de seus processos de avaliação e introduziu testes automatizados, o que ajudou a reduzir o prazo. Não há uma receita acordada para abordagens como o ajuste fino, a empresa lembrou, mas expressou confiança de que seus métodos são os melhores possíveis, e eles foram observados nos relatórios com a máxima transparência.

Outro problema é que os testes de segurança geralmente não são conduzidos nos modelos finais que são lançados ao público, mas em “pontos de verificação” — versões anteriores que são posteriormente atualizadas para obter melhor desempenho e novos recursos, e os relatórios da OpenAI se referem às versões “quase finais”. A empresa observou que os “pontos de verificação” são “praticamente idênticos” às versões que estão sendo lançadas ao público.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *