Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Cientistas descobriram que todos os parâmetros de referência de IA são ineficazes.

Cientistas do Reino Unido e dos Estados Unidos descobriram falhas graves em centenas de testes usados para verificar a segurança e o desempenho de novos modelos de inteligência artificial lançados ao público.

Fonte da imagem: Steve Johnson / unsplash.com

Cientistas da computação do Instituto de Segurança de IA do governo do Reino Unido, com o apoio de colegas de Oxford, Stanford e da Universidade da Califórnia, Berkeley, examinaram mais de 440 testes projetados para avaliar a segurança de sistemas de IA. Eles encontraram falhas que “minam a validade das alegações resultantes”, já que “quase todos apresentam falhas em pelo menos uma área”, e os resultados obtidos são “irrelevantes ou até mesmo enganosos”.

Na ausência de um padrão unificado, esses testes são usados por desenvolvedores, incluindo grandes empresas de tecnologia, para avaliar sua adequação à inteligência de nível humano e garantir que cumpram suas capacidades declaradas em raciocínio, resolução de problemas matemáticos e programação.

Fonte da imagem: Aidin Geranrekab / unsplash.com

No último fim de semana, o jornal The Guardian noticiou que o Google foi forçado a retirar seu modelo de IA de código aberto, Gemma, após este acusar um senador americano de cometer um crime grave contra um policial. O Google afirmou que os modelos Gemma eram destinados a desenvolvedores e pesquisadores, não a consumidores, mas os removeu da plataforma AI Studio após o surgimento de “relatos de tentativas de explorá-los por não desenvolvedores”. “Alucinações, em que os modelos simplesmente inventam respostas, e bajulação, em que os modelos dizem aos usuários o que eles querem ouvir, são problemas para todo o campo da IA, especialmente para modelos pequenos como o Gemma. Continuamos comprometidos em minimizar as alucinações e estamos aprimorando continuamente todos os nossos modelos”, assegurou o Google.

Cientistas examinaram testes disponíveis publicamente para sistemas de IA, mas líderes do setor também possuem seus próprios benchmarks, que ainda não foram estudados pela comunidade de especialistas. Eles enfatizaram a necessidade de desenvolver um padrão unificado para determinar o desempenho e a segurança dos modelos de IA. Os cientistas consideraram “chocante” que apenas 16% dos testes utilizem métodos de estimativa de erro estatístico para determinar a probabilidade de resultados precisos. Em alguns casos, quando é necessário determinar uma característica específica de um modelo de IA, como sua “inofensividade”, essa característica não é claramente definida, o que reduz o valor de todo o teste.

admin

Próximo A Cooler Master apresentou o Qube 540, um gabinete perfurado com alças e pés expostos. »

Anterior « Um tribunal ordenou que a Samsung pague US$ 191 milhões por infringir patentes da tecnologia OLED.

Deixar comentário

Publicado por

admin

3 meses atrás

Postagens recentes

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

A escassez dita as prioridades: a Apple vai se concentrar nos iPhones mais caros este ano.

Em sua recente teleconferência de resultados, a administração da Apple se recusou a prever o…

5 horas atrás

Notícias e análises financeiras

Precisa de mais financiamento: OpenAI planeja IPO no quarto trimestre de 2026

Enquanto a OpenAI permanecer uma empresa privada, ela tem o direito de não divulgar suas…

7 horas atrás

Gráficos 3D

O Google disponibilizou amplamente o Genie, seu gerador de mundos de jogos baseado em inteligência artificial.

Em agosto, o Google apresentou o Genie 3, um "modelo de mundo de propósito geral…

8 horas atrás

Processadores

A Apple admitiu estar sofrendo com a escassez de chips — e não se trata apenas de memória.

No último trimestre, a receita do iPhone atingiu níveis recordes em todas as regiões onde…

9 horas atrás

Carros, motos, veículos

Os robotáxis da Tesla estão envolvidos em acidentes nove vezes mais frequentemente do que os carros comuns com motorista.

Como a Electrek já observou diversas vezes, a Tesla não divulga muitas informações sobre acidentes…

10 horas atrás

Sistemas operacionais

O CEO da Microsoft foi forçado a declarar que os clientes estavam usando ativamente o Copilot, mas a capitalização de mercado da empresa ainda caiu US$ 357 bilhões.

A Microsoft encerrou o último trimestre com receita 17% maior, atingindo US$ 81,3 bilhões, lucro…

11 horas atrás