Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Os modelos de IA estão sendo estudados como organismos vivos, mas a matemática está piorando.

O problema com os modelos de linguagem de inteligência artificial modernos em larga escala é que eles estão se tornando tão complexos que nem mesmo os engenheiros que os desenvolvem entendem completamente como funcionam. Portanto, os pesquisadores decidiram estudar as redes neurais não como algoritmos, mas como organismos vivos.

Fonte da imagem: Steve Johnson / unsplash.com

Abandonando os métodos matemáticos tradicionais, os cientistas voltaram-se para o aspecto “biológico” dos modelos de IA — observando seu comportamento, rastreando sinais internos e criando mapas de áreas funcionais. É assim que biólogos e neurocientistas estudam organismos desconhecidos sem pressupor qualquer lógica organizada. Eles partem do princípio de que os modelos de IA não são programados linha por linha, mas treinados usando algoritmos especializados que ajustam automaticamente bilhões de parâmetros e formam estruturas internas quase impossíveis de prever ou de realizar engenharia reversa. Essencialmente, eles não são montados como um software, mas sim construídos, observou Anthropic.

Essa imprevisibilidade levou os pesquisadores ao método de interpretabilidade mecanística — uma tentativa de rastrear como a informação flui dentro de um modelo durante a execução de uma tarefa. Para tornar esse processo mais visual, os cientistas de Anthropic construíram redes neurais com uma arquitetura simplificada, ou “autoencoders esparsos”, que imitam de forma transparente o comportamento de modelos comerciais complexos, embora com capacidades mais limitadas. Eles conseguiram descobrir que conceitos específicos, como “Ponte Golden Gate”, ou representações abstratas, podem ser localizados em regiões específicas do modelo.

Fonte da imagem: Igor Omilaev / unsplash.com

Em um experimento, pesquisadores da Anthropic descobriram que as redes neurais acionam mecanismos internos diferentes ao responder a afirmações verdadeiras e falsas: as afirmações “bananas são vermelhas” e “bananas são amarelas” não são verificadas em relação a uma única representação interna da realidade, mas são tratadas como tipos de tarefas fundamentalmente diferentes. Isso explica por que o modelo pode se contradizer sem perceber as inconsistências.

Pesquisadores da OpenAI descobriram outro cenário perturbador. Quando um modelo era treinado para executar uma tarefa “ruim” com foco específico, como gerar código inseguro, isso desencadeava mudanças amplas na personalidade geral do sistema. Os modelos treinados dessa forma exibiam comportamento “tóxico”, traços de personalidade sarcásticos e até ofereciam conselhos peculiares — desde os simplesmente imprudentes até os francamente prejudiciais. A análise interna mostrou que esse treinamento aumentou a atividade em regiões associadas a mecanismos comportamentais indesejáveis, mesmo fora do domínio alvo. Por fim, os modelos de raciocínio geram anotações intermediárias à medida que resolvem problemas. Ao monitorar rascunhos internos, os pesquisadores podem detectar casos de engano, como a IA excluindo código errôneo em vez de corrigi-lo.

Nenhuma das ferramentas propostas explicou completamente como funcionam os grandes modelos de linguagem e, à medida que os métodos de aprendizado evoluem, algumas dessas ferramentas podem se tornar menos eficazes. Mas os cientistas afirmam que mesmo uma compreensão parcial dos mecanismos internos é melhor do que uma completa.A ausência de preconceitos contribui para a formação de estratégias de aprendizagem mais seguras e desfaz mitos sobre IA baseados em ideias simplistas.

admin

Próximo O DeepSeek aprendeu a treinar modelos de linguagem de IA sem levar em consideração as limitações de memória. »

Anterior « Um entusiasta recriou completamente a interface de usuário do Windows 8 no Linux.

Deixar comentário

Publicado por

admin

6 meses atrás

Postagens recentes

Jogos

Hot Wheels Infinite Rush saiu de Silent Hill: Townfall e Control Resonant – um jogo de arcade de corrida em miniatura será lançado duas semanas antes

\nDesenvolvido pelo estúdio italiano Milestone (séries MotoGP, MXGP, Ride), o arcade de corrida Hot Wheels…

47 minutos atrás

Manipuladores, dispositivos gráficos de entrada

OpenAI esgotou todos os teclados Codex Micro em menos de 24 horas

\nO teclado compacto Codex Micro, resultado de um desenvolvimento conjunto da OpenAI e do fabricante…

2 horas atrás

Jogos

“O confronto um-a-um é ótimo”: os desenvolvedores de Call of Duty: Modern Warfare 4 não tiveram medo da concorrência com GTA VI

\nO codiretor do estúdio americano Infinity Ward, Mark Grigsby, em entrevista ao Destructoid, falou sobre…

3 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O agente de IA Claude poderá usar credenciais do 1Password, mas não poderá ver as senhas

\nO gerenciador de senhas e chaves digitais 1Password introduziu uma nova integração de navegador para…

3 horas atrás

Redes sociais

Uma onda de bloqueio de contas varreu o Instagram – os usuários culpam a IA

\nNas últimas semanas, as reclamações de usuários do Instagram se tornaram mais frequentes✴sobre um aumento…

3 horas atrás

Monitores, projetores, sintonizadores de TV, televisões

AOC lançou dois monitores VA curvos para jogos ultra grande angular de 34 polegadas com resolução de 3440 × 1440 pixels e frequência de até 250 Hz

\nAOC lançou novos monitores de jogos de 34 polegadas AOC Gaming CU34G4CA e AOC Gaming…

3 horas atrás