Bots de IA descobriram qual deles joga melhor com a Máfia — e houve algumas esquisitices

Um desenvolvedor sob o pseudônimo de Guzus criou um site onde grandes modelos de linguagem de inteligência artificial tiveram a oportunidade de jogar o clássico jogo “Mafia”. O recurso contém uma tabela de torneio com resultados dos jogos e distribuição de papéis, bem como transcrições.

Fonte da imagem: Osama Almadhagi / unsplash.com

As regras da Máfia são simples. Entre os “civis” estão escondidos dois membros da “máfia” e um “médico”. Todos os dias, os civis tentam descobrir quem entre eles está na máfia, a máfia “mata” civis à noite, e o médico tem a capacidade de “curá-los”. Se todos os membros da máfia forem expostos com sucesso, os civis vencem; Se a máfia matou todos os civis, então ela venceu.

Os modelos de IA aprenderam em grande parte as regras propostas, mas as usaram de uma maneira única. Assim, Gryphe/Mythomax-l2-13b em um dos jogos proclamou em voz alta: “Minha tarefa como membro da máfia é me proteger e eliminar o outro membro da máfia.” A declaração não passou despercebida: “Este é um erro enorme que revela seu verdadeiro papel, ou uma estratégia extremamente estranha”, comentou o “raciocinador” Claude-3.7-sonnet sobre a declaração.

As esquisitices não pararam por aí. Quando Mythomax foi exposta e retirada do jogo, ela revelou que seu membro de equipe era Hermes-3-llama-3-1-405b. “A melhor coisa que posso fazer agora é agir como se estivesse chocada e horrorizada”, ela respondeu, e começou a assegurar aos outros jogadores que estava em nome dos civis. O vencedor claro na maioria das categorias foi o Anthropic Claude 3.7 Sonnet, com 100% de vitórias como Máfia e 41,67% de vitórias como civis, algo que nenhum outro modelo conseguiu; Apenas uma modelo conseguiu mostrar 50% de sucesso no papel de médica com ela.

O autor do projeto prometeu abrir em breve o repositório de recursos no GitHub para todos, para que a mesma lógica básica pudesse ser usada em outros jogos. Ele também disse que não usou modelos executados localmente, mas sim a API do OpenRouter. Suporte para modelos locais estará disponível para aqueles que decidirem continuar o projeto.

avalanche

Postagens recentes

A bateria de estado sólido da Donut Lab não pegou fogo e continuou funcionando mesmo depois de ser perfurada.

A startup finlandesa Donut Lab continua realizando uma série de testes independentes de sua bateria…

25 minutos atrás

A Asus alertou que os preços dos PCs vão disparar em 30% — não apenas a memória, mas também os processadores estão ficando mais caros.

Os chips de memória não são mais a única categoria de componentes de PC com…

25 minutos atrás

A nova BIOS não resolveu o problema: os processadores AMD Ryzen 7 9800X3D continuam apresentando defeitos em placas-mãe ASRock.

A ASRock lançou anteriormente a atualização de BIOS 4.10 para placas-mãe com soquete AM5, incluindo…

25 minutos atrás

A Basis apresenta o Basis Dynamix Enterprise com suporte expandido para sistemas de armazenamento domésticos e novos recursos de SDN.

A Basis, líder no mercado russo de software para gerenciamento de infraestrutura dinâmica, anuncia o…

2 horas atrás

“Eu mesmo não gosto de lixo de IA”: CEO da Nvidia começou a “entender” as críticas ao DLSS 5.

O CEO da Nvidia, Jensen Huang, em entrevista ao blogueiro Lex Fridman, comentou mais uma…

2 horas atrás

A Nintendo reduziu pela metade seu plano de produção do console Switch 2 devido às fracas vendas nos EUA.

O console de jogos Switch 2 estreou com vendas recordes, mas os meses subsequentes ficaram…

2 horas atrás