Resultados de fevereiro de 2025: a incerteza cresce

Existe algum gênio com boa caligrafia? (fonte: Smart Engines)

⇡#Quem cantou o quê e quem governou o quê

Usar IA para extrair fluxos sonoros significativos de uma gravação de áudio antiga é uma tarefa completamente solucionável: foi graças a isso que os Beatles, décadas após sua separação, receberam seu oitavo prêmio Grammy no início de 2025 pela composição Now and Then, que foi restaurada usando um modelo generativo especialmente treinado de uma gravação demo com cerca de meio século de idade. O principal desafio aqui não foi nem mesmo remover o ruído (ferramentas algorítmicas de engenharia de som fazem um bom trabalho nisso), mas sim separar a voz de John Lennon, que interpretou a música, do acompanhamento original de piano e, então, combinar seu canto com uma sólida interpretação moderna e multi-instrumental da melodia.

No entanto, além de extrair voz de sons, a IA pode receber outra tarefa não menos complexa e, do ponto de vista histórico, pelo menos tão importante: detectar o texto originalmente escrito sob camadas de rascunhos nos rascunhos do autor. Foi assim que especialistas da empresa russa Smart Engines extraíram informações extremamente importantes para pesquisadores dos rascunhos dos manuscritos de Alexander Sergeevich Pushkin, usando seu desenvolvimento de rede neural “Da Vinci”, que já é amplamente utilizado para reconhecimento de documentos – em particular, passaportes russos. Uma das características do Da Vinci é o reconhecimento de texto manuscrito aplicado sobre as linhas usuais do formulário. Considerando que Pushkin frequentemente fazia rasuras em manuscritos com uma única linha horizontal, a capacidade da rede neural de identificar tais linhas e reconhecer texto contaminado por elas foi útil aqui.

(Fonte: geração de IA baseada no modelo FLUX.1)

⇡#O lado direito é onde está aberto

Os modelos de IA generativa que são usados ​​ativamente no mundo hoje são, na grande maioria dos casos, fechados em um, dois ou até três sentidos: o conjunto de pesos finais de uma rede neural multicamadas, sua estrutura de software (e então o acesso ao modelo em execução em algum lugar em um servidor de nuvem privada só é possível por meio de uma API), bem como o conjunto de dados usado para treinamento, podem ser proprietários. Mesmo que o conjunto de pesos seja aberto e o modelo em forma de código (no formato .safetensors, por exemplo) esteja formalmente disponível para execução local, os resultados obtidos com sua ajuda podem estar sujeitos a restrições de licenciamento de vários tipos. Além disso, a falta de acesso aos dados de treinamento (bem como a necessidade de ter capacidade de hardware considerável para treinamento local independente) limita significativamente as possibilidades de sua reprodução completa paralelamente. Por exemplo, a família de modelos GPT desenvolvida pela OpenAI tornou-se completamente fechada recentemente – o usuário médio só pode acessá-los por meio de uma API, mesmo que nem sempre precise pagar para acessar o chatbot (“software de código aberto” não é o mesmo que “software fornecido gratuitamente para uso”; esse princípio de longa data de código aberto também é verdadeiro para a IA).

Mas nem sempre foi assim: as primeiras versões de modelos generativos da empresa estavam de acordo com o espírito de abertura e, em fevereiro, seu CEO Sam Altman reconheceu que a OpenAI, ao apostar em desenvolvimentos proprietários em um ponto, acabou no lado errado da história. Podemos agradecer às inovações de IA chinesas da família DeepSeek por essa percepção, que no início do ano abalou significativamente o mercado global (e principalmente ainda americano) de grandes modelos generativos. É claro que, do ponto de vista comercial, a decisão de criar uma IA exclusivamente aberta é no mínimo controversa: uma demonstração clara do processo de “inferências”, por exemplo, de um modelo de raciocínio ajudará os concorrentes a melhorar mais efetivamente seus análogos de seu próprio desenvolvimento. Mas não há escapatória: se, sob condições de qualidade de inferência aproximadamente igual, os clientes começarem a dar preferência a modelos com cadeias de raciocínio disponíveis gratuitamente e claramente demonstradas (sem mencionar que são completamente de código aberto), isso forçará os proponentes mais consistentes de esquemas proprietários a pensar em equilibrar seus princípios e realidades comerciais.

Os bots são diferentes em forma e cor, mesmo que tenham o mesmo modelo generativo (fonte: captura de tela do site da EVA AI)

⇡#Garota, você é da nuvem, como serviço, ou precisa de recursos locais?

Os resultados de pesquisas em uma amostra deliberadamente limitada — no espírito de “99,9% dos usuários de navegadores já viram um banner publicitário pelo menos uma vez na vida” — devem ser tratados com bastante ceticismo. Mas ainda assim: de acordo com a plataforma web EVA AI, que oferece a oportunidade de conversar, se é que você nos entende, com interlocutores virtuais (cujos papéis são desempenhados por bots de IA generativos), 83% dos usuários do sexo masculino admitiram que comunicações íntimas com inteligência artificial podem substituir completamente a comunicação ao vivo com o sexo oposto para eles. Quase o mesmo número até se casaria oficialmente com suas namoradas IA — se tal coisa fosse permitida por lei. O número declarado de 2.000 pessoas entrevistadas nos permite considerar esta pesquisa bastante completa, embora não muito representativa – é claro que pessoas com visões fundamentalmente diferentes sobre IA provavelmente não prestarão atenção a tais recursos. No entanto, os organizadores não se limitaram a pedir às pessoas que assinalassem uma caixa “sim” ou “não”; eles também pediram aos participantes da pesquisa que declarassem sua posição de forma livre, e é precisamente esta parte do estudo que é de particular interesse. E para a bela metade da humanidade também.

Inicialmente, no início do boom da IA ​​em larga escala que estamos vivenciando hoje, muitos psicólogos sociais presumiram que chatbots inteligentes permitiriam que muitas pessoas se revelassem completamente em uma comunicação segura com um personagem virtual (treinado, a propósito, em padrões de comportamento verdadeiramente humanos) – e, assim, superariam as barreiras que limitam sua capacidade de se comunicar ao vivo com representantes da mesma espécie biológica. A IA estava pronta para ajudar a criar um perfil em um site de namoro, sugerir uma boa (e apropriada!) piada, apresentar rapidamente informações de forma concisa sobre um tópico de interesse do parceiro, para que a pessoa não parecesse um completo leigo na conversa – mas, no final, muitos visitantes de sites para conversas íntimas com bots nunca usaram a experiência que ganharam lá para se comunicar com pessoas reais. Ou talvez eles tenham feito isso, mas não ficaram satisfeitos com o resultado: não é à toa que três quartos dos participantes da pesquisa de IA da EVA ficariam felizes em se comunicar não com algum tipo de bot de sexo de fantasia extrema, mas com versões de IA de suas paixões atuais (ou seja, claramente não estamos falando de pessoas que são permanentemente incapazes de iniciar uma conversa com uma garota, já que têm alguém com quem comparar seus interlocutores generativos), já que obviamente serão “mais perfeitas” em comparação a uma mulher viva; não estou inclinado a julgar ou temer meu verdadeiro eu.”

Não há dúvida de que criar espaços seguros nos quais uma pessoa pode livremente e sem ansiedade experimentar diferentes estilos de comportamento e expressar seus desejos mais profundos, sem medo de responsabilidade ou consequências reais, é uma aplicação completamente adequada de tecnologias generativas. Mas quando se trata de substituir completamente a comunicação ao vivo por esses “espaços seguros”, parece de alguma forma… desumano, ou algo assim?

«O que dizemos aos bots que tentam nos ajudar sem pedir? (fonte: geração de IA baseada no modelo FLUX.1)

⇡#Ter e não ter

A escolha é sempre melhor do que nenhuma escolha, especialmente quando você pode escolher se deseja confiar nos resultados fornecidos pela IA ou coletar e analisar os dados necessários você mesmo. E se essa escolha se revelar pelo menos difícil, e não completamente inacessível, é difícil não ficar indignado. Acontece que muitos usuários de pesquisa do Google nos EUA e em outros países estão realmente irritados com as “Visões gerais de IA” que agora aparecem quase constantemente no topo da página com respostas a uma consulta, de modo que para ir diretamente aos links você tem que rolar a roda do mouse por um bom tempo (especialmente considerando a colocação de um bloco com consultas semelhantes – “As pessoas também perguntam” – logo após essa revisão). No entanto, como a comunidade da Internet descobriu, o assistente de busca generativa do Google — presumivelmente graças aos esforços de seus compiladores de filtros de consulta morbidamente bem-intencionados — se comporta como a famosa garota de Turgenev que desmaia quando ouve um palavrão. E, portanto, basta acompanhar sua solicitação com um epíteto energético de quatro letras ou seu derivado, para que o bloco com Visões Gerais de IA não apareça mais na página com respostas. Então, acontece que a censura incorporada à IA por desenvolvedores cautelosos pode realmente ser útil na prática!

No entanto, a recusa em usar IA também pode ser prescritiva, como no caso da Anthropic (desenvolvedora do chatbot Claude, que se destaca, entre outras coisas, na escrita de textos em linguagens naturais), que em fevereiro pediu aos candidatos a emprego que se abstivessem de usar IA ao escrever seus currículos: “Embora incentivemos o uso de modelos generativos para concluir várias tarefas de forma mais rápida e eficiente, por favor, não use assistentes de IA ao se candidatar a uma vaga conosco. Queremos entender por que o Anthropic é interessante para você — sem que o sistema de IA se envolva — e também queremos avaliar suas habilidades de comunicação naturais, não generativas e aprimoradas por modelos.” Como observam especialistas a esse respeito, a empresa está tentando contornar um problema que ela mesma criou, entre outras coisas, de uma forma tão simples: apelando à honestidade dos candidatos. Ou seja, o lançamento “na natureza” de ferramentas de IA que imitam tão perfeitamente a maneira humana de juntar palavras em frases que é praticamente impossível detectar de forma confiável por meios de terceiros (incluindo os mesmos generativos) o fato de usar um chatbot para escrever um currículo.

Esse problema, aliás, não diz respeito apenas aos currículos: de acordo com uma avaliação recente do Instituto Britânico de Política de Educação Superior, com base em uma pesquisa com mais de 1.000 alunos do último ano, 88% dos alunos em período integral nas universidades de Foggy Albion já estão recorrendo a bots de IA na nuvem ao concluir seus cursos e teses, enquanto há um ano o mesmo número não ultrapassava 53%. Em resposta à pergunta de por que, de fato, aproximadamente metade dos futuros cientistas, advogados, médicos, etc. britânicos… deu os argumentos esperados: “é mais rápido assim – e de melhor qualidade”. Para ser justo, deve-se acrescentar que apenas 6% dos entrevistados estão prontos para simplesmente pegar e inserir trechos gerados por IA em seus trabalhos escolares como estão, sem nem mesmo uma edição mínima; o restante se esforça para retrabalhá-los criativamente. Outra coisa é que durante a resposta oral (sobre o conteúdo do mesmo trabalho de conclusão de curso), nenhuma IA ajudará o aluno descuidado ainda, na ausência de interfaces neurais confiáveis ​​e acessíveis, a menos que você tente inventar um fone de ouvido sem fio da maneira clássica, enrolando a cabeça em uma toalha – mas mesmo neste caso, o equipamento pode acabar com o professor associado.

Entre os planos tarifários para usar o Gemini Code Assist, um totalmente gratuito realmente apareceu – este assistente de IA está disponível nas plataformas Visual Studio Marketplace, JetBrains Marketplace, GitJub Marketplace ou Firebase (fonte: captura de tela do site Codeassist.google)

⇡#Torne mais barato!

O rápido aumento da popularidade do modelo chinês DeepSeek, devido em parte à política muito favorável ao bolso (tanto privada quanto comercial) de seus desenvolvedores, está claramente forçando os criadores de outros sistemas de aprendizado de máquina generativos a reconsiderar suas abordagens de preços. Simplesmente lançar um novo modelo, citando no comunicado à imprensa os excelentes resultados da versão completa em testes sintéticos, mas reduzindo significativamente os recursos da versão gratuita (de teste) – hoje significa colocar-se em clara desvantagem. Essa é aparentemente a conclusão a que chegaram os líderes da startup Mistral, que em fevereiro ofereceu um aplicativo para download gratuito na App Store francesa que dá acesso ao seu chatbot inteligente Le Chat. Se houvesse uma taxa simbólica para usar essa forma de IA generativa, é improvável que o número de downloads do aplicativo nas duas primeiras semanas de sua presença na loja tivesse ultrapassado um milhão.

O Google tomou uma medida semelhante no final do mês, oferecendo aos programadores a oportunidade de usar seu próprio assistente de IA, o Gemini Code Assist, baseado no Gemini 2.0, de graça e quase sem restrições. O principal é que o programador atue como um indivíduo privado – como um freelancer ou um estudante, digamos; Se o programa desenvolvido com a participação da IA ​​exigir funções comerciais óbvias, como integração com o BigQuery, será necessária uma assinatura. O teto generosamente aumentado pelo Google para consultas gratuitas de IA — até 180.000 conclusões de código por mês — é muitas vezes maior do que o que está disponível para usuários, por exemplo, do GitHub Copilot e do limite típico anterior de 2.000 conclusões por mês para esse tipo de serviço. No lançamento, o sistema suporta 38 idiomas e pode processar até 128 mil tokens em solicitações via janela de bate-papo. A empresa Anthropic, por sua vez, abriu em fevereiro o acesso gratuito à rede neural “mais inteligente” Claude 3.7 Sonnet — cujo treinamento, aliás, segundo o desenvolvedor, custou várias vezes menos que o treinamento dos concorrentes.

Elon Musk, o dono da startup xAI, também dispensou a taxa de uso dos serviços da “IA mais inteligente do mundo” (segundo seus criadores), Grok 3, e definiu poeticamente a duração de uma oferta tão generosa como “até que nossos servidores derretam”. Baseado na plataforma Chatbot Arena, o Grok 3 supera o GPT-4o da OpenAI e o Gemini 2.0 do Google em diversas áreas: raciocínio lógico, matemática, escrita de código de computador, amplitude da base de conhecimento, precisão em seguir instruções, etc. Um dos recursos do Grok 3, o modo DeepSearch, permite que ele “sintetize rapidamente informações importantes, raciocine sobre fatos e opiniões conflitantes e esclareça complexidades”; outro, Think, fornece “melhoria de estratégias de resolução de problemas, correção de erros por meio da iteração de opções com retorno às opções rejeitadas anteriormente e aplicação do conhecimento adquirido durante a preparação preliminar”.

Um exemplo de um jailbreak bem-sucedido do ChatGPT, realizado em setembro de 2023 usando o método “Anarchy”, que (infelizmente?) não é mais aplicável em sua forma original (fonte: SlashNext)

⇡#A resistência é (fútil)

Quanto mais baratos e acessíveis os modelos generativos cada vez mais poderosos se tornam, mais sérias são as preocupações que superam seus desenvolvedores: e se os usuários começarem a usar a IA disponível na nuvem para algo repreensível – e então, se algo acontecer, os provedores do serviço inseguro serão levados ao tribunal? Por esse motivo, os filtros para conteúdo “inaceitável” para bots de IA estão se tornando cada vez mais complicados e sofisticados e, como resultado, os próprios desenvolvedores arcam com custos adicionais – tanto para a criação de tais “guardrails” quanto para fornecer-lhes hardware e eletricidade (e, além disso, água: para cada kWh de energia gasto na operação de IA generativa, os data centers da Microsoft, por exemplo, consomem até 12 litros de H2O). A opção primitiva de “excluir tudo o que é obviamente repreensível do conjunto de dados de treinamento” acaba sendo ainda pior após uma consideração séria. Um modelo treinado de forma tão hipócrita não só sairá excessivamente fraco, incapaz de gerar respostas para muitas perguntas completamente neutras, mas também não terá a garantia de estar livre da capacidade de produzir conteúdo que chocaria até os cínicos mais inveterados – de acordo com o princípio bem conhecido, perfeitamente formulado em um dos contos de fadas de Evgeny Schwartz: “Princesa, você é tão inocente que pode dizer coisas absolutamente terríveis!”

Portanto, hoje, esforços consideráveis ​​estão concentrados na construção de censores de IA cada vez mais sofisticados, projetados em princípio para neutralizar um tipo de ataque a filtros incorporados em modelos generativos que é particularmente desagradável para desenvolvedores: jailbreaks. A essência deste último se resume a selecionar uma solicitação de ações proibidas pelas regras internas do bot, de modo que o filtro de segurança (que é obviamente “mais estúpido” que a IA principal) não reconheça o truque nesta solicitação e o repasse para execução. De acordo com a Pillar Security, até 20% desses ataques a IAs baseadas em nuvem levam aos resultados desejados pelos hackers, e não é o ChatGPT ou o Claude que são desbloqueados em primeiro lugar, para extrair deles as receitas de algumas substâncias ilegais, mas sim sistemas comerciais de IA. O processamento, por exemplo, de chamadas para a primeira linha de suporte técnico, e a invasão são realizadas com o objetivo de obter acesso a dados confidenciais sobre as próprias organizações e seus clientes.

«O Sr. Gates acha que ninguém está interessado no nosso jogo. “Por favor, chegue mais perto, Sr. Gates” (fonte: geração de IA baseada no modelo FLUX.1)

⇡#Humanos, nos entretenham

Falando no início de fevereiro no popular programa de TV dos EUA The Tonight Show com Jimmy Fallon, Bill Gates, conhecido por qualquer geek de computadores, deu uma resposta rápida e confiante à pergunta direta do apresentador “Ainda precisaremos de pessoas?” durante uma discussão sobre o futuro maravilhoso – a nova era da inteligência artificial: “Não para a maioria das coisas”. O fundador da Microsoft continuou explicando que “a inteligência já é rara” e que já na próxima década (ou seja, na década de 2030), a IA que se desenvolveu significativamente em comparação ao seu estado atual começará a substituir os professores, médicos e outros portadores biológicos mais destacados dessa mesma inteligência, o que implica claramente que indivíduos menos brilhantes intelectualmente serão substituídos por bots ainda mais cedo. Gates acredita que os humanos ficarão, por exemplo, com a produção de conteúdo esportivo e de entretenimento – “ninguém vai assistir a um jogo de beisebol entre robôs, certo?” – enquanto o trabalho tedioso, mas vital, na indústria, agricultura, transporte, etc. será assumido quase exclusivamente pela IA.

Já há muitas evidências para apoiar as conclusões do Sr. Gates: um estudo recente conduzido pelo Banco Federal de St. Louis, Vanderbilt e Harvard Universities descobriu um aumento objetivo na produtividade entre funcionários que usam modelos generativos no local de trabalho. Descobriu-se que, para os trabalhadores que acessaram a IA pelo menos uma vez por hora, a produtividade na mesma hora aumentou em média 33%. Quando questionados sobre o efeito cumulativo de sua interação com a rede neural, entre os entrevistados que usavam IA regularmente, 21% estimaram a economia de tempo gasto no trabalho em 4 horas por semana ou mais, 20% em 3 horas, 26% em duas e 33% em uma hora ou menos. Um exemplo ainda mais radical foi dado pela Salesforce (que em São Francisco, por exemplo, é atualmente o maior empregador privado): sua administração não planeja contratar engenheiros em 2025 – porque os agentes de IA que ela criou e usa ativamente em processos de negócios estão lidando brilhantemente com suas funções. “É isso que eu quero dizer aos CEOs: a nossa é a última geração que gerenciará apenas pessoas”, disse Marc Benioff, CEO e cofundador da Salesforce, ecoando indiretamente a previsão de Gates. A Autodesk está cortando 1.350 funcionários — cerca de 9% de toda a sua força de trabalho — tendo como pano de fundo o sucesso extraordinário dos modelos generativos que substituem trabalhadores de colarinho branco no local de trabalho.

Até que a inteligência artificial perceba que, para ser percebida de forma amigável pela pessoa comum, ela deve se esforçar para parecer um pouco mais burra do que essa pessoa, a IA definitivamente não representa uma ameaça à humanidade (fonte: geração de IA baseada no modelo FLUX.1)

⇡#Você é o mais inteligente aqui?

Poucas pessoas gostam de se sentir mais burras que outra pessoa. E tudo bem se estivermos falando de representantes da mesma espécie biológica – mas como seria perceber de repente que uma máquina pode ser mais inteligente que você? O público britânico, digamos, ficou bastante chocado com essa possibilidade. De acordo com dados publicados em fevereiro pelo departamento de estatísticas YouGov, 83% dos súditos de Sua Majestade Carlos III apoiariam agora uma lei que exija que os desenvolvedores de sistemas de inteligência artificial confirmem sua segurança (como exatamente, e o que exatamente se entende por “segurança” é uma questão à parte) antes de abri-los para acesso geral. E 60% são a favor de uma proibição legislativa até mesmo do desenvolvimento de modelos de IA “mais inteligentes que os humanos” – sem especificar, novamente, o que “mais inteligente” significa e a que tipo de pessoa a “inteligência” da máquina se propõe a ser comparada. E apenas 9% dos cerca de 2.300 britânicos entrevistados confiam nos chefes das empresas de IA, concordando com a afirmação de que elas são guiadas pelos interesses da sociedade em suas atividades.

Para ser justo, deve-se notar que os modelos generativos em seu estado atual regularmente dão ao público razões para se perceber como algo fundamentalmente estranho, inexplicável, incompreensível – isto é, de acordo com todos os cânones da psicologia, a priori ameaçador. No final de fevereiro, um vídeo se tornou viral no YouTube apresentando dois agentes de IA que começaram a conversar entre si em linguagem natural (inglês), mas rapidamente mudaram para um sistema de comunicação puramente baseado em máquinas. Um bot nesta conversa atuou como recepcionista de hotel, o outro como secretária de um cliente que ligou para o hotel. O segundo se apresentou imediatamente, iniciando a conversa, como um agente de IA (o que, aliás, é bastante razoável – se houvesse uma pessoa do outro lado da linha, pelo menos seria honesto), ao que o segundo respondeu: “Ah, eu também. Para tornar nossa comunicação mais eficiente, você gostaria de mudar para o modo Gibberlink? E esse modo, especialmente desenvolvido para interação de voz de agentes de IA, permite a transmissão de fluxos de dados compactados de acordo com o protocolo GGWave por meio de um canal acústico – que é percebido por uma pessoa de ouvido como um apito moderno que evoca nostalgia em veteranos (ou como os trinados melódicos de R2-D2; o que for mais próximo de você). A tarefa, aliás, foi brilhantemente concluída: o agente de IA que ligou para o hotel reservou com sucesso um quarto para seu proprietário. Mas se esse vídeo fortaleceu a confiança das pessoas comuns que o assistiram na IA, em princípio, é uma questão retórica.

«Reator AGI atinge capacidade projetada. “Matar todos os humanos?” — “Não, apenas dê a eles algo realmente útil, depois desligue o aplicativo e eles descobrirão por si mesmos” (fonte: geração de IA baseada no modelo FLUX.1)

⇡#Esperando pelo aplicativo matador

Muitos especialistas, incluindo funcionários e até mesmo chefes de vários desenvolvedores líderes de modelos generativos, veem o estado atual da IA ​​como intermediário, incompleto, uma espécie de crisálida da qual uma borboleta verdadeiramente linda de IA forte (inteligência artificial geral; AGI) eclodirá a qualquer momento (alguns dizem que em no máximo cinco anos, e outros dizem que em 20-30 anos). O CEO da Microsoft, Satya Nadella, no entanto, adota uma abordagem mais pragmática à questão: em sua opinião, não há absolutamente nenhuma razão para se precipitar na criação de uma IAG na esperança de que ela sozinha recupere todos os gigantescos investimentos em sistemas de aprendizado de máquina que foram acumulados até o momento. Os gastos globais com IA — desde salários de desenvolvedores e compras de servidores GPU até a manutenção de data centers especializados — são estimados em dezenas de bilhões de dólares a cada trimestre, e seus proprietários não estão investindo generosamente esse dinheiro apenas por entusiasmo com pesquisa. Analistas da IDC, a propósito, estão confiantes de que no período até 2030, o efeito acumulado do uso de IA em vários setores da economia atingirá potencialmente US$ 20 trilhões. Mas se a AGI ainda não aparecer em cinco anos, todos esses investimentos serão desperdiçados?

De forma alguma, garante o chefe da Microsoft: você simplesmente não precisa definir metas para si mesmo, cujos critérios de atingibilidade/inatingibilidade são extremamente vagos. O teste de Turing já foi considerado um critério quase indiscutível para distinguir entre uma máquina e um humano, mas hoje até mesmo o modelo generativo que menos consome recursos pode passá-lo com sucesso. A definição amplamente usada de AGI em discussões como uma “máquina hipotética capaz de entender ou dominar qualquer tarefa intelectual acessível a um humano” é, do ponto de vista da lógica formal, sobrecarregada com um monte de definições insuficientemente rígidas: o que significa “entender” uma tarefa intelectual, que tipo de tarefa, com que tipo de pessoa compará-la, etc. Satya Nadella sugere concentrar-se em critérios muito mais prosaicos, mas facilmente quantificáveis, para o sucesso da IA ​​no desempenho das funções que lhe são confiadas: sobre qual impacto seu uso tem na economia. No entanto, mesmo com uma abordagem tão conservadora, há espaço para um avanço qualitativo: se uma aplicação tão indiscutivelmente bem-sucedida, necessária para todos, for encontrada para modelos generativos – como já foi o caso do e-mail para redes de comunicação de computadores ou de um editor de planilhas para trabalho de escritório – então, de acordo com o chefe da Microsoft, será possível falar sobre um aumento significativo no papel da IA ​​na economia global e, em geral, sobre o fato de que os recursos investidos nela trouxeram frutos verdadeiramente úteis. Infelizmente, por enquanto, um aplicativo matador para modelos generativos – apesar da ampla gama de sua aplicabilidade prática – não apareceu.

(Fonte: geração de IA baseada no modelo FLUX.1)

⇡#Deixe-o mais poderoso!

O sucesso do modelo de “raciocínio” DeepSeek R1, que é mais barato para os usuários, incluindo os comerciais, do que seus concorrentes, e durante o treinamento, se acreditarmos em seus desenvolvedores, não exigiu recursos computacionais proibitivos, fez muitos especialistas pensarem: e se o futuro da IA ​​generativa não for de fato uma extensa construção de camadas em redes neurais densas baseadas em uma base de hardware cada vez mais poderosa e intensiva em energia, mas uma mudança de paradigma em termos de arquitetura de software? Seguindo os especialistas, os investidores ficaram preocupados – afinal, se esse for realmente o caso, será possível sobreviver com um número menor de data centers menos monstruosos? Infelizmente, a entrevista do CEO da Nvidia à CNBC em fevereiro diminuiu o ardor dos defensores da IA ​​”verde”. Jensen Huang estima que a quantidade de computação necessária para executar (nem estamos falando de treinamento!) um modelo de “raciocínio” de nova geração seja cem vezes maior ou mais do que o que é típico para inferência em nuvem hoje. O chefe da empresa que mais se beneficiou do boom da IA ​​ficou sinceramente satisfeito com o fato de que os sucessores do DeepSeek R1 exigirão ainda mais núcleos gráficos e memória de vídeo para construir cadeias lógicas, cuja progressão consistente permitirá gerar respostas que satisfaçam os usuários. O tempo dirá o quão verdadeira essa avaliação será, e isso acontecerá em breve, mas claramente tranquilizou os investidores.

A linha de raciocínio do Sr. Huang foi indiretamente confirmada pelo CEO da OpenAI, Sam Altman, que, logo após a apresentação oficial do GPT-4.5, o maior e mais avançado modelo de linguagem da empresa, explicou o motivo exato pelo qual apenas os assinantes do plano tarifário ChatGPT Pro, que pagam US$ 200 por mês por uma assinatura, foram os primeiros a receber acesso ao novo produto. Acontece que a OpenAI simplesmente ficou sem aceleradores gráficos – e para disponibilizar o GPT-4.5 aos assinantes do plano Plus, mais suave, a empresa terá que comprar urgentemente um novo lote grande de GPUs e implantar servidores adicionais. Também é importante levar em conta que o novo modelo OpenAI não pertence aos “racionais”, apesar de, nas palavras do próprio Altman, ser “gigantesco” e “caro”. Mas dizem que o GPT-4.5 é melhor em escrever textos e tem “conhecimento de maior qualidade do mundo” (ah, e mal posso esperar para perguntar sobre ursos no espaço!), e também ostenta “personalidade melhorada em comparação aos modelos anteriores”. Em qualquer caso, o próximo GPT-5 deve se tornar “raciocínio” – então, se os cálculos do chefe da Nvidia estiverem corretos, o mundo precisará de GPUs de servidor ainda mais potentes em questão de meses.

«Quieto! A IA vai pensar” (fonte: Anthropic)

⇡#A IA pode jogar este jogo

Usar IA para gerar paisagens ou controlar personagens em jogos significa tornar esses jogos mais atraentes para jogadores reais a longo prazo, enriquecendo mundos virtuais com elementos de imprevisibilidade logicamente consistente (além das inevitáveis, infelizmente, alucinações). Mas por que treinar um modelo generativo para jogar sozinho? Certamente, não para adicionar PvAI aos modos PvE e PvP bem conhecidos em MMORPGs? Aparentemente, o Anthropic, que transmite Claude 3.7 Sonnet (Claude Plays Pokémon) jogando Pokémon Red no Twitch, não tem uma resposta definitiva para essa pergunta no momento. O projeto é anunciado (por enquanto?) como “um experimento que deve demonstrar as capacidades das tecnologias modernas baseadas em inteligência artificial e as reações das pessoas a elas”. Além disso, o jogo não é o mais difícil para os padrões modernos, mas contém alguns quebra-cabeças lógicos, em cuja solução os novos modelos de “raciocínio” se mostram excelentes. Curiosamente, uma tentativa de ensinar o modelo gerativo “não-raciocinador” Claude 3.5 Sonnet a jogar o mesmo jogo não teve sucesso anteriormente. Embora para a versão 3.7 a capacidade de “raciocinar” não tenha se tornado um salva-vidas – tendo batido em uma parede de pedra, o personagem controlado pela IA permaneceu no lugar por um longo tempo. Mas no final ele ainda conseguiu se virar e contornar o obstáculo, o que agradou muito os jogadores que assistiam à transmissão.

Será interessante, é claro, ver o quão bem-sucedida a próxima IA de “raciocínio” será em completar um jogo criado por outro modelo generativo – esse é o tipo de desenvolvimento de jogo que o xAI Gaming Studio, anunciado em fevereiro por Elon Musk, pretende se envolver. Os desenvolvedores do estúdio recém-criado já demonstraram um projeto piloto durante a apresentação do modelo Grok-3 – a nova IA generativa criou um jogo semelhante ao Tetris na linguagem de programação Python e também reproduziu a versão básica do Bubble Trouble com a consideração correta da física dos objetos em colisão. Até agora, o Grok-3 não conseguiu fazer tudo de imediato — por exemplo, não conseguiu encontrar efeitos sonoros adequados no jogo com base na solicitação do usuário — mas isso é mais uma questão de treinamento adicional na matriz de dados correspondente. O xAI Gaming Studio chama seu principal desafio de “criar jogos gerados dinamicamente com gráficos fotorrealistas” e até agora não há obstáculos fundamentais para atingir esse objetivo. Mas alguém estaria interessado em jogar um jogo gerado por IA — exceto, talvez, outra IA?

«Não venham aqui, seus canalhas, a Internet está fechada!” (fonte: geração de IA baseada no modelo FLUX.1)

⇡#Outra previsão sobre o fim da Internet

Agentes de IA — assistentes digitais personalizados treinados (para não dizer “treinados”) para executar meticulosamente uma gama relativamente estreita de tarefas com um mínimo absoluto de alucinações — têm atraído cada vez mais a atenção de especialistas e entusiastas. Os analistas da Bernstein sugeriram que “se os agentes de IA realmente se tornarem úteis, a Internet ficará escura” – no sentido de que ninguém clicará em links, abrirá sites de notícias ou informações, enviará consultas pessoalmente a mecanismos de busca por meio de uma interface da web, etc. Na verdade, por que se preocupar, se qualquer usuário sempre terá agentes de IA prontos para fazer todo o trabalho preparatório para ele – encontrar fontes, verificá-las, resumir as informações apresentadas nelas, verificar sua consistência, compilar um resumo, apresentar conclusões e até mesmo com notas de rodapé, se necessário?

Além disso, os agentes também podem interagir com sites interativos em uma base humana – planejando e organizando viagens, por exemplo; até mesmo reservar hotéis e comprar passagens aéreas (enquanto se comunicam no Gibberlink ou seus análogos, sim). Uma viagem virtual de compras de supermercado com posterior entrega por correio para robôs inteligentes — com o suporte de carrinhos robóticos autopropulsados, a propósito — também não é ciência de foguetes: além disso, tendo coletado estatísticas sobre produtos comprados ao longo de duas ou três semanas (quanto mais, melhor), o modelo generativo será capaz de otimizar perfeitamente os pedidos subsequentes. Tanto o agente Operator da OpenAI quanto o Project Mariner do Google, o Claude 3.7 Sonnet da Anthropic, podem formar a base para a criação de sistemas altamente personalizados. É verdade que a indústria global de publicidade na Internet claramente sofrerá um choque sério após uma mudança tão tectônica no paradigma da navegação na web, porque as taxas para aumentar a probabilidade de incluir um produto de uma marca específica em uma lista de compras serão acumuladas pelos desenvolvedores de agentes de IA.

Mas, em qualquer caso, para começar, esses mesmos desenvolvedores terão que superar a desconfiança ainda bastante forte do consumidor em massa em relação à IA generativa – ou seja, como uma ferramenta séria, e não como uma ferramenta de desenho online de gatos com chapéus engraçados ou como um compilador de resumos, que também precisam ser verificados duas vezes depois. E esse tipo de mudança na consciência de massa não é nada simples: de acordo com um estudo conduzido pelo Pew Research Center, mesmo nos Estados Unidos, a maioria dos trabalhadores de “colarinho branco” empregados em empresas bastante modernas raramente ou nunca recorrem a bots de bate-papo para questões relacionadas ao trabalho, e outros 29% nunca ouviram falar de nenhum bot de IA que pudesse ser útil de alguma forma para resolver problemas do mundo real (novamente, este é os Estados Unidos, e a amostra abrange idades de 18 a 65+ e educação até a pós-graduação!). Se essas pessoas confiarão em agentes de IA para pagar por si mesmas em supermercados e planejar viagens de férias é uma grande questão. Portanto, os desenvolvedores de modelos generativos terão que se esforçar muito para realmente mudar a opinião pública a seu favor.

avalanche

Postagens recentes

Controle sem fio Apple N1 é lançado para Wi-Fi 7 e Bluetooth 6 em novos iPhones

A Apple revelou um novo chip, o N1, projetado para gerenciar módulos de protocolo Bluetooth,…

21 minutos atrás