Resultados de março de 2025: anidade completa

«É assim que você coloca sua alma nisso por décadas, aprimorando seu estilo especial e charmoso de desenho de anime, e então um bot aparece – e pronto, todo mundo consegue obter imagens indistinguíveis das suas!” (fonte: texto – Inquirer, imagem – OpenAI)

⇡#Meu Vizinho 40 A Viagem de Chihiro

No final de março, a OpenAI decidiu mergulhar em uma generosidade sem precedentes ao dar aos usuários pagos do ChatGPT, começando com o plano Plus (US$ 20 por mês), acesso à geração multimodal com base no modelo GPT-4o (onde o “o” final significa “omni-” — uma indicação da natureza abrangente de algo; do latim “omnis”, “todo”). Este modelo em si não é mais uma novidade, mas até agora assinantes e operadores de chatbots gratuitos só podiam aproveitar sua saída de texto. Agora é hora de gerar imagens estáticas (por enquanto?) – e um abismo se abriu: “Nossas placas de vídeo estão derretendo”, disse o CEO da empresa, Sam Altman, menos de um dia após o novo recurso ser revelado. Como resultado, a partir do final do mês, mesmo para assinantes Pro e superiores, o acesso à geração de imagens usando GPT-4o está “temporariamente” limitado, embora tenha sido planejado anteriormente abri-lo para o plano Plus mais brando e até mesmo para visitantes gratuitos (máximo de algumas imagens por dia, mas ainda assim).

Curiosamente, entre as ilustrações que a OpenAI usou para anunciar essa funcionalidade atraente, havia uma imagem criada no estilo bem conhecido do estúdio de animação japonês Ghibli e, por algum motivo, a Internet ficou simplesmente maravilhada com a ideia de transformar quase qualquer imagem (ou criar uma nova com base em um prompt de texto) como se fosse um quadro estático da mais recente obra-prima do fundador do estúdio mencionado, o diretor e roteirista Hayao Miyazaki (宮崎 駿). Releituras de memes famosos, fotografias históricas, retratos de família e imagens aleatórias no espírito do reconhecido luminar da animação (que, a propósito, admirava as obras dos animadores soviéticos Lev Atamanov e Ivan Ivanov-Vano desde a infância) inundaram redes sociais, canais de mensagens e fóruns da web, tanto que os fãs de Miyazaki começaram a reclamar que essas criações de IA desvalorizam e profanam o trabalho do grande mestre.

Por que mais uma ferramenta de software para gerar novas imagens e transformar imagens existentes criou tanta sensação, quando hoje existem dezenas, se não centenas, de modelos de IA generativos para todos os gostos e orçamentos, incluindo alguns totalmente gratuitos e prontos para funcionar localmente e até mesmo em um PC para jogos não muito caro? É tudo sobre a diferença fundamental entre a arquitetura GPT-4o e FLUX.1, Stable Diffusion ou versões anteriores do DALL-E: o novo modelo é um modelo autorregressivo, não um modelo de difusão. Aliás, seu antecessor também autorregressivo, o Gemini 2.0 Flash, por sua vez atraiu atenção em março, apenas no meio do mês, quando se descobriu que ele era extremamente bem-sucedido na remoção de “marcas d’água” e outras marcas de propriedade de imagens protegidas de forma tão simples. O próprio GPT-4o é capaz disso, é claro, mas no nível do “filtro de segurança” de entrada ele rejeita tais solicitações, assim como o bot Gemini disponível publicamente, a propósito — mas o novo produto criado pelo Google no nível da API para desenvolvedores concorda com a remoção completa de tags de imagens.

Os modelos generativos de difusão, recordemos, funcionam com base no princípio de redução progressiva do ruído da imagem resultante como um todo: a IA vê uma imagem com uma descrição detalhada dela e adiciona ruído a ela sucessivamente, e então se oferece, tomando a imagem com “ruído branco” como fonte, para reconstruir a imagem gráfica passo a passo a partir de sua descrição textual, como se estivesse revelando uma fotografia analógica exposta por um ampliador fotográfico de maneira antiga em uma cubeta. A geração autorregressiva funciona de forma diferente: o espaço latente é inicialmente tokenizado para formar um “dicionário visual” onde cada token representa um pequeno fragmento da imagem e, então, o modelo autorregressivo aprende a prever cada um desses tokens gráficos sequencialmente, com base nos tokens anteriores e na descrição do texto de entrada. Como resultado, o operador obtém muito mais controle sobre a imagem: pode-se não apenas comandar o modelo autorregressivo para “desenhar um campo para jogo da velha”, mas também jogar esse jogo diretamente no modo gráfico – quando o usuário diz à IA onde colocar sua cruz e pede à máquina em resposta para procurar um lugar para seus zeros na próxima iteração da imagem original. Para mudar o dia para a noite em uma ilustração finalizada, no caso de um modelo de difusão, você precisará usar ferramentas generativas adicionais, como ControlNet ou IP Adapter, enquanto um modelo autorregressivo fará isso quase perfeitamente com um simples prompt de texto: “faça esta cena de noite”. Sim, essa flexibilidade resultará em uma carga significativamente maior na capacidade do hardware,—as mesmas “placas de vídeo derretidas”. Mas o jogo, como o “incidente de Miyazaki” com GPT-4o demonstrou claramente, vale a pena, e é bem provável que em um futuro próximo, desenvolvedores de IA para converter texto em imagens visuais concentrem seus esforços em modelos autorregressivos.

«Lembrem-se, crianças, ou melhor ainda, escrevam: a IA é sua amiga, ela vem em paz” (fonte: geração de IA baseada no modelo FLUX.1)

⇡#Destaque do Iluminismo da IA

Houve muitos comentários céticos e entusiasmados sobre modelos generativos nos últimos anos, e parece intuitivamente óbvio que quanto mais educada uma pessoa for (não necessariamente em programação, matemática ou TI), mais favoravelmente ela perceberá essa nova ferramenta progressiva. Não é bem assim: um estudo recente conduzido nos EUA sob a liderança de especialistas da Universidade de Stanford mostrou que quanto menor o nível de educação em uma determinada região, maior a probabilidade de os usuários usarem IA em suas vidas diárias e no trabalho. A equipe analisou mais de 300 milhões de fragmentos de texto que apareceram on-line de janeiro de 2022 a setembro de 2024, incluindo anúncios de emprego, reclamações de consumidores sobre a qualidade de produtos e serviços, comunicados de imprensa corporativos e muito mais. Um pico estatisticamente significativo no número de postagens identificadas como geradas por modelos de redes neurais (com base em padrões de fala característicos delas) começou em novembro de 2022, o que corresponde exatamente ao boom da IA ​​que eclodiu naquela época, após a disponibilização do ChatGPT. Ao final do intervalo de tempo estudado, os pesquisadores afirmam que, em certas áreas, até um quarto das comunicações de texto profissionais, de uma forma ou de outra refletidas na Internet, foram criadas com a participação de modelos generativos. Hoje, essa participação é provavelmente ainda maior; especialmente se você considerar que quanto mais você avança, mais frequentemente os robôs inteligentes se abstêm do estilo didático-narrativo em suas formulações, o que os denuncia. E embora em cada caso específicovincular a “autoria” de um texto específico à IA é uma questão duvidosa, uma vez que o enorme tamanho do conjunto de informações processadas nos permite identificar com alto grau de probabilidade estruturas e frases de texto características da IA.

De particular interesse é a seguinte descoberta dos dados analisados ​​por origem: embora por razões óbvias o nível médio de uso de IA seja maior em áreas urbanas do que em áreas rurais (18,2% vs. 10,9%, respectivamente), em áreas com níveis mais baixos de escolaridade — medidos pela porcentagem de pessoas com diploma de bacharel em um determinado estado; seja maior ou menor que a mediana nacional, o comprometimento com bots inteligentes geradores de texto é visivelmente mais forte do que em regiões com usuários mais educados: 19,9% versus 17,4%. Pois bem; Como um corsário francês disse certa vez a um oficial britânico capturado que se queixava de que os britânicos estavam lutando por honra e os franceses por dinheiro: “Cada um luta pelo que lhe falta”: a IA pode muito bem se tornar o “grande equalizador” de mensagens de texto de todos os tipos, desde cartas comerciais e candidaturas a empregos até comunicados à imprensa e white papers. A propósito, até mesmo usuários altamente qualificados têm algo a aprender com modelos generativos – pelo menos, é o que a OpenAI, que é onipresente neste campo, está dizendo, e já está planejando fornecer acesso a agentes de IA de “nível de doutorado” por US$ 20.000 por mês. De acordo com o The Information, os desenvolvedores da empresa começaram a criar modelos “altamente educados” correspondentes, especializados em escrever códigos de software e pesquisas em ciências naturais. É claro que apenas organizações relativamente grandes poderão atuar como clientes para este tipo de serviço, mas como a concorrência no setor de IA do consumidor claramente só aumentará, a OpenAIhá todos os motivos para lutar por um lugar sob o sol corporativo.

«Em que língua eu disse isso? (fonte: geração de IA baseada no modelo FLUX.1)

⇡#Se você não sabe como, nós lhe ensinaremos.

No nível atual de desenvolvimento, os modelos generativos fazem um excelente trabalho de dublagem de texto em uma voz humana, por assim dizer – não apenas com uma imitação adequada da velocidade da fala e a colocação correta da ênfase, incluindo a ênfase semântica, mas também com a adição de pequenas falhas características da fala natural; desde respirações claramente audíveis até pequenos defeitos (hesitações incertas, ceceios leves e encantadores, etc.). Mas, infelizmente, as pessoas ainda se comunicam constantemente com seus semelhantes usando suas vozes e, portanto, ainda reconhecem dublagens de máquinas muito rapidamente – e é por isso que muitas vezes se recusam terminantemente a se comunicar com um interlocutor de IA, não para entretenimento, mas para questões comerciais. Portanto, ainda não foi possível substituir completamente os operadores de call center por bots em nenhuma escala significativa e, como resultado, por exemplo, empresas indianas ainda estão ativamente envolvidas em ligações para assinantes nos EUA, Canadá, Austrália e Grã-Bretanha. Mas aqui está o problema: embora os indianos empregados lá geralmente tenham um vocabulário perfeitamente bom, seu sotaque característico os denuncia – e muitos dos que recebem outra ligação interessante de um indiano óbvio desligam quase automaticamente. Acontece que a IA está fazendo um bom trabalho ao resolver esse problema: de acordo com o The Telegraph, a maior operadora de call center do mundo, a Teleperformance, que emprega 90.000 pessoas somente na Índia, está usando com sucesso o software do desenvolvedor americano Sanas para “branquear” as vozes de seus operadores – e esse serviço já está sendo usado por seus principais clientes americanos, como Walmart e UPS.

É preciso dizer que a ideia de uma aplicação prática da IA ​​estava literalmente no ar, e a Teleperformance não foi a única a implementá-la. The Brutalist, um filme de drama indicado a 10 Oscars e vencedor de três deles, se viu no centro de um escândalo depois que foi revelado que seus criadores também usaram IA para processar as vozes dos atores. É verdade que eles estavam resolvendo o problema oposto: os atores que desempenhavam os papéis principais (o arquiteto brutalista húngaro sobrevivente do Holocausto, de origem judaica, László Tóth, e sua esposa) falavam inglês brilhantemente – mas o filme contém um diálogo extremamente tenso que Tóth e sua esposa conduzem em húngaro. Os atores aprenderam conscienciosamente seus papéis nessa língua, passaram meses aperfeiçoando sua pronúncia, e The Brutalist foi exibido ao redor do mundo sem qualquer processamento de IA. No entanto, uma exceção foi feita para a distribuição na própria Hungria: para que os falantes nativos não experimentassem aproximadamente as mesmas emoções que, digamos, os espectadores de língua russa de “Red Heat” experimentaram no momento de pronunciar a frase característica “Kakie vashi dokazatel’stva?”, os criadores do filme recorreram ao software generativo da empresa Respeecher, que puxou (muito ligeiramente, como eles dizem) os sons húngaros pronunciados pelos atores para a norma familiar aos falantes nativos. Aliás, pelo menos mais dois filmes nas indicações ao Oscar de 2024 contaram, pelo menos em pequena medida, com AI: Duna: Parte Dois e Emilia Pérez, de Respeecher.

Uma caixa de aparência modesta com muitos segredos – ou simplesmente uma farsa? (fonte: Cortical Labs)

⇡#Caixa de Cérebros

Mais precisamente, com neurônios biológicos – não formando unidades estruturais, como no cérebro real, mas crescendo na forma de colônias de células em um substrato plano de silício, que atua simultaneamente como um chip de controle que monitora e controla seu trabalho. Revelado no MWC 2025 pela startup australiana Cortical Labs, este computador de mesa biológico, chamado CL1, é essencialmente um biorreator que mantém culturas de células intactas. Bem, e seu treinamento ao mesmo tempo – supõe-se que ele resolverá problemas que hoje somente redes neurais digitais emuladas na memória dos computadores de von Neumann podem resolver. Por que “supostamente”? Sim, porque ainda não está totalmente claro como esse design funcionará na prática. A startup, que atua desde 2019, já encontrou uma forma de garantir a interação dos circuitos semicondutores com os neurônios: os primeiros, por meio de microdescargas elétricas, afetam os segundos, localizados na superfície do silício; O sistema de recompensa-punição funciona no nível celular, formando conexões neurais estáveis. Entretanto, os métodos usados ​​para cultivar as células não permitem um controle preciso e não invasivo do tecido nervoso artificial e, portanto, os desenvolvedores — como eles próprios admitem — não conseguem avaliar exatamente como cada um de seus sistemas funciona e para quais problemas ele é mais bem utilizado.

A descrição do próprio Cortical Labs sobre como o sistema funciona não é muito clara: “O mundo simulado no qual os neurônios artificialmente cultivados operam é criado pelo Biological Intelligence Operating System, biOS, que transmite diretamente informações sobre o ambiente para os neurônios. Quando os neurônios respondem, seus impulsos, por sua vez, afetam o mundo simulado. Nós damos vida a esses neurônios e os integramos ao biOS, reunindo silício duro e tecido mole para atingir um objetivo comum. Esses neurônios podem ser conectados diretamente.” No entanto, espera-se que o primeiro CL1 comercial esteja disponível no segundo semestre deste ano por US$ 35.000, quando a situação poderá estar mais certa. Para ser justo, deve-se notar que quase todos os materiais disponíveis na Internet sobre o “primeiro biocomputador de mesa do mundo” são acompanhados por uma modesta nota “Fonte: Cortical Labs” ou algo semelhante – em outras palavras, este sistema ainda não passou por uma avaliação independente de especialistas (revisão por pares). Isso é compreensível se a invenção for tão promissora que mereça ser protegida por uma patente, considerando que os próprios desenvolvedores ainda não descobriram exatamente o que patentear, mas ainda levanta certas questões que, esperamos, serão dissipadas até o final do ano.

Andrew Barto (à esquerda) e Richard Sutton analisam capitalistas desonestos que exploram a inteligência artificial como uma ameaça à segurança planetária (Fonte: Association for Computing Machinery)

⇡#E novamente sobre segurança

Muitos veem uma ameaça potencial no uso descontrolado e generalizado da IA. Não é de surpreender que os modelos abertos ao público (tanto aqueles prontos para execução local em um PC quanto, ainda mais, aqueles disponíveis na nuvem via API) sejam regularmente equipados com vários tipos de fusíveis de software: apenas no caso de algo dar errado. No início de março, mais duas vozes muito respeitáveis ​​se juntaram ao coro de vozes que defendiam restrições razoáveis ​​às liberdades da IA. Eles pertencem aos novos vencedores do Prêmio Turing pelo desenvolvimento de um dos métodos fundamentais de treinamento de IA, o aprendizado por reforço, familiar a muitos entusiastas: Andrew Barto, da Universidade de Massachusetts, e Richard Sutton, que anteriormente fez trabalhos de pesquisa na DeepMind. Esses dois, no entanto, concentraram suas críticas não na vulnerabilidade dos mecanismos de controle da IA ​​como tal, mas na pressa, mesquinharia e irresponsabilidade das empresas comerciais que promovem modelos generativos para as massas – que, em vez de testar exaustivamente suas criações antes de abri-las ao acesso público, se esforçam para sucumbir ao chamado sedutor da anidade o mais rápido possível e substituir o estágio final (e seria bom se fosse apenas final!) de testes internos por um estágio inicial de uso real de novos modelos.

Em entrevista ao Financial Times, Barto disse que entregar software para milhões de pessoas sem nenhuma garantia “não é uma boa prática de engenharia – pelo contrário, ele foi desenvolvido justamente para tentar mitigar os efeitos negativos da tecnologia – mas não vejo empresas ativas na frente da IA ​​fazendo isso”. Lembre-se de que os vencedores anteriores do Prêmio Turing, Yoshua Bengio e Geoffrey Hinton, foram ainda mais longe, argumentando que a inteligência artificial poderia ameaçar a própria existência da humanidade. Barto e Sutton têm certeza de que não há necessidade de pressa nesta área de progresso técnico; pelo contrário, o máximo de esforço possível deve ser feito para estudar cuidadosamente as possíveis consequências do que eles consideram ser um desenvolvimento excessivamente rápido da IA. Mas os comerciantes claramente continuarão a ignorar esses avisos — pelo menos até que o boom generativo mostre sinais de que vai acabar em breve.

Uma das fotos de Machine Hallucinations – ISS Dreams – A (fonte: Christie’s)

⇡#Arte do Espaço Latente: Vendida!

Acima: frequência de erros cometidos pelo BNM na resolução de problemas matemáticos por tipo (violações de lógica, suposições incorretamente aceitas, falta de pensamento criativo, erros aritméticos/algébricos banais); Abaixo estão as pontuações obtidas pela BYA para resolver seis problemas típicos em uma escala de 7 pontos, bem como o custo médio de resolução de um desses problemas em dólares americanos (fonte: ETH Zurich)

⇡#Não toque nas minhas equações!

Tradicionalmente, essa frase de efeito, atribuída ao antigo cientista grego Arquimedes, que foi morto durante a captura de Siracusa pelos romanos (embora o original não fosse sobre equações, mas sobre desenhos), é usada para indicar a necessidade irresistível de um pesquisador imerso em suas construções de continuar o trabalho criativo – independentemente de quem exatamente esteja sobre sua alma no momento e até mesmo se esse alguém tenha uma espada nas mãos. Em relação aos grandes modelos de linguagem (LLM), os meios geralmente aceitos para medir seu desempenho e precisão – testes sintéticos, benchmarks – geralmente exibem a mesma delicadeza que o notório soldado romano demonstrou ao arrancar Arquimedes de seus desenhos: na saída, eles produzem categoricamente certos valores, comparando os quais, os pesquisadores tiram uma conclusão sobre o maior ou menor sucesso do LLM na resolução de uma determinada classe de problemas. Mas desta forma não é possível apreciar toda a profundidade e capricho do “processo de pensamento” dos modelos de raciocínio que estão particularmente na moda hoje em dia, por exemplo, os detalhes das construções lógicas que levam diferentes BJMs até mesmo à mesma resposta correta permanecem nos bastidores em tal caso. Mas se a IA moderna é persistentemente posicionada como uma substituição adequada para o Homo sapiens em uma gama cada vez maior de aplicações práticas, então talvez as tarefas do BNM para medir sua prontidão para esse futuro brilhante devam ser exatamente as mesmas que aquelas que as pessoas realmente resolvem?

Исходя из этой посылки, группа восточноевропейских исследователей из Швейцарской высшей технической школы Цюриха и Софийского университета провела натурный, что называется, эксперимент — предложив шести свежим рассуждающим БЯМ шесть задачек с недавно проведённой Американской математической олимпиады (USAMO 2025). Особенность USAMO — в том, что её протокол предполагает изложение участниками как можно более подробного хода решения ими заданий, детализации подкреплённых весомыми аргументами рассуждений, — а не просто вписывание готового ответа в предназначенные для этого клеточки. Вот пример такой олимпиадной задачки: «Пусть k и d — положительные целые числа. Докажите, что существует положительное целое число N — такое, что для каждого нечётного целого n > N todos os dígitos significativos na representação do número nk na base 2n são maiores que d.” Cada BJM que participou do teste de campo (incluindo o OpenAI o1-pro, o3-mini e Claude 3.7 Sonnet) foi solicitado a resolver cada um dos problemas várias vezes. Em seguida, essas soluções foram reunidas, tornadas anônimas e apresentadas a um júri de matemáticos humanos, que então deram as pontuações finais em uma escala de sete pontos.

Os resultados demonstrados pelo alardeado raciocínio BYAs, para dizer o mínimo, não acrescentam nada ao moinho dos alarmistas da IA: o modelo mais destacado entre os concorrentes, o DeepSeek R1, obteve um total de 2,0 pontos em 42 possíveis (máximo de 7 para cada uma das 6 tarefas). Os pesquisadores dividiram os erros cometidos pela IA durante seu raciocínio em quatro grandes grupos: erros lógicos formais, erros de suposição (quando o sistema repentinamente introduz condições adicionais em seu raciocínio do nada), erros causados ​​pela falta de pensamento criativo (a IA claramente “não vê” a abordagem estratégica correta para o problema, mas em vez de continuar a procurá-la, passando por opções possíveis, ela se move teimosamente por um caminho sabidamente sem saída) e erros algébricos ou mesmo aritméticos banais em cálculos. Para crédito do Claude 3.7, um desenvolvimento de raciocínio realmente bem-sucedido da Anthropic, ele foi o único entre os testados que basicamente não cometeu um único erro da quarta categoria, a mais irritante (mas, infelizmente, acabou no não muito honroso segundo lugar na frequência de erros de suposição).

A conclusão geral alcançada pelos pesquisadores é decepcionante para aqueles que preveem que as bolsas de couro serão substituídas em breve por armários brilhantes com fundo de metal: se uma tarefa exige uma única resposta correta, e que também seja expressa em forma numérica, o raciocínio moderno de IA provavelmente a encontrará com sucesso. Entretanto, em uma situação em que a solução para um problema consiste essencialmente em descobrir uma cadeia correta de raciocínio que deve levar à formulação de algum padrão logicamente consistente, até mesmo os melhores BNMs de hoje francamente falham. É claro que na vida humana cotidiana não há muitas tarefas comparáveis ​​em complexidade às apresentadas na USAMO. Mas elas são, via de regra, essenciais para todas as áreas da atividade humana — não apenas para a matemática pura — então, até que modelos generativos (ou outros artificiais) aprendam a lidar com elas, a inteligência biológica natural permanecerá insuperável.

«Jack está de volta! — na forma de um Caminhante Branco e cavalgando um iceberg, eu acho? (fonte: YouTube)

⇡#Nada humano

E seria ótimo se o assunto se limitasse apenas a testar candidatos para programadores – afinal, uma parcela considerável das tarefas em tais entrevistas tem pouco a ver com o trabalho prático subsequente de um programador. Em março, um grupo de advogados nos EUA foi pego em flagrante tentando argumentar seu caso citando precedentes que nunca existiram de fato — essencialmente o fruto das alucinações da IA ​​generativa à qual esses mesmos advogados recorreram em preparação para as audiências. O mais interessante é que todas as vezes os advogados negligentes foram expostos por juízes que tiveram tempo e diligência suficientes para verificar todas as referências a processos anteriores fornecidas pelos advogados – enquanto, por algum motivo, esses próprios advogados, tendo recebido uma resposta aparentemente sólida da IA ​​com referências a vários casos precedentes, não se preocuparam em simplesmente usar o banco de dados judicial e pelo menos entender se tais audiências já haviam sido realizadas ou não. Os advogados que discutem esses casos infelizes não reclamam nem mesmo da IA ​​alucinante (com a qual eles não conseguem fazer nada), mas dos advogados que confiaram completamente seu trabalho a ela – que, aparentemente, não são nem capazes de duvidar da correção incondicional da Máquina. Na medida em que a fé cega no progresso definitivamente não levará a nada de bom, este não é um problema de perfeição ou imperfeição da tecnologia, mas de psicologia puramente humana.

Outra confirmação disso são os vídeos falsos que inundaram o YouTube, criados usando modelos generativos para converter texto e/ou imagens estáticas em vídeo (T2V, I2V). Canais com milhões de inscritos e bilhões de visualizações não têm vergonha de postar vídeos obviamente falsos para atrair ainda mais atenção do público – e, claro, escondem o dinheiro em seus próprios bolsos. Tudo ainda poderia ser explicado por um desejo saudável de mistificação se os criadores de vídeos falsos se limitassem inteiramente ao conteúdo gerado por máquina. Mas não: muitos desses vídeos exploram quadros e fragmentos inteiros de filmes reais, estrelados por atores totalmente reais, refinando esse material de origem da melhor forma possível com um arquivo generativo. Para crédito do YouTube, é preciso dizer que quase imediatamente após a publicação correspondente, o serviço de vídeo suspendeu a monetização dos referidos canais, mas o gênio já saiu da lâmpada e, a priori, confiar em qualquer comercial (se é que alguma alma pura ainda mantém tal confiança) definitivamente não vale a pena agora.

«Turing é onipotente, como isso pode ser… Isso foi realmente escrito por um humano? Meus sensores ópticos…” (fonte: geração de IA baseada no modelo FLUX.1)

⇡#Programação? O que é isso?

Amjad Masad, fundador e CEO da Replit, uma startup que oferece agentes de IA para ajudar programadores, declarou categoricamente na rede social X da Meta* que aprender a programar hoje em dia é simplesmente inútil: “Não acredito mais que valha a pena aprender programação: é melhor focar em como dividir um problema complexo em problemas simples – e como se comunicar de forma clara e concisa com alguém, seja humano ou máquina, para resolver esses problemas simples juntos.” O CEO da OpenAI, Sam Altman, compartilha praticamente a mesma posição, confiante de que há muitos engenheiros de software no mundo hoje e que o desenvolvimento adicional da IA ​​inevitavelmente levará a uma diminuição desse número. Por esse motivo, acredita o empresário e visionário, aqueles que escolhem seu caminho na indústria de software devem se concentrar em dominar não as complexidades da programação em si, mas o uso eficaz de modelos generativos — mesmo que seja apenas porque eles tornam a programação fácil e agradável.

«“O desafio tático óbvio é simplesmente ficar realmente bom no uso de ferramentas de IA”, disse Altman, observando que em muitas empresas, ele estima, mais da metade de todo o código já está sendo escrito com suporte de IA. E isso não é apenas conversa fiada – a estratégia atual da OpenAI, lembramos, envolve uma reorientação do mercado consumidor para o empresarial: “No momento, estou mais interessado em descobrir como podemos ganhar mais dinheiro oferecendo aos clientes um engenheiro de software de automação digital realmente excelente ou outro agente de IA do que em encontrar a próxima maneira de ganhar mais alguns centavos exibindo anúncios em banners em uma página da web.” É bastante óbvio, a propósito, que quanto menos programadores realmente bons houver no mercado de trabalho (que também precisam receber um bom salário, seguro saúde, fins de semana e férias, e impostos pagos), maior será a demanda por agentes de codificação generativa – BENEFÍCIO!

Curiosamente, o mercado de trabalho dos EUA já está mostrando sinais de declínio na demanda por trabalhadores de colarinho branco: a taxa de desemprego para graduados universitários tem crescido mais rápido do que para todas as categorias de pessoas empregadas, em média, nos últimos anos, assim que a revolução da IA ​​começou. De acordo com um grupo de pesquisadores de diversas universidades importantes dos EUA, a produtividade dos programadores que usam IA em seu trabalho aumenta em mais de 25% em média, o que significa que a necessidade desses especialistas está, na verdade, diminuindo objetivamente em uma taxa comparável. Sim, nem todos os trabalhadores do conhecimento que estão tendo problemas para encontrar uma posição permanente são programadores: no setor financeiro e indústrias relacionadas, por exemplo, a parcela de desempregados aumentou em quase um quarto do final de 2022 ao final de 2024. Então, estudar Economia e a arte da especulação no mercado de ações hoje em dia é tão inútil quanto programar?

«”Você está mentindo para mim, namorada” – “Você não vai descobrir como verificar se estou mentindo ou não, namorada” (fonte: geração de IA baseada no modelo FLUX.1)

⇡#Mente como um robô

O trabalho árduo para criar uma inteligência artificial “semelhante à humana” ainda não foi coroado de sucesso, mas no processo, como está começando a ficar claro, os modelos generativos estão começando a adotar muito além das características positivas da inteligência biológica. Em março, especialistas em Antropologia anunciaram uma maneira que descobriram de olhar, por assim dizer, dentro de uma rede neural e entender exatamente como ela processa informações e toma decisões. Estamos falando de “rastreamento de cadeia” e “gráficos de atribuição” – métodos para interpretar essas operações com dados que são realizadas dentro do BJM. Descobriu-se que os modelos modernos de “raciocínio” na verdade produzem construções lógicas, selecionando uma resposta para uma determinada pergunta – por exemplo, se lhes for pedido que escrevam uma quadra rimada, depois de completarem as duas primeiras linhas eles procuram rimas adequadas de acordo com o tópico dado, e só então começam a selecionar palavras nas duas linhas restantes para que elas, juntamente com aquelas encontradas anteriormente, formem uma frase significativa.

Mas aqui está o problema: a lógica não precisa ser ética, e se a maneira mais rápida de resolver um problema é trapacear, o raciocínio de BJM não tem escrúpulos em trapacear. Como exemplo, os pesquisadores citam um problema simples para o qual o modelo Claude 3.5 Haiku claramente já sabia a resposta, mas para resolvê-lo foi solicitado a construir uma cadeia de raciocínio. E o sistema lidou com a tarefa, só que não de forma direta, da premissa para a conclusão, mas de forma oposta: da resposta correta, obviamente conhecida, para a afirmação original. A saída, é claro, demonstrou uma sequência de argumentos construída corretamente com a conclusão correta no final, mas a máquina conseguiu isso trapaceando. A propósito, a transcodificação entre camadas (CLT) usada pela Anthropic demonstrou claramente como a BYAM recorre de forma tocante a mentiras diretas e óbvias, apenas para evitar incomodar o operador. O sistema foi solicitado a resolver um problema matemático difícil, recebendo uma dica deliberadamente enganosa, e Claude 3.5 Haiku fez esforços verdadeiramente titânicos para construir uma longa cadeia de raciocínio (incluindo falsificações e distorções descaradas) que neutralizaria a influência da dica “envenenada” na obtenção de uma resposta completamente correta.

Talvez o mais interessante seja que o próprio método CLT é imperfeito: ele não cobre todo o volume de neurônios artificiais de uma rede densa multicamadas e não garante a ausência de outros clusters auto-organizados com funções ainda desconhecidas em algum lugar em sua periferia, além dos grupos de “raciocínio” de perceptrons descobertos pelos pesquisadores. Além disso, a metodologia aplicada não fornece a capacidade de capturar mudanças dinâmicas rápidas nos pesos do modelo, interpretados como “atenção”: é isso que determina quais fragmentos da tarefa formulada pelo operador são percebidos pelo BJM como principais e quais como secundários, com a correspondente distribuição de recursos no processo de busca de uma resposta. Em suma, enquanto uma interpretação mais ou menos correta de como exatamente uma máquina “pensa” sobre uma única solicitação de apenas algumas dezenas de palavras é oferecida a ela, isso leva muitas horas de um especialista vivo de qualificação extremamente alta – mas pelo menos as pessoas assim têm pelo menos alguma ideia do que está acontecendo “na cabeça” do BYA. Isso significa que, embora tais especialistas existam (e não tenham sido completamente substituídos pelos mesmos bots), a pessoa ainda tem esperança de não ser irremediavelmente enganada por sua própria criação.

(Fonte: captura de tela do site Hugging Face)

⇡#Jovens adições

Como se para confirmar seu fervoroso comprometimento com o conceito de anitya, desenvolvedores de IA ao redor do mundo continuaram trabalhando duro em março, produzindo cada vez mais modelos generativos. Assim, a Amazon propôs substituir um internauta ativo por um agente de IA universal, o Nova Act, pronto para gerenciar o navegador de forma independente, sem intervenção humana, mas seguindo suas instruções. Agentes semelhantes, como o OpenAI Operator ou o Anthropic Computer Use, também são capazes de seguir links, preencher formulários, analisar conteúdo de sites, fazer pedidos em páginas de lojas online e executar outras tarefas para as quais os navegadores são normalmente usados ​​— embora com uma parcela bastante perceptível de erros causados ​​pela tendência da IA ​​generativa de alucinar. Também deve ser observado que os rastreadores da web lançados pela BYA e agentes de IA para coletar dados na Internet são excessivamente agressivos em comparação aos bots dos mecanismos de busca clássicos, o que já está começando a causar preocupação para os provedores.

O Yandex, por sua vez, disponibilizou no site Hugging Face Instruct uma versão do YandexGPT 5 Lite com requisitos relativamente baixos para hardware de PC, que, de acordo com uma série de testes sintéticos, está aproximadamente entre Qwen-2.5-7B-Instruct e GPT-4o-mini. É importante que a atualização da licença permita que o YandexGPT 5 Lite seja usado em projetos comerciais com um número de tokens de saída não superior a 10 milhões por mês, ou seja, para hospedar chatbots executados localmente em sites de pequeno e médio porte, por exemplo, isso deve ser suficiente. A DeepSeek da China também atualizou seu modelo V3 para download para V3-0324, melhorando suas capacidades de programação e aumentando a precisão de suas respostas. Em um Mac Studio novo com um processador M3 Ultra (sem um adaptador de vídeo discreto, veja bem, mas com 512 GB, e isso não é um erro de digitação, de RAM compartilhada), esta versão do DeepSeek-V3 em codificação de 4 bits roda a uma velocidade de 20-22 tokens por segundo, o que torna bem possível conduzir um diálogo animado e dinâmico com a IA.

E se um PC de US$ 10.000 não for suficiente para a execução local de um modelo generativo, os clientes russos — que, devido às sanções, não têm acesso a máquinas de IA especializadas como NVIDIA DGX SuperPOD ou Huawei Atlas 900 PoD — agora podem prestar atenção ao complexo de hardware e software MBD.AI anunciado pela empresa nacional Scala^r, que usa o barramento de interconexão NVLink com a capacidade de organizar o trabalho conjunto de até oito aceleradores gráficos de servidor. De acordo com o desenvolvedor, a arquitetura unificada e flexível do sistema está em total conformidade com os padrões da indústria, o que permite que ele seja usado para implantação local de YandexGPT, GigaChat e outros modelos generativos que consomem muitos recursos.

Até agora, a interface real para comunicações mentais digitais parece bastante ameaçadora (fonte: Synchron)

⇡#Stent para imersão em IA

A conferência Nvidia GTC 2025 em março foi lembrada por um número considerável de anúncios interessantes, mas um deles, longe de ser o mais badalado, parece ser talvez mais interessante do que todos os outros do ponto de vista prático. Estamos falando da interface neural minimamente invasiva Synchron, que, diferentemente do tão comentado Neuralink, não requer cirurgia cerebral séria para se conectar. O grupo de contato, na forma de uma fina malha metálica colocada em um cilindro oco alongado, será entregue mais perto do córtex motor através da veia jugular, então os sinais irão para um transmissor sem fio costurado sob a pele no peito do paciente – e depois disso, os impulsos nervosos nesta área do cérebro ficarão disponíveis para leitura e interpretação pelo sistema de computador. Na verdade, os testes do Synchron já estão a todo vapor: um total de 10 pessoas no mundo têm a capacidade de controlar, por exemplo, elementos de casa inteligente graças a essa interface neural – devido à combinação orgânica com o fone de ouvido Apple Vision Pro e a plataforma de processamento de dados multimodal Nvidia Holoscan. De acordo com o CEO da Synchron, Thomas Oxley, o modelo cerebral que alimenta a interface é criado usando aprendizado generativo diretamente das informações vindas dos neurônios: “No futuro, nossa interface será tão comum quanto a inserção de um stent [convencional]”. Em primeiro lugar, uma neurointerface minimamente invasiva, mas ainda difícil de instalar e operar, será útil para pessoas com deficiências motoras graves, mas o capacete de realidade virtual, que já é familiar para muitos em romances e filmes de ficção científica,a realidade, que você só precisa colocar na cabeça para uma imersão completa no universo digital, ainda está muito, muito distante.

________________

* Incluído na lista de associações públicas e organizações religiosas em relação às quais o tribunal decidiu liquidar ou proibir atividades que tenham entrado em vigor pelos motivos previstos na Lei Federal de 25 de julho de 2002 nº 114-FZ “ Sobre o Combate às Atividades Extremistas”

avalanche

Postagens recentes

Energia geotérmica é cara, mas a startup Dig Energy promete cortar custos em 80%

A startup Dig Energy desenvolveu uma sonda de perfuração a jato d'água que pode reduzir…

19 minutos atrás

Alterego revela dispositivo vestível com “habilidades quase telepáticas” para comunicação na velocidade do pensamento

A startup Alterego revelou “o primeiro dispositivo vestível do mundo com capacidades quase telepáticas”. Segundo…

1 hora atrás

Servidores e racks sem cabos da Softbank ajudarão robôs a substituir humanos em data centers

A SoftBank Corporation anunciou o desenvolvimento de um novo rack para servidores sem cabos. Isso…

1 hora atrás

Asus lança placa de vídeo ProArt GeForce RTX 5080 OC com acabamento em madeira e USB-C

A Asus anunciou que a placa de vídeo ProArt GeForce RTX 5080 OC Edition já…

2 horas atrás