Categorias: Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

A inferência por IA em breve ficará mais barata, mas os usuários dificilmente notarão a diferença.

Aplicativos e serviços de IA generativa estão se tornando cada vez mais caros, à medida que os desenvolvedores enfrentam custos crescentes de infraestrutura. Uma nova geração de GPUs e aceleradores de IA promete aliviar a crescente demanda por inferência (implantação de IA), mas é improvável que os usuários finais percebam a economia, segundo reportagem do The Register.

Fonte da imagem: BoliviaInteligente / unsplash.com

Vários anos se passaram desde o início do boom da IA, desenvolvedores gastaram bilhões de dólares criando novos modelos e aplicações práticas de IA já estão surgindo — os exemplos mais proeminentes são Claude Code, Codex, GitHub Copilot e outros serviços de programação. Mais surgirão em breve. O problema é que data centers projetados para treinamento de modelos não são projetados para inferência — são tarefas completamente diferentes. Desenvolvedores de aceleradores estão agora desenvolvendo ativamente novos hardwares; a Nvidia adquiriu a startup Groq por US$ 20 bilhões, e AMD, AWS, Intel e Google estão desenvolvendo suas próprias versões de aceleradores — todos tentando reduzir o preço do token.

Tokens mais baratos otimizam a economia, e os investidores esperam que a OpenAI e a Anthropic eventualmente se recuperem de suas perdas. O hardware de próxima geração ainda não está pronto para chegar ao mercado: os fabricantes falam sobre o segundo semestre deste ano, mas, na realidade, provavelmente teremos que esperar até o início ou meados de 2020. Consequentemente, os desenvolvedores de IA já começaram a aumentar os preços: o preço do OpenAI GPT-5.5 dobrou em comparação com seu antecessor, e até mesmo o novo Google Gemini 3.5 Flash custa de 3 a 6 vezes mais que o Gemini 3.1 Flash-Lite e o Gemini 3 Flash Preview. O aumento de preço é agravado pelo fato de que os agentes de IA baseados nesses modelos consomem mais tokens do que os chatbots.

Como resultado, os desenvolvedores de IA estão abandonando o modelo de preços fixos: não faz sentido cobrar US$ 200 por mês se um cliente consome US$ 5.000 em recursos. A Microsoft já começou a mudar o modelo de preços do GitHub Copilot, passando de preços por usuário para preços baseados no consumo, e a Anthropic está seguindo na mesma direção.Como resultado, os empregadores que esperavam que a IAAqueles que substituem seus funcionários por quase nada terão uma surpresa desagradável: em vez de US$ 40 por hora e benefícios, terão que pagar US$ 30 por hora por tokens.

Enquanto isso, uma onda de demissões continua a varrer o setor de tecnologia. A Meta✴ demitirá 10% de sua equipe, fechará 6.000 vagas e transferirá 7.000 pessoas para novas posições; a Cloudflare demitirá cerca de 1.100 trabalhadores; e até mesmo o governo da Nova Zelândia anunciou planos para demitir cerca de 9.000 funcionários públicos devido à IA. A vantagem até agora está com as grandes empresas, que podem arcar com perdas em algumas áreas em detrimento de outras. A OpenAI e a Anthropic ainda não estão em perigo: alguém precisa desenvolver modelos de IA, e empresas como Microsoft, Meta✴ e AWS ainda não conseguiram. Apenas o Google obteve sucesso.

admin

Próximo A Microsoft desenvolveu uma correção temporária para a vulnerabilidade YellowKey no BitLocker. »

Anterior « Após encerrar o suporte para Destiny 2, a Bungie não está preparando Destiny 3, mas sim demissões em massa.

Deixar comentário

Publicado por

admin

1 mês atrás

Postagens recentes

Consoles de jogos

A Microsoft ensinará o Xbox a converter discos de jogos em licenças digitais.

A Microsoft começou a testar o recurso Disc2Digital para converter jogos físicos licenciados para formato…

5 horas atrás

Jogos

Mass Effect fica a desejar: ao contrário das expectativas dos jogadores, Exodus não terá um editor de personagens completo.

A Archetype Entertainment, veterana da BioWare, esclareceu um dos elementos mais obscuros de seu RPG…

5 horas atrás

Placas de vídeo

A GeForce RTX 5090D tornou-se a primeira placa gráfica Blackwell cuja GPU atingiu 4 GHz.

A equipe de overclocking da OGS publicou um resultado de overclock de GPU para uma…

7 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O Chrome 150 foi lançado, corrigindo quase 400 vulnerabilidades, incluindo 15 críticas.

Há um mês, o Google anunciou a correção de 429 vulnerabilidades no navegador Chrome, 22…

7 horas atrás

Jogos

“Parece mais uma piada”: Sony decepcionou assinantes com o anúncio da seleção de jogos da PS Plus para julho.

Hoje, 1º de julho, a PlayStation já "alegrou" os usuários com notícias sobre o iminente…

8 horas atrás

Jogos

Os desenvolvedores de Subnautica 2 finalmente receberão os bônus em dinheiro que merecem da Krafton, e o antigo novo CEO está deixando o estúdio novamente.

O sucesso do simulador de sobrevivência Subnautica 2, da Unknown Worlds Entertainment (UW), empresa americana…

9 horas atrás