Com a crescente popularidade da inteligência artificial, o alto consumo de energia dos modelos de IA está se tornando um problema cada vez mais premente. Apesar de gigantes da tecnologia como Nvidia, Microsoft e OpenAI ainda não terem falado alto sobre este problema, minimizando claramente a sua importância, especialistas da BitEnergy AI desenvolveram uma tecnologia que pode reduzir significativamente o consumo de energia sem perdas significativas na qualidade e velocidade de Trabalho de IA.
Segundo o estudo, o novo método pode reduzir o consumo de energia em até 95%. A equipe chama sua descoberta de Multiplicação de Complexidade Linear, ou L-Mul, para abreviar. De acordo com o TechSpot, este processo de computação é baseado na adição de números inteiros e requer significativamente menos energia e operações em comparação com a multiplicação de ponto flutuante, que é amplamente utilizada em tarefas relacionadas à IA.
Hoje, os números de ponto flutuante são usados ativamente na IA para processar números muito grandes ou muito pequenos. Eles se assemelham à notação em formato binário, permitindo que algoritmos executem cálculos complexos com precisão. No entanto, tal precisão requer recursos extremamente grandes e já levanta algumas preocupações, uma vez que alguns modelos de IA requerem enormes quantidades de eletricidade. Por exemplo, o ChatGPT requer tanta eletricidade quanto 18.000 residências nos EUA consomem – 564 TWh diariamente. Analistas do Cambridge Centre for Alternative Finance estimam que, até 2027, a indústria de IA poderá consumir entre 85 e 134 TWh anualmente.
O algoritmo L-Mul resolve esse problema substituindo operações complexas de multiplicação de ponto flutuante por adições de números inteiros mais simples. Durante os testes, os modelos de IA mantiveram a precisão, enquanto o consumo de energia para operações de tensores foi reduzido em 95% e para operações escalares em 80%.
L-Mul também melhora o desempenho. Descobriu-se que o algoritmo supera os atuais padrões de computação de precisão de 8 bits, fornecendo maior precisão com menos operações em nível de bit. Em testes que abrangem uma variedade de tarefas de IA, incluindo processamento de linguagem natural e visão computacional, o impacto no desempenho foi de apenas 0,07%, o que os especialistas consideraram uma perda menor em comparação com a enorme economia de energia.
Dito isto, os modelos baseados em transformadores, como o GPT, podem beneficiar ao máximo do L-Mul, uma vez que o algoritmo é facilmente integrado em todos os componentes principais destes sistemas. E testes em modelos populares de IA, como Llama e Mistral, mostraram até melhorias na precisão em algumas tarefas.
A má notícia é que o L-Mul requer hardware especializado e os aceleradores de IA atuais não estão otimizados para usar este método. A boa notícia é que já está em andamento o trabalho para criar esse hardware e interfaces de programação de aplicativos (APIs).
Um possível obstáculo poderia ser a resistência de grandes fabricantes de chips como a Nvidia, o que poderia retardar a adoção de novas tecnologias. Visto que, por exemplo, a Nvidia é líder na produção de equipamentos para inteligência artificial e é pouco provável que dê lugar tão facilmente a soluções mais eficientes energeticamente.