Não apenas aceleradores NVIDIA: a marcação de dados está se tornando uma das principais razões para o aumento do custo dos modelos de IA

Construir e treinar modelos poderosos de IA pode custar às empresas centenas de milhões a bilhões de dólares por ano. Por exemplo, a OpenAI pretende gastar até US$ 7 bilhões para esses fins em 2024. A maior parte dos custos está em recursos de hardware, incluindo caros aceleradores NVIDIA. Mas, como relata a Fortune, há outra despesa importante que muitas vezes é esquecida: a necessidade de rotulagem de dados de qualidade. Entretanto, é este trabalho que exige investimentos financeiros cada vez maiores.

Marcação (ou marcação) é o processo de identificação de dados brutos (imagens, arquivos de texto, vídeos, etc.) e adição de um ou mais rótulos significativos e informativos para fornecer contexto. Isso é necessário para que o modelo de IA possa aprender com essa quantidade de informações. A marcação de dados é necessária para vários casos de uso, incluindo visão computacional, processamento de linguagem natural e reconhecimento de fala.

A marcação tem sido usada há muito tempo, por exemplo, no desenvolvimento de modelos de IA para carros autônomos. A câmera captura imagens de pessoas, placas de trânsito, veículos e semáforos, e anotadores humanos marcam as imagens com tags como “pedestre”, “caminhão” ou “sinal de parada”. Este é um processo trabalhoso e meticuloso que leva muito tempo e requer investimentos financeiros significativos. Após o lançamento do ChatGPT em 2022, a OpenAI foi amplamente criticada por terceirizar esse tipo de trabalho: a empresa contratou trabalhadores quenianos por menos de US$ 2/hora.

Os atuais modelos de linguagem grande de uso geral (LLMs) passam por aprendizagem por reforço a partir de feedback (RLHF). Durante o procedimento, os humanos fornecem feedback qualitativo ou classificam o que o modelo de IA gera. Essa abordagem leva a um aumento significativo nos custos. Outra razão para o aumento dos custos da rotulagem de dados é o desejo das empresas de incluir informações corporativas, tais como informações de clientes ou documentos corporativos internos, no processo de formação.

Além disso, a rotulagem de dados de nível especializado em áreas como direito, finanças e saúde exige o envolvimento de especialistas altamente qualificados, cujos salários são muito caros. É por isso que alguns desenvolvedores estão terceirizando tarefas de rotulagem de dados para empresas terceirizadas, como a Scale AI, que recentemente recebeu US$ 1 bilhão em financiamento.

Alex Ratner, CEO da startup de rotulagem de dados Snorkel AI, diz que os clientes empresariais podem gastar milhões de dólares rotulando e processando informações. Em alguns casos, essas operações ocupam até 80% do tempo e do orçamento da IA. Além disso, para manter a relevância ao longo do tempo, os dados devem ser periodicamente complementados e processados ​​de novo.

Assim, a marcação, juntamente com a necessidade de utilização de equipamentos caros, torna-se um dos principais itens de custo no treinamento de modelos de IA. Algumas empresas reduzem custos usando dados sintéticos – ou seja, dados gerados pela própria IA. Inovações recentes no campo da IA ​​tornaram a geração de dados sintéticos eficiente e rápida, o que em alguns casos permite abandonar o uso de matrizes de informações reais. No entanto, em alguns casos, isto ameaça a “auto-repetição”.

avalanche

Postagens recentes

A tecnologia de comunicação via satélite 5G da Starlink estará disponível em smartphones comuns em 10 países europeus até 2028.

A Starlink firmou um acordo com a gigante alemã de telecomunicações Deutsche Telekom para implementar…

18 minutos atrás

A Steam publicou um relatório sobre o hardware usado pelos jogadores que ninguém acreditou.

Uma análise da última Pesquisa Steam, um relatório mensal da Valve que visa compreender as…

18 minutos atrás

A editora de Terminator: Survivors e Styx: Blades of Greed, que enfrenta falência, adiou a Nacon Connect 2026 para apresentar os jogos “em sua melhor forma”.

A editora francesa Nacon (Terminator: Survivors, Styx: Blades of Greed, RoboCop: Rogue City) confirmou o…

2 horas atrás

“Estranho no melhor sentido da palavra”: Os críticos deram seu veredicto sobre o jogo de RPG de fantasia da Esoteric Ebb, no estilo de Planescape: Torment e Disco Elysium.

Antes do seu lançamento amanhã, o RPG de fantasia Esoteric Ebb, do desenvolvedor sueco Christoffer…

3 horas atrás

ASML expandirá sua linha de produtos: litografias incluirão equipamentos avançados de embalagem de chips.

A ASML é a única fabricante de equipamentos de litografia ultravioleta extrema (EUV), essenciais para…

3 horas atrás

A Nvidia lançou o driver 595.71 WHQL para substituir o malsucedido 595.59 WHQL.

A Nvidia lançou um novo driver gráfico, GeForce Game Ready 595.71 WHQL, que substitui o…

4 horas atrás