Não apenas aceleradores NVIDIA: a marcação de dados está se tornando uma das principais razões para o aumento do custo dos modelos de IA

Construir e treinar modelos poderosos de IA pode custar às empresas centenas de milhões a bilhões de dólares por ano. Por exemplo, a OpenAI pretende gastar até US$ 7 bilhões para esses fins em 2024. A maior parte dos custos está em recursos de hardware, incluindo caros aceleradores NVIDIA. Mas, como relata a Fortune, há outra despesa importante que muitas vezes é esquecida: a necessidade de rotulagem de dados de qualidade. Entretanto, é este trabalho que exige investimentos financeiros cada vez maiores.

Marcação (ou marcação) é o processo de identificação de dados brutos (imagens, arquivos de texto, vídeos, etc.) e adição de um ou mais rótulos significativos e informativos para fornecer contexto. Isso é necessário para que o modelo de IA possa aprender com essa quantidade de informações. A marcação de dados é necessária para vários casos de uso, incluindo visão computacional, processamento de linguagem natural e reconhecimento de fala.

A marcação tem sido usada há muito tempo, por exemplo, no desenvolvimento de modelos de IA para carros autônomos. A câmera captura imagens de pessoas, placas de trânsito, veículos e semáforos, e anotadores humanos marcam as imagens com tags como “pedestre”, “caminhão” ou “sinal de parada”. Este é um processo trabalhoso e meticuloso que leva muito tempo e requer investimentos financeiros significativos. Após o lançamento do ChatGPT em 2022, a OpenAI foi amplamente criticada por terceirizar esse tipo de trabalho: a empresa contratou trabalhadores quenianos por menos de US$ 2/hora.

Os atuais modelos de linguagem grande de uso geral (LLMs) passam por aprendizagem por reforço a partir de feedback (RLHF). Durante o procedimento, os humanos fornecem feedback qualitativo ou classificam o que o modelo de IA gera. Essa abordagem leva a um aumento significativo nos custos. Outra razão para o aumento dos custos da rotulagem de dados é o desejo das empresas de incluir informações corporativas, tais como informações de clientes ou documentos corporativos internos, no processo de formação.

Além disso, a rotulagem de dados de nível especializado em áreas como direito, finanças e saúde exige o envolvimento de especialistas altamente qualificados, cujos salários são muito caros. É por isso que alguns desenvolvedores estão terceirizando tarefas de rotulagem de dados para empresas terceirizadas, como a Scale AI, que recentemente recebeu US$ 1 bilhão em financiamento.

Alex Ratner, CEO da startup de rotulagem de dados Snorkel AI, diz que os clientes empresariais podem gastar milhões de dólares rotulando e processando informações. Em alguns casos, essas operações ocupam até 80% do tempo e do orçamento da IA. Além disso, para manter a relevância ao longo do tempo, os dados devem ser periodicamente complementados e processados ​​de novo.

Assim, a marcação, juntamente com a necessidade de utilização de equipamentos caros, torna-se um dos principais itens de custo no treinamento de modelos de IA. Algumas empresas reduzem custos usando dados sintéticos – ou seja, dados gerados pela própria IA. Inovações recentes no campo da IA ​​tornaram a geração de dados sintéticos eficiente e rápida, o que em alguns casos permite abandonar o uso de matrizes de informações reais. No entanto, em alguns casos, isto ameaça a “auto-repetição”.

avalanche

Postagens recentes

Funcionários ricos da Samsung e da SK Hynix estão impulsionando a alta dos preços dos imóveis em cidades próximas às suas fábricas.

Uma greve recente permitiu que os funcionários da área de memória da Samsung Electronics se…

2 horas atrás

Um cartucho lacrado do Super Mario Bros. foi vendido em leilão pelo valor recorde de 3 milhões de dólares.

Uma cópia de Super Mario Bros. em sua embalagem original foi vendida por um valor…

2 horas atrás

A AMD afirma que seu laptop equipado com o processador Ryzen 5 220 é melhor para jogos do que o MacBook Neo da Apple.

O lançamento do MacBook Neo, disponível para todos nos EUA por US$ 599 e para…

3 horas atrás

Fatekeeper: Finalmente, Dark Messiah 2? Prévia

Muitos jogadores, incluindo eu, lembram com carinho de Dark Messiah of Might and Magic. O…

10 horas atrás

Rumor: Intel lançará processadores Raptor Lake Next para LGA 1700 e DDR4 em 2027, visando solucionar problemas de crise.

Na Computex 2026, os chips Nova Lake foram o assunto mais importante relacionado à Intel,…

11 horas atrás