Não apenas aceleradores NVIDIA: a marcação de dados está se tornando uma das principais razões para o aumento do custo dos modelos de IA

Construir e treinar modelos poderosos de IA pode custar às empresas centenas de milhões a bilhões de dólares por ano. Por exemplo, a OpenAI pretende gastar até US$ 7 bilhões para esses fins em 2024. A maior parte dos custos está em recursos de hardware, incluindo caros aceleradores NVIDIA. Mas, como relata a Fortune, há outra despesa importante que muitas vezes é esquecida: a necessidade de rotulagem de dados de qualidade. Entretanto, é este trabalho que exige investimentos financeiros cada vez maiores.

Marcação (ou marcação) é o processo de identificação de dados brutos (imagens, arquivos de texto, vídeos, etc.) e adição de um ou mais rótulos significativos e informativos para fornecer contexto. Isso é necessário para que o modelo de IA possa aprender com essa quantidade de informações. A marcação de dados é necessária para vários casos de uso, incluindo visão computacional, processamento de linguagem natural e reconhecimento de fala.

A marcação tem sido usada há muito tempo, por exemplo, no desenvolvimento de modelos de IA para carros autônomos. A câmera captura imagens de pessoas, placas de trânsito, veículos e semáforos, e anotadores humanos marcam as imagens com tags como “pedestre”, “caminhão” ou “sinal de parada”. Este é um processo trabalhoso e meticuloso que leva muito tempo e requer investimentos financeiros significativos. Após o lançamento do ChatGPT em 2022, a OpenAI foi amplamente criticada por terceirizar esse tipo de trabalho: a empresa contratou trabalhadores quenianos por menos de US$ 2/hora.

Os atuais modelos de linguagem grande de uso geral (LLMs) passam por aprendizagem por reforço a partir de feedback (RLHF). Durante o procedimento, os humanos fornecem feedback qualitativo ou classificam o que o modelo de IA gera. Essa abordagem leva a um aumento significativo nos custos. Outra razão para o aumento dos custos da rotulagem de dados é o desejo das empresas de incluir informações corporativas, tais como informações de clientes ou documentos corporativos internos, no processo de formação.

Além disso, a rotulagem de dados de nível especializado em áreas como direito, finanças e saúde exige o envolvimento de especialistas altamente qualificados, cujos salários são muito caros. É por isso que alguns desenvolvedores estão terceirizando tarefas de rotulagem de dados para empresas terceirizadas, como a Scale AI, que recentemente recebeu US$ 1 bilhão em financiamento.

Alex Ratner, CEO da startup de rotulagem de dados Snorkel AI, diz que os clientes empresariais podem gastar milhões de dólares rotulando e processando informações. Em alguns casos, essas operações ocupam até 80% do tempo e do orçamento da IA. Além disso, para manter a relevância ao longo do tempo, os dados devem ser periodicamente complementados e processados ​​de novo.

Assim, a marcação, juntamente com a necessidade de utilização de equipamentos caros, torna-se um dos principais itens de custo no treinamento de modelos de IA. Algumas empresas reduzem custos usando dados sintéticos – ou seja, dados gerados pela própria IA. Inovações recentes no campo da IA ​​tornaram a geração de dados sintéticos eficiente e rápida, o que em alguns casos permite abandonar o uso de matrizes de informações reais. No entanto, em alguns casos, isto ameaça a “auto-repetição”.

avalanche

Postagens recentes

Não se preocupe com a trilha sonora: o compositor de The Witcher 3 escreverá músicas para The Witcher 4.

O estúdio polonês CD Projekt Red não tem pressa em compartilhar detalhes sobre o aguardado…

3 horas atrás

A Microsoft restaurou o ícone de login por senha na tela de bloqueio do Windows 11, que havia desaparecido em agosto.

Seis meses depois, a Microsoft corrigiu um problema conhecido em que a opção de login…

6 horas atrás

Uma fonte interna decepcionou os fãs que esperavam ver Ada Wong e Chris Redfield em Resident Evil Requiem.

O lançamento do ambicioso jogo de terror Resident Evil Requiem marcará o grande retorno do…

10 horas atrás

O Samsung Galaxy S26 Ultra com caneta stylus aparece em imagem de pré-anúncio.

No final de janeiro, foi noticiado que os smartphones da série Samsung Galaxy S26 provavelmente…

11 horas atrás

“Vivo e bem”: Um analista de dados revelou o que está acontecendo com Half-Life 3.

O minerador de dados Maxim Poletaev (também conhecido como Gabe Follower) comentou recentemente sobre rumores…

12 horas atrás

A Ford manteve conversas com a Xiaomi sobre a produção de veículos elétricos nos EUA.

A Ford Motor, uma das maiores montadoras americanas, inicialmente se comprometeu com uma estreita cooperação…

13 horas atrás