Não apenas aceleradores NVIDIA: a marcação de dados está se tornando uma das principais razões para o aumento do custo dos modelos de IA

Construir e treinar modelos poderosos de IA pode custar às empresas centenas de milhões a bilhões de dólares por ano. Por exemplo, a OpenAI pretende gastar até US$ 7 bilhões para esses fins em 2024. A maior parte dos custos está em recursos de hardware, incluindo caros aceleradores NVIDIA. Mas, como relata a Fortune, há outra despesa importante que muitas vezes é esquecida: a necessidade de rotulagem de dados de qualidade. Entretanto, é este trabalho que exige investimentos financeiros cada vez maiores.

Marcação (ou marcação) é o processo de identificação de dados brutos (imagens, arquivos de texto, vídeos, etc.) e adição de um ou mais rótulos significativos e informativos para fornecer contexto. Isso é necessário para que o modelo de IA possa aprender com essa quantidade de informações. A marcação de dados é necessária para vários casos de uso, incluindo visão computacional, processamento de linguagem natural e reconhecimento de fala.

A marcação tem sido usada há muito tempo, por exemplo, no desenvolvimento de modelos de IA para carros autônomos. A câmera captura imagens de pessoas, placas de trânsito, veículos e semáforos, e anotadores humanos marcam as imagens com tags como “pedestre”, “caminhão” ou “sinal de parada”. Este é um processo trabalhoso e meticuloso que leva muito tempo e requer investimentos financeiros significativos. Após o lançamento do ChatGPT em 2022, a OpenAI foi amplamente criticada por terceirizar esse tipo de trabalho: a empresa contratou trabalhadores quenianos por menos de US$ 2/hora.

Os atuais modelos de linguagem grande de uso geral (LLMs) passam por aprendizagem por reforço a partir de feedback (RLHF). Durante o procedimento, os humanos fornecem feedback qualitativo ou classificam o que o modelo de IA gera. Essa abordagem leva a um aumento significativo nos custos. Outra razão para o aumento dos custos da rotulagem de dados é o desejo das empresas de incluir informações corporativas, tais como informações de clientes ou documentos corporativos internos, no processo de formação.

Além disso, a rotulagem de dados de nível especializado em áreas como direito, finanças e saúde exige o envolvimento de especialistas altamente qualificados, cujos salários são muito caros. É por isso que alguns desenvolvedores estão terceirizando tarefas de rotulagem de dados para empresas terceirizadas, como a Scale AI, que recentemente recebeu US$ 1 bilhão em financiamento.

Alex Ratner, CEO da startup de rotulagem de dados Snorkel AI, diz que os clientes empresariais podem gastar milhões de dólares rotulando e processando informações. Em alguns casos, essas operações ocupam até 80% do tempo e do orçamento da IA. Além disso, para manter a relevância ao longo do tempo, os dados devem ser periodicamente complementados e processados ​​de novo.

Assim, a marcação, juntamente com a necessidade de utilização de equipamentos caros, torna-se um dos principais itens de custo no treinamento de modelos de IA. Algumas empresas reduzem custos usando dados sintéticos – ou seja, dados gerados pela própria IA. Inovações recentes no campo da IA ​​tornaram a geração de dados sintéticos eficiente e rápida, o que em alguns casos permite abandonar o uso de matrizes de informações reais. No entanto, em alguns casos, isto ameaça a “auto-repetição”.

avalanche

Postagens recentes

Novos detalhes sobre as placas de vídeo Radeon RX 9070 aparecerão apenas em 24 de janeiro, disse parceiro da AMD

Às vezes, os anúncios de novos produtos não acontecem conforme o planejado, e a recente…

1 hora atrás

A Asus lançou laptops finos Vivobook 14 e 16 com chips Ryzen AI 300 e Snapdragon X com recursos de IA

A Asus apresentou uma série de novos dispositivos na CES 2025 em Las Vegas, incluindo…

1 hora atrás

A Asus apresentou a placa gráfica externa ROG XG Mobile 2025 com GeForce RTX 5090 e Thunderbolt 5

A Asus lançou a primeira placa gráfica externa com interface Thunderbolt 5 - um dispositivo…

2 horas atrás

A Sony apresentou o gamepad e acessórios para o PlayStation 5 na cor preta profunda

Em breve, os proprietários de consoles de jogos PlayStation 5 poderão adquirir acessórios em preto…

3 horas atrás

“Um pouco além da loucura”: a primeira temporada de League of Legends em 2025 recebeu trailer cinematográfico dos criadores de Arcane

Antecipando a transição de League of Legends para um novo modelo de desenvolvimento, os desenvolvedores…

3 horas atrás