Construir e treinar modelos poderosos de IA pode custar às empresas centenas de milhões a bilhões de dólares por ano. Por exemplo, a OpenAI pretende gastar até US$ 7 bilhões para esses fins em 2024. A maior parte dos custos está em recursos de hardware, incluindo caros aceleradores NVIDIA. Mas, como relata a Fortune, há outra despesa importante que muitas vezes é esquecida: a necessidade de rotulagem de dados de qualidade. Entretanto, é este trabalho que exige investimentos financeiros cada vez maiores.
Marcação (ou marcação) é o processo de identificação de dados brutos (imagens, arquivos de texto, vídeos, etc.) e adição de um ou mais rótulos significativos e informativos para fornecer contexto. Isso é necessário para que o modelo de IA possa aprender com essa quantidade de informações. A marcação de dados é necessária para vários casos de uso, incluindo visão computacional, processamento de linguagem natural e reconhecimento de fala.
A marcação tem sido usada há muito tempo, por exemplo, no desenvolvimento de modelos de IA para carros autônomos. A câmera captura imagens de pessoas, placas de trânsito, veículos e semáforos, e anotadores humanos marcam as imagens com tags como “pedestre”, “caminhão” ou “sinal de parada”. Este é um processo trabalhoso e meticuloso que leva muito tempo e requer investimentos financeiros significativos. Após o lançamento do ChatGPT em 2022, a OpenAI foi amplamente criticada por terceirizar esse tipo de trabalho: a empresa contratou trabalhadores quenianos por menos de US$ 2/hora.
Os atuais modelos de linguagem grande de uso geral (LLMs) passam por aprendizagem por reforço a partir de feedback (RLHF). Durante o procedimento, os humanos fornecem feedback qualitativo ou classificam o que o modelo de IA gera. Essa abordagem leva a um aumento significativo nos custos. Outra razão para o aumento dos custos da rotulagem de dados é o desejo das empresas de incluir informações corporativas, tais como informações de clientes ou documentos corporativos internos, no processo de formação.
Além disso, a rotulagem de dados de nível especializado em áreas como direito, finanças e saúde exige o envolvimento de especialistas altamente qualificados, cujos salários são muito caros. É por isso que alguns desenvolvedores estão terceirizando tarefas de rotulagem de dados para empresas terceirizadas, como a Scale AI, que recentemente recebeu US$ 1 bilhão em financiamento.
Alex Ratner, CEO da startup de rotulagem de dados Snorkel AI, diz que os clientes empresariais podem gastar milhões de dólares rotulando e processando informações. Em alguns casos, essas operações ocupam até 80% do tempo e do orçamento da IA. Além disso, para manter a relevância ao longo do tempo, os dados devem ser periodicamente complementados e processados de novo.
Assim, a marcação, juntamente com a necessidade de utilização de equipamentos caros, torna-se um dos principais itens de custo no treinamento de modelos de IA. Algumas empresas reduzem custos usando dados sintéticos – ou seja, dados gerados pela própria IA. Inovações recentes no campo da IA tornaram a geração de dados sintéticos eficiente e rápida, o que em alguns casos permite abandonar o uso de matrizes de informações reais. No entanto, em alguns casos, isto ameaça a “auto-repetição”.
Uma greve recente permitiu que os funcionários da área de memória da Samsung Electronics se…
Uma cópia de Super Mario Bros. em sua embalagem original foi vendida por um valor…
As autoridades americanas decidiram recentemente que o modelo de IA avançado e de código aberto…
O lançamento do MacBook Neo, disponível para todos nos EUA por US$ 599 e para…
Muitos jogadores, incluindo eu, lembram com carinho de Dark Messiah of Might and Magic. O…
Na Computex 2026, os chips Nova Lake foram o assunto mais importante relacionado à Intel,…