A Fortune escreve que melhorias adicionais nos sistemas de IA, que permitirão a transição do ChatGPT para o uso de robôs humanoides, dependem da qualidade dos dados fornecidos a esses sistemas para treinamento.

Fonte da imagem: Igor Omilaev/unsplash.com
A publicação observou que a indústria está na iminência da próxima fronteira da IA — IA física e modelos ambientais — sistemas que aprenderão e, em última instância, operarão no mundo físico. Para adquirirem as habilidades cognitivas necessárias para navegar em estradas, dobrar roupas ou auxiliar em cirurgias médicas complexas, eles precisam de mais do que apenas dados para download. Seu treinamento requer dados ricos e multifacetados. E, a menos que os pesquisadores consigam conter a superabundância de dados desnecessários — dados que não contribuem para o desenvolvimento de modelos —, todo o potencial da IA física e dos modelos ambientais pode nunca ser alcançado.
O problema é que a criação de novos modelos de IA mais avançados exige cada vez mais dados. Surfando na onda do hype da IA, inúmeras startups de IA, como Scale AI, Surge AI e Mercor, surgiram, impulsionadas por um apetite insaciável por dados. No entanto, satisfazer essa necessidade resultou na criação de vastas quantidades de dados desnecessários que, na verdade, não contribuem para o desenvolvimento de modelos de IA, observou a Fortune.
Treinar modelos para compreender um mundo complexo e multidimensional exige muito mais dados — dados que também são muito difíceis de obter. Engenheiros de aprendizado de máquina recorrem à modelagem de dados, usando reconstruções virtuais de cenários do mundo real para criar dados para treinar robôs e carros autônomos.
Usar dados de baixa qualidade no treinamento de modelos de IA pode levar a resultados imprevisíveis. Como?A Fortune reportou que a OpenAI descontinuou o suporte ao aplicativo de vídeo Sora devido a um problema de dados, já que seu modelo do mundo não possuía uma compreensão suficiente da física, dificultando a criação de previsões realistas.
Para o avanço da IA, os especialistas em aprendizado de máquina precisam de ferramentas e tecnologias para remover dados desnecessários, analisar, limpar, normalizar e corrigir os dados de treinamento. O sucesso do treinamento exigirá a extração de informações valiosas e a separação delas dos dados irrelevantes.
Atualmente, o fator limitante é a falta de dados de alta qualidade. As empresas que compreenderem isso primeiro criarão sistemas de IA que realmente funcionam, segundo a Fortune.