A rede neural YandexGPT será ensinada a reconhecer e traduzir texto de imagens, arquivos de áudio e vídeo, escreve Vedomosti com referência à descrição do trabalho de um treinador de IA publicada no site da empresa Yandex. Segundo fonte de recursos próxima à Yandex, está prevista a contratação de cerca de uma dezena de especialistas nesse perfil.
Conforme indicado na descrição do trabalho, as responsabilidades do formador incluem treinar o modelo generativo criando os seus próprios exemplos de referência, bem como avaliar a qualidade da tradução e treinar a rede neural para reconhecer e traduzir texto de imagens e vídeos.
No início de 2023, a Yandex anunciou um conjunto de treinadores de IA para modelos de treinamento da família YandexGPT, lembrou um representante da empresa. Mas se naquela época contratavam especialistas na área de humanidades que pudessem trabalhar com textos em língua russa, agora estamos falando de especialistas que se orientam em temas altamente especializados para aprofundar especificamente seu conhecimento do modelo de IA. Por exemplo, eles devem compreender a terminologia de uma variedade de campos – da física ao direito, disse um representante da Yandex.
Alexey Khakhunov, CEO da Dbrain e autor do canal AI Happens Telegram, observou que no aprendizado de máquina os critérios mais importantes são a pureza e a qualidade dos dados. Segundo Khakhunov, o treinamento de modelos modernos requer dois tipos de especialistas: neurolinguistas que sabem como funcionam as redes neurais e podem criar algoritmos modernos, principalmente traduções automáticas, e especialistas fluentes em vários idiomas, o que lhes permite criar pares entre diferentes idiomas.
Neste caso, é necessário não fazer uma tradução literal, mas sim coletar tipos de traduções semanticamente semelhantes. “As mesmas frases podem ter significados diferentes em idiomas diferentes, e é importante que o tradutor confie em um conhecimento profundo do idioma, e não em uma tradução literal”, explicou o especialista.
O especialista da Aliança de Inteligência Artificial, Andrei Komissarov, concordou com ele, segundo quem o problema é que, em um grande número de idiomas, as redes neurais fazem traduções literais porque não percebem as sutilezas da linguagem e não podem trabalhar com unidades fraseológicas. “Neste caso estamos falando de treinamento adicional do modelo. Isso requer um senso de linguagem”, observou ele.
Agora as coisas estão indo de forma diferente para as redes neurais com tradução. “Se a máquina consegue lidar mais ou menos com o idioma inglês, então, no caso do chinês, se você traduzir o texto de um lado para o outro, ele se transformará em um conjunto incoerente de palavras”, disse Komissarov.