Um algoritmo pode ser definido como um método específico de resolver um problema de aplicação definido de forma bastante estrita, definido de uma vez por todas (em particular, pelo código do programa). A incrível popularidade da inteligência artificial hoje em dia se deve, em grande medida, precisamente ao fato de que ela é capaz de resolver problemas vagamente definidos – como “identificar uma pessoa em uma multidão capturada por uma câmera de vigilância externa com recursos não mais avançados óptica baseada em um retrato tirado em estúdio”, “desenhe um gato engraçado” ou “explique o que há de errado com este pedaço de código Python”. Ao mesmo tempo, os próprios princípios de construção de sistemas de IA estão sujeitos a padrões claramente definidos, conhecidos como métodos (às vezes também chamados de algoritmos) de aprendizado de máquina (ML). Hoje em dia, todo mundo ouve falar de inteligência artificial generativa – uma forma de organizar o aprendizado de máquina, implementada em modelos e serviços populares como ChatGPT, Midjourney, Kling, etc. vista de um grande público à sombra do generativo – e será que esta situação mudará num futuro próximo?

Mesmo os melhores modelos generativos atuais nem sempre lidam com tarefas de discriminação de forma confiável. Pista para esta imagem: “Prince Crocodile encontra Pauper Alligator” (fonte: geração de IA baseada no modelo Flux)

⇡#MO? Eu?

Estritamente falando, o aprendizado de máquina pode ser considerado como uma subseção da inteligência artificial em um sentido amplo – incluindo, por exemplo, uma esfera que ainda está longe da implementação prática como uma IA “forte”, capaz de formular problemas de forma independente para si mesma e encontrar maneiras para resolvê-los. A abordagem ML não implica qualquer tipo de análise por parte do sistema informático, muito menos a consciência (seja lá o que isso signifique na aplicação à emulação computacional de uma rede neural) das ações realizadas nos dados. O aprendizado de máquina nada mais é do que a extração automatizada de padrões de uma grande variedade de dados de acordo com certas regras. Essas próprias regras, por sua vez, são determinadas pelos objetivos que os desenvolvedores deste modelo específico de ML definiram para si mesmos ao preparar um conjunto de dados de treinamento para seu treinamento.

Uma das divisões mais geralmente aceitas de problemas resolvidos por meio de ML é dicotômica, ou seja, estritamente em dois grupos: seja para classificação (distinguir por certas características) de objetos/entidades processados, ou para geração (geração – em particular, visual) de imagens digitais de tais objetos de acordo com certas pistas. Conseqüentemente, a primeira categoria ampla de modelos é chamada de discriminativa (divisão), a segunda – generativa (criativa). Contudo, se o assunto se limitasse a isto, não haveria razão especial para aprofundar a questão. É intuitivamente claro que, digamos, um modelo que classifica fotos de crocodilos e jacarés em pastas diferentes é discriminativo; o mesmo que é capaz de criar, a partir de uma sugestão lapidar, imagens fotorrealistas de um crocodilo e de um jacaré claramente distinguíveis por um zoólogo, pelo contrário, é generativo; As metas e objetivos destes dois tipos de sistemas são evidentemente diferentes: modelos discriminativos são aplicados a dados obtidos de algum lugar externo para classificá-los; generativo – pelo contrário, gerar novas informações (as mesmas fotos, vídeos, áudio) de acordo com um determinado modelo.

Relação entre aprendizado profundo, aprendizado de máquina e inteligência artificial (fonte: 365 Data Science)

Em qualquer caso, ML implica formação inicial, que se resume a escavar por um sistema informático – emulação digital de uma estrutura de rede neural mais ou menos complexa – um conjunto de dados para identificar nele determinados padrões. Identificar o que é importante de forma implícita, ou seja, sem a sua expressão explícita, passível de uma descrição harmoniosa e lógica (algorítmica). É interessante que, no cérebro vivo, a aprendizagem implícita, como foi confirmado pelos neurocientistas na prática, se baseie em processos diferentes do pensamento explícito (lógico) – e prossiga independentemente dele. Grosso modo, uma língua estrangeira pode ser ensinada de forma explícita, oferecendo palavras para memorização com suas traduções e explicando as sutilezas da sintaxe estrangeira, ou pode ser ensinada de forma implícita, pelo método de “imersão completa” em um ambiente de fala estrangeira. Ambos os métodos acabarão por conduzir, à medida que o aluno acumula uma quantidade suficiente de dados, a um resultado prático; a qualidade e a velocidade de domínio de uma língua estrangeira em cada caso serão determinadas pelas características individuais desse cérebro específico.

Dado que no seu estado actual a IA é, de qualquer forma, incapaz de raciocínio explícito, a força dos seus modelos generativos (mais precisamente, claro, seria falar de aprendizagem automática generativa, mas o termo GenAI já foi estabelecido) reside precisamente em a natureza implícita da implementação por eles de todas aquelas habilidades maravilhosas que o público em geral admira tão sinceramente há quase dois anos. A saber: criar imagens estáticas e em movimento, compor música, manter uma conversa significativa (do ponto de vista humano, isto é, informativa e emocionalmente rica) em linguagem natural, etc. não se importou, foi necessário fazer um esforço considerável para marcar (acompanhado por uma descrição de texto abrangente) os conjuntos de dados originais – aqueles, por exemplo, imagens nas quais o modelo foi treinado para converter palavras-chave em imagens visuais. No entanto, hoje houve essencialmente uma transição da clássica “aprendizagem supervisionada”, quando uma pessoa tinha que indexar pessoalmente matrizes de dados de treinamento alimentadas no modelo, para a aprendizagem auto-supervisionada, que utiliza a geração implícita de rótulos para dados não estruturados. É graças à autoaprendizagem que os modelos generativos mais avançados, a começar pelo GPT 3.5 (que se tornou a base do sensacional ChatGPT no outono de 2022), abriram horizontes antes inacessíveis para a humanidade – o que, de facto, se confirma por uma excitação considerável que não diminuiu até hoje.

Diferença clara entre modelos de ML generativos e discriminativos (fonte: Big Vision LLC)

Na verdade, a quantidade insuficiente de recursos (horas-homem) que tiveram que ser gastos na marcação manual de conjuntos de dados de treinamento atrasou por muito tempo o desenvolvimento de modelos generativos. Com o treinamento dos discriminativos utilizados para classificar entidades heterogêneas (gato – cachorro, motocicleta – carro, etc.), tudo fica um pouco mais simples: aqui basta que o operador que realiza o treinamento marque a escolha feita pelo sistema ML como correta ou incorreto, facilitando assim a recalibração por meio de pesos de feedback nas entradas dos perceptrons do modelo. A IA generativa é capaz de criar ela mesma – mais precisamente, gerar, a partir de imagens implicitamente “capturadas” – entidades bastante complexas. Uma voz sintética, por exemplo, em timbre é quase (por enquanto – quase) indistinguível daquela pertencente a uma determinada pessoa. Ou uma imagem visual da mesma pessoa, estática ou em movimento. Ou um texto escrito de uma determinada maneira e sobre um determinado tema. É claro que a produção de modelos da GenAI não é isenta de alucinações – tal é a natureza do “conhecimento” implícito. Mas os benefícios do uso de sistemas de ML de autoaprendizagem são tão significativos que aceitar conscientemente a possibilidade de eles terem alucinações em muitos casos parece um preço completamente razoável a pagar.

⇡#Sozinho, sozinho, sozinho

Já falamos sobre como o aprendizado supervisionado para um modelo discriminativo é implementado na prática em um de nossos materiais anteriores sobre o tema inteligência artificial. A entrada do sistema – grosso modo, um perceptron multicamadas – é alimentada com uma matriz de dados pré-rotulados: condicionalmente, cartões com números escritos à mão, cada um dos quais acompanhado pelo mesmo número em formato legível por máquina. O sistema passa uma imagem manuscrita pixelada por seus perceptrons e, de acordo com os pesos disponíveis em suas entradas, produz inicialmente um determinado resultado: um “palpite” sobre qual dígito lhe foi apresentado. O resultado é então (neste caso automaticamente, embora inicialmente os cartões tenham sido marcados manualmente pelo operador – isto é importante) é comparado com o valor legível por máquina de um determinado número do mesmo cartão, e se o sistema não funcionou corretamente , então através do processo de retropropagação dos pesos nas entradas de determinados Os perceptrons são ajustados algumas vezes, após o que o procedimento é repetido novamente. E assim por diante – até que uma implementação específica do modelo de ML aprenda a identificar com precisão aceitável todos os dígitos manuscritos de sua matriz de treinamento. Depois disso, você pode fornecer a ela números escritos com uma caligrafia diferente e com um estilo diferente – e com uma probabilidade bastante alta ela também os reconhecerá corretamente.

A arquitetura da rede neural profunda inclui blocos detectores de recursos e classificadores – dois em um (fonte: Big Vision LLC)

Este procedimento, de descrição simples, está de facto repleto de um número considerável de problemas – tais como, em particular, a subadaptação e a sobreadaptação (underfitting e overfitting, respectivamente). No nosso exemplo, a caligrafia da pessoa que formou a matriz de treino pode revelar-se tão pretensiosa que, tendo aprendido a identificar perfeitamente os números que escreveu, o sistema terá dificuldades consideráveis ​​em reconhecer outros exemplos. Mas, em geral, o aprendizado discriminativo supervisionado é um clássico confiável do ML: por exemplo, filtros antispam para e-mail usados ​​há muito tempo são construídos precisamente com base nesses modelos, que também, idealmente, passam por treinamento adicional contínuo sempre que o próximo usuário clica na interface do seu cliente de e-mail no ícone “Isso é spam”. Além de atribuir a entidade apresentada a categorias claramente definidas (“crocodilo – jacaré”, “três – sete – ás”), o que normalmente é caracterizado como classificação, um modelo discriminativo treinado com um professor também pode produzir valores a partir de um contínuo séries – digamos, estimar a densidade do fluxo humano (pessoas/min) na entrada de uma estação de metrô dependendo da hora do dia, data, condições climáticas, etc.; então estamos falando sobre como resolver um problema de regressão. Algoritmos apropriados são usados ​​para construir modelos de ML especializados em classificação e regressão, e encontram ampla aplicação em uma ampla variedade de aplicações práticas – em sistemas de visão computacional, por exemplo.

Contudo, como já referimos, a aprendizagem supervisionada tem uma desvantagem significativa – requer quer a presença direta de um operador junto ao sistema treinado (para lhe dizer se fez a classificação/regressão corretamente ou não em cada caso específico) ou marcação preliminar da mesma matriz de dados de treinamento. É possível treinar um modelo de ML sem professor? Sim claro; e tal procedimento – aprendizagem não supervisionada – também é implementado por vários algoritmos. As tarefas de aprendizagem não supervisionadas se enquadram em dois grandes grupos: agrupamento e redução de dimensionalidade. O agrupamento envolve a atribuição de objetos a determinadas classes – mas, diferentemente da classificação na aprendizagem supervisionada, nem o número dessas classes nem as especificidades de cada uma delas são inicialmente especificados. O ML com clustering é especialmente procurado no comércio e no marketing, pois permite, por exemplo, estratificar, por exemplo, os clientes pelos seus tipos de preferências e padrões de comportamento com boa precisão, e fazê-lo implicitamente – sem investimento considerável em análises preliminares de mercado pesquisa usando meios tradicionais. A redução da dimensionalidade está associada a problemas de arquivamento algorítmico clássicos da indústria de informática, bem como ao método de componentes principais conhecido da matemática – aqui o volume de dados de entrada aceitos pelo sistema para cálculo também é reduzido sem comprometer o resultado de sua processamento. Uma aplicação importante de modelos de ML treinados sem supervisão usando o método de redução de dimensionalidade é o pré-processamento de conjuntos de dados informativos redundantes para acelerar o desempenho de outros algoritmos de aprendizado de máquina.

A árvore de decisão é um dos algoritmos de aprendizagem supervisionada não paramétricos usados ​​para resolver problemas de classificação e regressão (fonte: Big Vision LLC)

Voltemos agora à aprendizagem auto-supervisionada (SSL), que muitas vezes é definida como uma abordagem híbrida e bastante nova para ML – usando a aprendizagem não supervisionada para trabalhar em problemas que antes eram resolvidos exclusivamente através da aprendizagem supervisionada. Em essência, a autoaprendizagem envolve a formação de um conjunto de dados rotulado pelo próprio sistema de ML para gerar sinais de feedback de reforço (sinais de supervisão), com base nos quais o modelo é treinado. Em outras palavras, ao analisar uma matriz de dados não rotulados, o próprio modelo SSL identifica recursos (rótulos) pelos quais eles podem ser ordenados e que então usam para resolver problemas de classificação/regressão.

Provavelmente, o exemplo mais inteligível de uso de SSL para treinar modelos de ML que lidam com texto (sem excluir o notório ChatGPT) é o mascaramento seletivo de palavras em frases. A matriz de dados inicial é representada simplesmente por textos obtidos em formato digital – o principal é que eles foram criados por pessoas e não por outros sistemas de ML (caso contrário, a probabilidade de alucinações na saída de um modelo treinado em tal matriz aumentará significativamente ). O modelo recebe de si mesmo como entrada sentenças com palavras omitidas seletivamente – e, passando-as por uma rede perceptron multicamadas, forma um “palpite” sobre qual palavra deve aparecer no lugar da omissão. Em seguida, ele compara o texto fonte com o gerado – e, se não houver correspondência, aplica o método padrão de retropropagação para corrigir os pesos, após o que tudo se repete novamente. Da mesma forma, você pode autotreinar um modelo, por exemplo, para desenhar no estilo de um determinado artista – neste caso, fragmentos de suas pinturas originais apresentadas na matriz de treinamento serão sombreados seletivamente – ou para compor músicas de um gênero escolhido (neste caso, os compassos individuais e suas sequências são mascarados).

⇡#Bem, não se despedace

A semelhança entre SSL e aprendizagem não supervisionada é óbvia – em ambos os casos, dados não rotulados são usados ​​para treinar modelos, de modo que a busca por padrões e conexões internas é implementada implicitamente, sem envolver classificações especificadas externamente (e especialmente verificadas pelo operador). Mas as diferenças não são menos claras: em primeiro lugar, o SSL tem poder preditivo, embora sobrecarregado pela possibilidade de alucinações. Por exemplo, uma das aplicações generalizadas de modelos de ML treinados não supervisionados é emitir recomendações aos clientes de lojas online no espírito de “Eles compram frequentemente este produto…” – uma vez que tal sistema é capaz de identificar rapidamente correlações significativas entre pares de itens diferentes em uma grande variedade de dados sobre compras concluídas, à primeira vista, itens de commodities. O uso do modelo SSL possibilita a interação interativa da máquina com cada cliente específico: se em toda a amostra, junto com o produto A, o produto B for adquirido com uma frequência significativa, mas esse usuário específico ignorou a dica dada a ele pelo sistema mais uma vez, é muito mais sensato não continuar arrombando a porta, irritando o cliente com intrusividade, e oferecer algum outro item de produto em par com A, com indicador de correlação menor – talvez essa opção funcione?

As quatro principais tarefas resolvidas pelos sistemas de visão computacional são: segmentação semântica, classificação com localização, seleção de objetos e segmentação de padrões (fonte: Wikimedia Commons)

Assim, os SSLs são semelhantes aos modelos treinados com um professor, pois da mesma forma apelam a certos princípios fundamentais para o conjunto de dados de treinamento (o termo em inglês é Ground Truth), só que não especificados por um operador ao vivo, mas selecionados a partir da entrada matriz de dados não rotulada implicitamente. A autootimização de um modelo de autoaprendizagem por meio da retropropagação de erros é realizada de acordo com os mesmos princípios de gradiente descendente em um espaço multidimensional que para modelos de aprendizagem com professor. Isso possibilita o uso do SSL para resolver problemas de classificação e regressão – e, como o modelo de autoaprendizagem busca implicitamente padrões no array de treinamento, as categorias que ele “captura” podem ou não corresponder àquelas que seriam operadas. por pessoas marcando a mesma matriz, ou visivelmente diferentes delas diferem. Esta, de fato, é uma das razões mais importantes para a incompreensibilidade da “lógica” do SSL em geral e da IA ​​generativa em particular: formalmente, o sistema detecta alguns padrões nos dados de origem e é guiado por eles em seu futuro. ações, mas não há como expressá-las de alguma forma de forma acessível. Não possui uma forma que seja perceptível ao ser humano. Pelo menos na implementação básica do SSL; anexar “módulos explicativos” a ele é uma direção separada e extremamente interessante no desenvolvimento de ML.

Um exemplo de tarefa de visão computacional para a qual o aprendizado supervisionado exige recursos proibitivamente intensivos é a segmentação de instâncias, que determina exatamente quais pixels em uma imagem pertencem a uma determinada amostra específica de um objeto. Por exemplo, em um quadro de uma câmera de vídeo de alta resolução, onde uma pessoa está contra o fundo de um carro ou de outra pessoa, para muitas aplicações é necessário determinar claramente não apenas os contornos aproximados desses próprios objetos (esta tarefa, detecção de objetos, é resolvido muito bem por modelos mais simples), mas a qual deles pertence cada ponto específico da imagem. Você pode imaginar a quantidade de trabalho necessária para a marcação manual pixel por pixel de até mesmo um quadro em Full HD, mas para formar padrões confiáveis ​​e eficazes em um modelo treinado com um professor, centenas, senão centenas de milhares desses quadros serão necessários. obrigatório. O SSL resolve esses problemas com muito mais eficiência – precisamente porque não há necessidade de envolver operadores ativos.

Técnica de autotreinamento para um modelo de semiautoaprendizagem (fonte: AltexSoft)

Também são conhecidos modelos semissupervisionados, que durante o treinamento dependem parcialmente de dados rotulados e não rotulados por humanos. Eles são frequentemente usados ​​​​quando não é razoável confiar inteiramente na autoaprendizagem: por exemplo, em sistemas modernos de reconhecimento de fala. O conjunto marcado por pessoas – gravações de áudio transcritas manualmente – para tais sistemas chega a dezenas, no máximo centenas de horas; com base nele, o modelo é treinado para traduzir a voz em texto com restrições compreensíveis – no vocabulário, na forma de pronúncia dos falantes correspondentes, etc. Em seguida, outro, já sem anotação, mais extenso é adicionado a esse array – centenas e até milhares de horas, e o treinamento continua já em modo independente. O resultado é um sistema que pode transcrever de forma bastante confiável o discurso de uma ampla variedade de pessoas sobre uma variedade de tópicos – e com um nível aceitavelmente baixo de, infelizmente, erros inevitáveis.

Um desenvolvimento natural do SSL foi a aprendizagem autopreditiva (SPL), também chamada de aprendizagem autoassociativa auto-supervisionada. Foi aproximadamente isso que disse certa vez o fundador da paleontologia e inventor do método anatômico comparativo, Georges Cuvier: “Dê-me um osso e reconstruirei o animal a partir dele”. O método SLP permite treinar um modelo de ML de forma que, a partir dos fragmentos de um determinado objeto que lhe é proposto, ele modele com suficiente grau de confiabilidade suas partes faltantes – e, consequentemente, todo o objeto. O SLP encontra aplicação mais ampla em uma variedade de modelos generativos – em particular, aqueles que são usados ​​para completar imagens (outpainting) além dos limites da tela que ocupavam originalmente. Os autoencodificadores variacionais (VAE), responsáveis ​​por “traduzir” a imagem gerada no espaço latente por modelos generativos modernos de texto para imagem em um formato gráfico legível por humanos, também se enquadram na categoria SLP. Além dos modelos autorregressivos, “preditores do futuro baseados no passado”, eles são a base de grandes modelos de linguagem como GPT, LLaMa e Claude, que são amplamente conhecidos hoje.

Ambos são bons! (Fonte: geração de IA baseada no modelo Flux)

Numa palavra, os modelos de ML discriminativos e generativos andam de mãos dadas hoje – e, estritamente falando, a esmagadora maioria das implementações mais significativas de “IA generativa” hoje são sistemas híbridos precisamente combinados. Às vezes, modelos que implementam aprendizagem por reforço (RL) são incluídos em uma classe especial – sua peculiaridade é que durante o processo de treinamento eles operam não com um conjunto de dados pré-preparados, rotulados ou não, mas diretamente com um determinado ambiente. Formalmente, há uma analogia completa com a aprendizagem supervisionada, só que o papel do professor não é aquele que aperta os botões “correto” ou “incorreto”, mas sim o próprio ambiente, que o agente (neste caso, um ML de aprendizagem por reforço). influências do sistema), recebendo feedback em troca. Bem, digamos que é o sistema RL o mais adequado para criar um jogador artificial – que receberá reforço negativo se cometer uma ação errada no jogo e seu avatar sofrer, e reforço positivo se fizer tudo certo.

Qual das áreas de ML é mais preferível para a criação de IA “real” (no sentido de forte) no futuro? Os especialistas citam tanto o RL como o SLP como os métodos mais promissores, mas a ênfase principal está nos modelos explicáveis ​​de aprendizagem automática – aqueles cuja “mentalidade” não permanecerá um mistério para os especialistas biológicos que os criam, treinam e operam. Além disso, teremos de lidar com uma série de desafios – incluindo a falta de dados para treinar novos modelos de linguagem supergrandes, a contaminação desses mesmos dados com dados “secundários” (ou seja, aqueles gerados pela IA generativa já existente), bem como possíveis dificuldades arquitetônicas: não é ilusório o risco de que a implementação virtual de modelos “fortes” de aprendizado de máquina na memória dos computadores von Neumann acabe sendo excessivamente cara – e exija uma rápida transição para sistemas de hardware neuromórficos especializados arquiteturas. De uma forma ou de outra, esta direção de desenvolvimento de alta tecnologia continuará claramente a ser uma prioridade no futuro próximo – o que significa que faz sentido esperar resultados relativamente rápidos e novas conquistas no campo da aprendizagem automática.

Materiais relacionados

  • A MTS começou a testar o “Roy 9” – aprendizado de máquina usando dispositivos de usuário.
  • O Google tornou mais fácil ensinar diferentes ações aos robôs usando o modelo RT-2 AI – as máquinas foram ensinadas a jogar lixo fora.
  • O Google disse que seus chips de aprendizado de máquina são mais rápidos e mais eficientes em termos energéticos do que o NVIDIA A100.
  • Regressão logística e as vantagens do aprendizado de máquina.
  • Os avanços na IA tornaram possível criar um “cérebro” completamente novo para robôs avançados.
  • OpenAI está quase pronto com o revolucionário AI Strawberry – ele pode planejar e raciocinar.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *