A essência do processo físico de destilação é a separação de uma mistura de substâncias, cada uma das quais em sua forma pura é caracterizada por seu próprio ponto de ebulição. Em termos gerais, quando o cubo de destilação é aquecido até um certo limite, os compostos químicos com ponto de ebulição abaixo desse limite permanecem ali, enquanto aqueles com ponto de ebulição mais alto saem pelo tubo na forma de vapor e depois condensam no balão receptor. A substância volátil destilada dessa maneira, sendo liberada das frações de baixo ponto de ebulição da mistura, torna-se mais concentrada – e age (se tiver alguma ação bioquímica) de forma mais eficaz; Veja, por exemplo, a miniatura clássica do filme do diretor Gaidai, “Moonshiners”.
A destilação de modelos de IA (destilação de modelos, também chamada de “destilação de conhecimento”) também se resume a reduzir o volume do modelo original descartando tudo o que é desnecessário. Em outras palavras, o que exatamente não é necessário para resolver um determinado problema determina como esse procedimento será realizado — e do que a versão destilada do modelo original será capaz. Apenas uma certa parte do conhecimento que o modelo tinha inicialmente e que foi codificado na forma de pesos nas entradas dos perceptrons que o formam é transferida da fonte para o destilado. O resultado, na maioria das vezes (embora isso dependa do conjunto de dados de treinamento, é claro), é um agente de IA altamente especializado, mas extremamente econômico em termos de requisitos de sistema, e um conjunto efetivamente organizado de tais agentes é capaz de demonstrar resultados às vezes não piores do que uma fonte incômoda e que consome muitos recursos (ao que parece, o que o DeepSeek tem a ver com isso, cujos desenvolvedores eram suspeitos de “roubo de dados” – na verdade, na destilação não autorizada de modelos OpenAI por meio de uma API pública). E, aparentemente, a destilação se tornará uma direção extremamente popular para melhorias futuras de modelos generativos em um futuro próximo – simplesmente porque os métodos usuais de sua operação, à medida que aumentam em volume, parecem ser uma questão excessivamente cara em todos os aspectos.
Destilar modelos não é fundamentalmente um negócio complicado (fonte: ResearchGate)
⇡#Estude, estudante!
A história da destilação de IA remonta a um artigo de pesquisadores da Universidade Cornell, intitulado simplesmente “Model Compression”, que descreveu como um modelo de linguagem então massivo, formado por centenas de classificadores de base, foi usado para treinar outro modelo que era “milhares de vezes mais compacto e rápido” e, no final das contas, teve o mesmo desempenho. O procedimento de treinamento em si era um aprendizado supervisionado clássico, exceto que o modelo que estava sendo treinado não era verificado em relação a algum conjunto de dados de referência compilados por pessoas, mas em relação às respostas que um grande modelo de linguagem dava às mesmas perguntas. Dessa forma, a informação foi transferida de um modelo grande e complexo (“professor”) para um pequeno e rápido (“aluno”). Essa abordagem foi aprofundada e desenvolvida em outro trabalho clássico na área, Distilling the Knowledge in a Neural Network, criado por funcionários do laboratório do Google em Mountain View, Califórnia.
A destilação pode ser realizada em duas variantes fundamentalmente diferentes: na primeira, mais direta, o treinamento é realizado até que o aluno aprenda a reproduzir com alta precisão as melhores (já na opinião das pessoas que controlam o processo) respostas do professor às perguntas feitas. Isso, é claro, nos permite substituir quase completamente um modelo grande por um pequeno ao processar consultas sobre um determinado tópico. No entanto, reduz drasticamente a variabilidade das respostas, o que pode ser inaceitável em muitas situações. Outra opção para destilação é treinar o aluno a reproduzir todo ou quase todo o intervalo de respostas possíveis para uma pergunta disponível para o professor (distribuição de saída do professor). Nesse caso, a similaridade máxima entre os modelos de linguagem pequenos e grandes é alcançada (novamente, dentro da estrutura de um determinado tópico), mas um aluno treinado dessa maneira geralmente consumirá mais recursos. Os modelos destilados são usados com mais frequência quando o poder de computação do dispositivo, ou o tempo (as respostas devem ser obtidas com o mínimo de atraso), ou ambos, são insuficientes para executar modelos originais completos.
Como a destilação é realizada tecnicamente? A primeira etapa envolve a preparação de um grande modelo inicial; seu treinamento clássico em uma ampla e diversificada gama de dados – com a obtenção de um nível de qualidade das respostas que seja aceitável para uso prático. Qualidade significa uma probabilidade extremamente alta de gerar uma resposta correta às perguntas que estão sendo verificadas e, ao mesmo tempo, uma porcentagem extremamente baixa de alucinações. Um modelo tão bem treinado – como a prática dos últimos três anos da fase ativa da revolução da IA demonstra claramente – requer mais recursos, tanto de hardware quanto de energia, quanto mais ampla for a área de competência da IA generativa criada da maneira descrita.
Uma ilustração do trabalho pioneiro “Model Compression” mostra o quanto a escolha do algoritmo para geração de dados sintéticos (e eles são usados, não há escapatória se os operadores não tiverem dados reais suficientes para treinar o modelo do aluno) afeta a precisão dos resultados produzidos pelo modelo destilado: aqui True dist é a distribuição condicional das respostas geradas pelo modelo do professor, e as outras três imagens mostram os resultados do modelo do aluno após o treinamento em dados sintéticos gerados aleatoriamente (Random) ou usando os algoritmos NBE e MUNGE (fonte: Cornell University)
Para entender exatamente como o conhecimento acumulado por um modelo maior é transferido para um menor, teremos que retornar aos conceitos básicos de aprendizado de máquina que já discutimos. Lembremos que os BNMs modernos são implementados principalmente por redes neurais multicamadas densas, em cada um dos perceptrons é realizado um procedimento geralmente trivial do ponto de vista matemático – uma soma ponderada de sinais que chegam a todas as suas entradas. Se o perceptron irá gerar ou não seu próprio sinal de saída é determinado por sua função de ativação. Existem muitas variantes conhecidas dessas funções e, para diferentes camadas de uma rede profunda (e às vezes para diferentes áreas em uma única camada), são usadas diferentes funções de ativação — aquelas que são mais adequadas para resolver um determinado problema específico. Em particular, quando é necessário classificar um objeto — isto é, dar uma certa probabilidade do que exatamente é representado na rede neural apresentada a partir de uma lista fixa de opções (um gato, um cachorro, um vombate ou um hidrante) — a função “máximo suave”, softmax, é usada.
Para não escrever aqui longas explicações de fórmulas assustadoras com frações e expoentes, vamos formulá-las em palavras: na entrada, o softmax aceita um conjunto de parâmetros representados por números reais – convencionalmente, esses são apenas os sinais de saída da última camada oculta de uma rede neural profunda – e na saída ele atribui uma certa probabilidade a cada um deles: de modo que a soma de todas as probabilidades seja igual a um. Acontece que cada objeto reconhecido por tal rede neural será atribuído a uma das categorias fixas com uma certa probabilidade (digamos, “gato” – 4,7%, “cachorro” – 0,3%, “vombate” – 74,2%, “hidrante” – 20,8%), com base na qual o modelo generativo fará seu julgamento final. E sim, não há necessidade de se ofender se a imagem apresentada para reconhecimento tiver algum tipo de toutinegra ausente no classificador de trabalho – esse é o problema das pessoas que compilaram e marcaram a matriz de treinamento, e não do modelo em si.
Portanto, a função softmax funciona como uma convolução dos resultados do processamento de dados de entrada da rede neural em uma distribuição de probabilidade que permite classificar um objeto por um campo discreto de parâmetros de saída. Os resultados da aplicação do softmax são geralmente chamados de “rótulos rígidos”, e o vetor de entrada de valores não normalizados (ou seja, aqueles cuja soma não é igual a um ou 100%) gerados pela última camada oculta da rede neural é chamado de logit ou “rótulos suaves” (soft targets, soft labels). As duas opções de destilação mencionadas acima se resumem ao fato de que o modelo do aluno recebe como material de treinamento “rótulos rígidos” gerados pelo modelo do professor (grosso modo, operadores-treinadores terceirizados alimentam uma infinidade de solicitações por meio da API do BNM de outra pessoa e passam as respostas recebidas para seu próprio — futuro — pequeno modelo destilado) ou os logits das respostas para cada pergunta feita. No segundo caso, obviamente, os operadores precisam acessar diretamente o “interior” do modelo do professor, mas, como resultado, o modelo do aluno aprende a distribuição de probabilidade completa (não normalizada!) do modelo original de acordo com seu classificador de trabalho, também conhecido como dicionário, os mesmos “rótulos suaves”.
A fórmula para normalizar um vetor de K números reais usando a função softmax não é tão complicada (fonte: Wikimedia Commons)
⇡#Espaço para otimização
Por que “marcas suaves” são melhores que “marcas duras”? Ao receber “rígido”, o modelo do aluno constrói correspondências estritamente um-para-um entre os dados de entrada e os de saída: nesta imagem – um vombate, o Volga – deságua no Mar Cáspio, o carvalho – uma árvore, etc. Em muitos casos, isso é muito bom (e reduz drasticamente a frequência de alucinações ao responder perguntas que implicam algum conhecimento preciso), mas para resolver problemas criativos, na maioria das vezes é categoricamente inaceitável: a diversidade visual dos mesmos vombates, retratados por um modelo destilado de forma “rígida”, inevitavelmente se revelará extremamente escassa. Mas o acesso a “rótulos suaves” dá ao modelo do aluno uma imagem mais completa de como o modelo do professor toma uma decisão específica, uma vez que as probabilidades são preservadas: esta imagem, finalmente classificada como um “vombate”, era 20% semelhante a um hidrante, e esta era até 35%. Como resultado, o modelo destilado solidifica, durante o processo de treinamento, relações mais sutis entre as características de classificação dos objetos que estão sendo processados - e isso permite, por sua vez, produzir respostas de maior qualidade (na opinião de um operador vivo) às solicitações a ele endereçadas.
De fato, é aqui que a descrição da destilação como tal poderia ser concluída — de um ponto de vista teórico. Mas então começa a parte mais interessante: a prática. Essa tecnologia de “compactificação” do BNM foi inventada e é amplamente implementada (especialmente amplamente hoje, após o incrível entusiasmo que surgiu em torno do DeepSeek) não por um desejo puramente acadêmico de dominar algo novo e interessante, mas por razões bastante mercantis: modelos destilados são capazes de produzir resultados obviamente aceitáveis com eficiência ordens de magnitude maior do que os originais em tamanho real. É claro que não há como escapar dos custos do treinamento inicial dos BYAMS de tamanho real, mas sua execução (inferência) também exige muitos recursos e, em hardware fraco como um smartphone, é quase impossível. Com exceção de modelos extremamente modestos em termos de número de parâmetros, é claro, mas hoje em dia, em essência, ninguém mais se interessa por eles: qual o sentido de receber respostas pouco convincentes e confusas de um pequeno modelo que está sendo executado localmente, se um grande está disponível no mesmo smartphone via nuvem – que literalmente contará um conto de fadas divertido e cantará uma música que ele compôs na hora?
Comparação de diferentes abordagens para destilar modelos de IA, listadas no topo da figura e marcadas com cores diferentes nos gráficos: A destilação de conhecimento generalizado vence neste caso (fonte: Google DeepMind)
Por isso, ultimamente os pesquisadores têm se esforçado cada vez mais para otimizar o próprio processo de destilação — e em duas direções ao mesmo tempo: para criar modelos ainda mais compactos, o mais próximo possível dos modelos de tamanho real em termos de qualidade de saída. Para isso, são utilizados diferentes métodos: por exemplo, é possível transmitir ao modelo do aluno não o logit completo da resposta do professor a cada questão, mas apenas algumas posições máximas dela (ou seja, apenas opções com probabilidade que exceda um certo limite). E então – se nos limitarmos, por exemplo, a apenas 5% do comprimento de cada logit (representado, lembramos, como um vetor composto de números reais) – a quantidade de memória necessária para treinar o modelo do aluno será reduzida essencialmente vinte vezes.
Outra oportunidade para otimizar os custos de destilação é fazer uma escolha inteligente entre abordagens de rótulos rígidos e alvos flexíveis. O primeiro é obviamente mais econômico, pois envolve a transmissão apenas de pares binários de perguntas e respostas para o modelo do aluno. Além disso, desenvolvedores que não são excessivamente moralistas podem usar a API de um concorrente como um professor para seu modelo destilado sem pedir permissão formal (embora ainda paguem pelo acesso). No final, a legislação relativa aos direitos de propriedade intelectual no campo da IA é francamente grosseira, mesmo nos EUA, que ainda continua sendo o líder mundial neste campo, e mesmo que o fato de tal empréstimo de um recurso de treinamento seja revelado (especialmente se esse empréstimo for transfronteiriço), é improvável que os desenvolvedores do BYAM, que se tornou um professor involuntário, tenham quaisquer reivindicações legalmente formalizadas contra o aluno “treinado ilegalmente”. Outra coisa é que no mundo atual em rápida desglobalização, tal empréstimo de ideias de máquinas sobre este mesmo mundo da IA generativa do campo de um rival geopolítico pode sair pela culatra para operadores excessivamente ágeis, mas este tópico vai muito além do escopo da questão em discussão.
O treinamento com alvos suaves, por sua vez, é vantajoso por ser mais rápido, já que o modelo do aluno simplesmente requer menos dados (ou mais precisamente, menos transferências de dados) – afinal, em resposta a cada solicitação, ele recebe imediatamente todo o logit, “pensado” para ele pelo professor. Uma vantagem adicional e menos óbvia dessa abordagem é a erosão da confiança categórica do modelo destilado em sua própria correção, que às vezes transparece em diálogos com a IA. Tendo aprendido com uma ampla amostra que cada pergunta pode ser respondida de diversas maneiras, cada uma com probabilidades diferentes, o aluno-modelo começará a formular suas próprias conclusões com mais cuidado e delicadeza, permitindo diferentes interpretações e até mesmo dando opções que se contradizem se suas probabilidades forem próximas. A desvantagem óbvia da abordagem de alvos suaves é que a necessidade de recursos de computação durante o processo de treinamento é várias vezes, ou até dezenas de vezes, maior do que no caso de rótulos rígidos.
Diferentes abordagens de destilação requerem técnicas diferentes (fonte: ResearchGate)
Entretanto, ambas as abordagens têm uma desvantagem comum significativa, que se manifesta já no estágio de execução do modelo destilado treinado. Lembremos que durante a aprendizagem clássica, o BNM compara suas próprias respostas com a amostra proposta pelos operadores, ajustando os valores dos pesos nas entradas de seus perceptrons. O modelo destilado é, na verdade, treinado para selecionar, em resposta ao prompt do usuário, a outra resposta mais apropriada — fornecida por uma rede neural muito mais complicada, mas também superior. Uma vez concluído esse treinamento, o modelo destilado é forçado a lidar não com perguntas especialmente selecionadas, mas com o que seus usuários inserem na caixa de diálogo – e pode haver qualquer coisa lá, desde palavras que são simplesmente desconhecidas para o sistema (que simplesmente não receberam nenhum token durante o processo de treinamento) até erros gramaticais e estilísticos/erros de digitação/desleixo, às vezes simplesmente tornando a entrada ruidosa e, às vezes, capaz de mudar drasticamente o significado da solicitação (como devemos considerar a frase “onde encontrar asas para um velho moscovita” – como uma proposta para esboçar uma sinopse de um romance no estilo de fantasia urbana ou como um pedido de ajuda para escolher um mercado de pulgas de carros?).
Essa discrepância entre o treinamento e as consultas reais, que o modelo destilado simplesmente não foi ensinado a lidar sozinho (já que foi treinado, enfatizamos mais uma vez, para corresponder as respostas de outra IA a uma amostra limitada de consultas), é chamada de “viés de exposição” e é combatida de uma forma completamente óbvia – estabelecendo feedback entre o aluno e o professor. No âmbito desta abordagem, o modelo do aluno fornece respostas às perguntas do conjunto de treinamento, mas nem sempre as compara com as de referência fornecidas pelo professor: às vezes, essa tarefa é confiada ao modelo do professor. A avaliação dessas respostas independentes é usada para ajustar os pesos da rede neural do aluno, de modo a, finalmente, chegar a uma determinada avaliação obviamente alta do professor, mantendo ao mesmo tempo uma amplitude suficiente de variabilidade em suas respostas (o método de destilação baseado em uma política determinada externamente; destilação dentro da política).
Hoje, a destilação parece ser uma direção extremamente promissora no campo da IA generativa, uma vez que os requisitos de energia e hardware dos modelos mais interessantes do ponto de vista do usuário final há muito ultrapassaram todos os limites razoáveis, incluindo (e especialmente) no estágio de seu uso direto. Os algoritmos usados nisso estão sendo constantemente aprimorados – basta mencionar a destilação adversarial, a destilação multiprofessor, a destilação baseada em gráficos, a destilação multimodal, etc. E quanto mais durar a alta intensidade da paixão pela inteligência artificial, maior será a probabilidade de que modelos destilados sejam implantados nos próximos anos em PCs de IA locais, smartphones de IA e até mesmo elementos de IA da casa inteligente, reduzindo assim a carga na infraestrutura de nuvem e, de fato, tornando possível tornar um aspirador de pó robô, uma empilhadeira de armazém autônoma ou uma cafeteira verdadeiramente inteligentes. Mas por que exatamente uma cafeteira realmente inteligente pode ser necessária em uma casa, mesmo com IA destilada a bordo, é um tópico para uma conversa completamente diferente.
Materiais relacionados
O presidente dos EUA, Donald Trump, prometeu aos representantes de grandes empresas de TI resolver…
O artista Leo Torres continua a recriar locais familiares do RPG de fantasia cult The…
Em maio deste ano, a FCC deixou claro que considerava as atividades dos laboratórios de…
Pode-se ter a impressão de que na holding chinesa Geely, as marcas Volvo e Polestar…
A próxima apresentação da Apple, chamada Awe Dropping, acontecerá no campus Apple Park em Cupertino,…
A empresa holandesa Nebius, formada após a separação dos ativos russos da Yandex, estabeleceu um…