O envio de “cartas de felicidade” da Microsoft aos usuários no final de março de 2025, com uma oferta para se livrar de seus PCs atuais com Windows 10 (embora, de acordo com a StatCounter, ele ainda esteja instalado em 58% dos computadores pessoais no mundo) e finalmente migrar para o novo Windows 11 que atende aos requisitos do sistema, não encontrou, para dizer o mínimo, compreensão entre o público em geral – já que esses computadores, em sua maioria, executam suas tarefas corretamente, satisfazendo completamente seus proprietários. E eles teriam continuado a implementá-los por muitos mais anos, se não fosse o encerramento voluntário do suporte oficial para este sistema operacional “desatualizado” por seu próprio desenvolvedor. A mesma coisa aconteceu com muitas mudanças de gerações anteriores de PCs: sistemas com processadores centrais de 32 bits tiveram que ser enviados para a sucata (na melhor das hipóteses, transformados em algum tipo de reprodutor de mídia com Linux instalado) devido ao fato de que novas versões de sistemas operacionais e aplicativos familiares para eles já exigiam exclusivamente hardware de 64 bits. Quase nunca (ao longo de quase meio século de desenvolvimento do segmento de sistemas de computação pessoal) o abandono de máquinas da geração anterior ocorreu devido à sua degradação física: na maioria das vezes, apenas devido à obsolescência moral. Infelizmente, nem sempre será esse o caso: quanto menores forem os processos tecnológicos de fabricação de microcircuitos com um posicionamento cada vez mais denso de transistores, mais grave será o problema da deterioração da base de hardware dos computadores digitais — e os desenvolvedores de chips que serão fabricados de acordo com os padrões de produção de “2 nm” e até mesmo em menor escala já estão começando a pensar nisso.
Uma amostra de pré-produção do Motorola 68000, fabricado em 1979: a vida útil real de processadores semelhantes já é de mais de 45 anos (fonte: Wikimedia Commons)
⇡#Confiabilidade ou escala
No início de 2024, um correspondente da BBC descreveu com espanto e deleite a subcultura ainda existente nos EUA de usuários do lendário Macintosh, mais tarde renomeado para Apple Macintosh 128K (a parte final do nome se refere à quantidade de RAM; em quilobytes, é claro) – o primeiro computador pessoal com interface gráfica a alcançar sucesso genuíno no mercado geral, que foi apresentado ao mundo quatro décadas antes da publicação mencionada. Essas máquinas deixaram de ser produzidas em outubro de 1985, e o suporte oficial de software para elas cessou em 1998. E, no entanto, em termos de hardware, os proprietários nostálgicos praticamente não têm reclamações sobre os representantes dessa série gloriosa que ainda continuam funcionando – permitindo, por exemplo, jogar o clássico Lode Runner. O Macintosh era baseado no então não tão novo processador Motorola 68000 CISC (também conhecido como Motorola 68k, também conhecido como m68k), que foi introduzido no mercado em 1979 e continha – surpresa! — 68 mil transistores fabricados de acordo com o padrão de produção de 3,5 mícrons (sem aspas, pois são micrômetros honestos — uma indicação do tamanho característico do elemento discreto mínimo do microcircuito resultante). Portanto, um chip de quarenta anos continua a funcionar com segurança em muitos sistemas do mundo real hoje – sim, talvez não sob as cargas de computação mais severas, mas ainda muito além de qualquer período de garantia formalmente concebível. E, a propósito, do ponto de vista da engenharia, e não do ponto de vista de um leigo, isso não é tão surpreendente: “uma estrutura sem partes móveis tem menos chance de quebrar” é um princípio respeitável que provou sua validade mais de uma vez.
Tomemos agora para comparação uma das recentes obras-primas da microeletrônica, o adaptador gráfico de servidor Nvidia H100, um produto do processo tecnológico TSMC 4N – não o de “quatro nanômetros”, mas uma versão melhorada do 5N, ou seja, pertencente formalmente à classe de escala de “5 nm”. É intuitivamente claro que com uma redução no tamanho dos menores elementos semicondutores em aproximadamente três ordens decimais, de 3,5 mícrons para os convencionais “5 nm”, e ao mesmo tempo com um aumento no número de transistores em um chip – de 68 mil para 80 bilhões, aqui a diferença já é de seis ordens de grandeza com um gancho – a confiabilidade deve diminuir bastante. De fato, quando o extremista Meta* treinou seu então modelo generativo de ponta LLama 3 em um cluster de 16.384 GPUs Nvidia H100 no ano passado, o processo foi interrompido por desligamentos não programados 419 vezes em apenas 54 dias. Uma parcela significativa desses desligamentos foi causada por erros de software, falta de energia ou outros motivos não relacionados ao hardware de computação, mas 30,1% das interrupções foram causadas por falhas dos próprios processadores gráficos e outros 17,2% foram causados por falhas dos chips de memória de vídeo HBM3 que funcionam com eles. Acontece que uma vez por hora, qualquer Nvidia H100 deste cluster tinha 0,02% de chance de falhar justamente por causa de uma falha interna da microeletrônica da GPU ou da RAM no nível dos componentes semicondutores básicos.
GPU de servidor Nvidia H100 no módulo SXM5: o tempo real de operação sob cargas extremamente altas provavelmente não excederá dois ou três anos (fonte: Nvidia)
A partir disso, por estimativa aproximada, verifica-se que, após apenas dois anos e meio de operação, cada adaptador gráfico de servidor desse tipo tem uma chance de “queimar” com uma probabilidade formal de quase 100% – o que, aliás, é bastante consistente com as práticas geralmente aceitas de data centers corporativos para substituir hardware altamente carregado pelo menos uma vez a cada 3-5 anos, mesmo que não mostre nenhum sinal óbvio de degradação (embora recentemente tenha havido uma certa tendência de estender esse período para 6, até 8 anos – por razões de economia financeira, sem muita consideração pela qualidade do trabalho do hardware que completa seu ciclo de vida). Confirmando indiretamente essa avaliação está a conclusão da IDC de que o desempenho de um servidor típico em um data center médio diminui em 14% após cada ano completo de operação. É claro que treinar IA é uma tarefa que exige muitos recursos, mesmo quando comparada à inferência do mesmo modelo generativo. Mas, considerando que uma única Nvidia H100 custa aos clientes de US$ 25.000 a US$ 40.000, fica muito mais claro por que as assinaturas da IA em nuvem mais atraente e rica em recursos são tão caras. Os provedores desses serviços são forçados a recuperar seus investimentos em hardware o mais rápido possível para que ele possa gerar lucro líquido (menos o custo de eletricidade e outras despesas associadas) para eles por pelo menos alguns meses depois disso, até que ele falhe ou reduza seu desempenho a um nível inaceitável devido à degradação natural de seus componentes semicondutores.
Se a questão se limitasse apenas aos chips de computação, seria possível, de alguma forma, suportar o envelhecimento acelerado da microeletrônica semicondutora: os clientes estão comprando esses mesmos chips de servidor Nvidia como se fossem pão quente; entendendo que mesmo com seu preço de atacado extremamente alto e tempo médio relativamente curto entre falhas, ainda será possível retornar tais investimentos com lucro – pelo menos até que o entusiasmo global em torno da IA comece a diminuir. Mas para microcircuitos usados fora da indústria de TI – controladores em todos os tipos de sensores industriais, carros inteligentes, robôs transportadores, etc. – os chamados padrões de produção maduros, “22 nm” e mais, ainda são típicos. Essa abordagem permite economias (os equipamentos para produzir esses chips já se pagaram há muito tempo, e há muito mais deles no mundo do que máquinas EUV de alta NA e, portanto, a concorrência também é evidente – os preços são mantidos em um nível baixo) e fornece aos controladores industriais uma durabilidade obviamente aceitável.
O eixo horizontal mostra a escala convencional dos nós de produção de semicondutores na direção da redução; O eixo vertical mostra os projetos de transistores típicos para os processos tecnológicos correspondentes, os comprimentos de onda operacionais das fotolitografias, os diâmetros dos blocos de wafers e outras características tecnológicas (o uso de exposição múltipla, a transição para o projeto de chips auxiliado por computador e a introdução de portas de transistor com um dielétrico de porta feito de um material com uma constante dielétrica estática maior que o dióxido de silício). A linha vertical marca o nó “22nm”, a partir do qual o custo de fabricação de um único chip parou de diminuir – e até começou a aumentar – à medida que os processos tecnológicos continuaram a miniaturizar-se (fonte: Semiconductor Engineering)
⇡#Muito pequeno para estragar
De acordo com Kevin Lucas, arquiteto sênior da Synopsys, conhecida fabricante americana de equipamentos de teste e medição para a indústria de semicondutores, desde os tempos antigos até aproximadamente o desenvolvimento da tecnologia de processo de 28 nm, o custo da fotolitografia de uma única pastilha de silício em branco com a transição para cada novo estágio de miniaturização cresceu de 25 a 30%. Mas, ao mesmo tempo, o número de chips criados em cada placa aumentou aproximadamente duas vezes, de modo que o ganho final no custo de um microcircuito individual (após o corte e a embalagem em uma caixa com contatos para posterior instalação) foi de 20-25%. Infelizmente, por volta da marca de 20 nm – 22 nm, esse padrão deixou de se aplicar: desde então, mudar para padrões de produção em escala cada vez menor apenas aumenta o custo de um único chip (e o chip em si, é claro, é mais produtivo e energeticamente eficiente, então, para seus usuários finais, o ganho ainda é óbvio – mas agora estamos falando especificamente sobre produção). Consequentemente, o número de clientes — desenvolvedores de chips que podem se dar ao luxo de projetar microcircuitos em miniatura, com a expectativa de então fazer pedidos de parceiros especializados em fotolitografia e depois vender no mercado aberto uma quantidade suficiente desses produtos a um preço considerável para recuperar seus custos — também está diminuindo.
«Se considerarmos a tecnologia de processo de 3 nm, esses chips serão necessários hoje para dois, talvez três clientes no mundo, confidenciou Michael Cy Wang, vice-presidente adjunto da UMC, uma fabricante taiwanesa de chips de segunda linha, em meados de 2024. — De acordo com os padrões “7 nm”, a demanda já está sendo criada por 5 a 10 empresas. Mas se estamos falando de “22” ou “28” nm, então há muitas dezenas de pessoas que querem isso.” Portanto, processos em larga escala não vão se tornar história: por exemplo, microcontroladores de potência (CI de gerenciamento de energia, PMIC) para veículos elétricos ainda são produzidos usando tecnologia de 130 nm e até 180 nm, e para vários sensores semicondutores, padrões de produção de 150 e até 180 nm não são incomuns. Sim, há uma mudança gradual no interesse dos clientes desses chips em direção a nós mais modernos – bem, como os modernos; 90, 55, 40 nm; às vezes até “22 nm” é registrado pelos fabricantes de chips, mas no momento não é muito ativo. É caro e, na grande maioria dos casos, desnecessário – especialmente considerando a impressionante vida útil de microcircuitos em larga escala sem burnout. Em 2021, quando a transição em massa para o trabalho remoto provocou um aumento acentuado nos gastos com TI em todo o mundo, houve uma escassez aguda de chips produzidos usando processos tecnológicos maduros, e hoje a necessidade deles ainda é grande.
Por que eles envelhecem – eles perdem suas propriedades originais com o tempo; o termo em inglês “envelhecimento de chips” – microcircuitos semicondutores? O problema do envelhecimento dos chips começou a atrair atenção no final do século passado. Naquela época, teóricos e profissionais da fabricação de chips tiveram que lidar com vários fenômenos parasitas inéditos que afetavam diretamente o funcionamento dos transistores de micrômetro. À medida que os nós de produção foram miniaturizados abaixo do limite de escala de 1 mícron, a dissipação de calor dentro do cristal semicondutor, a migração de elétrons entre seções individuais de circuitos de silício litografados, a interferência prejudicial entre barramentos de sinal adjacentes (acoplamento de interconexão) — e, claro, o envelhecimento do semicondutor — começaram a se fazer sentir. Em algum lugar até o limite tecnológico de 180 nm, o envelhecimento na prática quase não era perceptível, já que devido a esse efeito, durante a operação dos dispositivos semicondutores, suas propriedades não tinham tempo de mudar visivelmente.
A ionização por impacto cria novos portadores de carga em um semicondutor (fonte: Wikimedia Commons)
Mas então a física de partículas entrou em ação — ou melhor, os efeitos no nível de átomos e elétrons individuais começaram a se tornar perceptíveis demais para serem ignorados. Em 1974, Robert H. Dennard, da IBM, que aliás é creditado pela invenção da memória DRAM — memória dinâmica de acesso aleatório baseada em semicondutores — e seus colegas publicaram um artigo fundamental sobre o design de MOSFETs implantados em íons com dimensões físicas muito pequenas. Ele formulou os princípios mais importantes de escala proporcional (para baixo, é claro, de micrômetros para nanômetros) de estruturas semicondutoras; ou seja, com a preservação dos tamanhos relativos dos vários componentes do transistor, ao mesmo tempo em que reduz seus comprimentos lineares – assumindo a constância do campo elétrico que é criado entre a fonte e o dreno da carga e, de fato, faz o trabalho de mover a carga através da comporta quando esta é aberta. Durante muito tempo, a miniaturização dos processos de fabricação de semicondutores foi realizada de acordo com a “lei de Dennard”: uma redução proporcional de todas as dimensões lineares de um transistor em k vezes reduzia os valores de tensão em sua estrutura (no gate, no dreno e no limiar), e a capacitância elétrica do gate e a intensidade da corrente de operação nas mesmas k vezes.
Entretanto, após passar para a região de dimensões características menores que 130 nm, ficou claro que é impossível reduzir a tensão de operação abaixo de aproximadamente 1 V: caso contrário, a diferença de potencial na porta do transistor aberto e fechado acaba sendo muito pequena, ou seja, não é possível distinguir os estados “lógico 0” e “lógico 1” com um alto grau de confiabilidade (especialmente necessário para cálculos de streaming rápido). Que são codificados, recordemos novamente, no caso da eletrônica semicondutora, não por alguns estados discretos de algumas estruturas, mas simplesmente por diferentes valores de intensidade de corrente em uma determinada seção do circuito elétrico. A largura excessivamente pequena do canal do transistor acaba sendo um obstáculo insuficiente para os portadores de carga individuais, que conseguem penetrar esse obstáculo mesmo com a porta fechada, formando a chamada corrente de fuga. É por essa razão que a tensão de operação (no dreno) do transistor ligado deve ser alta o suficiente para distinguir de forma confiável seus estados com a porta fechada e aberta. E assim, em algum momento entre o final da década de 1990 e o início dos anos 2000, a “lei de Dennard” aplicada foi um pouco ajustada, de modo que a corrente de operação do transistor parou de diminuir com a escala e começou a ser determinada pela tensão de alimentação, independentemente das dimensões geométricas dos elementos semicondutores desse mesmo transistor.
Linha do tempo da miniaturização de padrões de processo na vanguarda da microeletrônica: é claro que os intervalos entre o desenvolvimento dos processos de 350 nm e 40 nm, por um lado, e 40 nm e “5 nm”, por outro, são bastante comparáveis – cerca de 12 anos (fonte: TSMC)
⇡#Nada engraçado
Uma das consequências diretas dessa mudança no que é quase o dogma fundamental da microeletrônica foi o aumento da intensidade do campo elétrico — sob a influência do qual os portadores de carga dos elétrons se movem entre a fonte e o dreno — ao mesmo tempo em que reduz a largura da porta. Assim, se essa largura estiver abaixo de um certo limite, a velocidade do elétron que passa pelo transistor será tão alta que, no final do caminho, ele não ficará simplesmente em órbita com um dos átomos da rede cristalina, na qual a posição correspondente está livre (substituindo assim o “buraco”), mas receberá uma chance substancialmente diferente de zero de tirar outro elétron de sua órbita, ionizando assim o átomo neutro. O resultado dessa ionização por impacto é a criação de um novo par elétron-lacuna. Se tal evento ocorrer na espessura do próprio canal de condução, não é um grande problema; o número de portadores de carga aumentará temporariamente, e isso é tudo. Outra questão é o limite entre a superfície do cristal de silício e a porta do transistor CMOS feito de óxido de silício. As cargas parasitas que se acumulam nessa fronteira interrompem o processo normal de passagem de elétrons e lacunas pelo canal de condutividade sob o portão e, em áreas com condutividade n e p, essa interrupção do equilíbrio elétrico tem um efeito diferente, dificultando sua compensação linear no nível de todo o microcircuito como um todo (aumentando sua tensão operacional, por exemplo).
Como a ionização por impacto é um processo amplamente aleatório (um elétron excessivamente acelerado atinge um átomo previamente neutro da rede cristalina apenas com uma certa probabilidade), ela é descrita por métodos estatísticos cumulativos. Já em 2000, quando o processo tecnológico mais avançado do mundo era considerado 150 nm, engenheiros de microeletrônica em atividade estimaram a vida útil média de um transistor típico antes da degradação perceptível (ou seja, até o estado em que a corrente que passa por ele com a porta aberta diminui devido ao envelhecimento do semicondutor para 10% do valor original) em apenas cinco meses, observando tristemente que uma década e meia antes disso, qualquer envelhecimento perceptível de cristais semicondutores na prática começou a se manifestar bem depois de 10 anos do início de sua operação.
Como você pode imaginar, o efeito NBTI é mais prejudicial aos chips de memória, especialmente se eles tiverem que armazenar valores por um longo período – expondo assim seus elementos semicondutores à exposição prolongada ao que é essencialmente uma voltagem estática (fonte: Synopsys)
A razão que descrevemos para o envelhecimento de dispositivos semicondutores devido à degradação de sua estrutura interna sob a influência de elétrons de alta energia – injeção de portadora quente (HCI) – é, infelizmente, apenas uma de um número considerável de possíveis; Acontece que os pesquisadores foram os primeiros a perceber isso. Outro efeito desagradável que causa o envelhecimento dos semicondutores é a instabilidade de temperatura de polarização negativa (NBTI); Isto é, em essência, uma diminuição na tensão limite dos transistores, especialmente p-MOS, sob a influência de um campo elétrico relativamente forte aplicado a eles por um longo tempo. A ruptura dielétrica dependente do tempo (TDDB) também é uma característica não muito agradável dos semicondutores, em particular do dióxido de silício (SiO2): aqui, campos elétricos fracos e de ação prolongada têm um efeito parasita na estrutura do meio pelo qual os portadores de carga se movem. Acontece que não importa o que você faça com um transistor miniaturizado para os tamanhos típicos da nossa época, não importa a quais campos você o exponha, fortes ou fracos, ele se esforça obstinadamente para se degradar – e quanto mais intensos os cálculos dos quais ele tem que participar, mais cedo ele atingirá esse objetivo duvidoso.
A situação é agravada pelo fato, que não é muito agradável para os pesquisadores, de que é muito difícil detectar o envelhecimento dos semicondutores em tempo hábil, de fato, para cada chip individual (em vez de prever o período de sua operação aceitável com base em estatísticas acumuladas), já que no nível do software um grande número de erros é suavizado por algoritmos de correção. Retirar um chip de um servidor em execução para fazer um raio-X e descobrir qual proporção das dezenas de bilhões de transistores que o compõem foi irremediavelmente degradada é uma tarefa francamente irrealista. Algoritmos de correção, que funcionam literalmente em todos os níveis, começando com a pilha interna de comandos do processador, tornam possível suprimir com sucesso manifestações precoces e até mesmo tardias do envelhecimento – até que o número de erros gerados pelo sistema degradante se torne muito grande.
A relação simples de “quanto mais quente o semicondutor, mais rápido ele envelhece” permite que os projetistas de chips projetem novos chips para colocar circuitos mais redundantes em áreas mais suscetíveis à degradação ao longo do tempo (fonte: Ansys)
A natureza estatística do envelhecimento dos semicondutores torna possível combatê-lo de uma forma bem conhecida pelos engenheiros: aumentando a redundância. Já na fase de projeto em sistemas de automação de projeto eletrônico (EDA), uma certa margem de segurança é construída, ou seja, transistores inicialmente redundantes que serão úteis no devido tempo, durante o processo de degradação ativa. A situação com os chips multicamadas que estão na moda hoje em dia é complicada por problemas adicionais com dissipação de calor das camadas intermediárias, mas, obviamente, a redundância no design será uma solução aceitável neste caso. Pode não ser particularmente elegante do ponto de vista da engenharia, mas é bastante eficaz.
Em conexão com os problemas de envelhecimento – que, lembremos, começaram a se manifestar de forma realmente penosa para engenheiros de microeletrônica somente dentro dos limites dos padrões de produção de 100 nm – o recente e ousado comunicado à imprensa sobre a criação da primeira fotolitografia russa projetada para a produção de microcircuitos usando tecnologia de 350 nm parece completamente diferente: muitos especialistas e entusiastas do setor de TI sorriram com indulgência – mas em vão. O problema não é apenas que máquinas dessa classe não são produzidas no país há décadas; portanto, era necessário cuidar do treinamento do pessoal necessário, do estabelecimento de uma cooperação industrial complexa e da formação de um mercado de vendas (porque, como já explicamos, já existem muitos fornecedores de microcircuitos de 350 nm no mundo). O mais importante — do ponto de vista de atingir padrões tecnológicos mais reduzidos — é que um processo tecnológico francamente maduro para os padrões atuais nos permitirá depurar completamente a abordagem geral da fotolitografia de semicondutores, sem nos distrairmos com a enorme pilha de problemas que começam a vir à tona à medida que os padrões de produção são reduzidos.
Em outras palavras, a longo prazo, é muito mais sensato não comprar/licenciar uma tecnologia estrangeira pronta, digamos, de “20 nm”, sem ter, de fato, qualquer experiência de interação com ela, mas dominar sua própria tecnologia de 350 nm quase do zero, começando pelos desenvolvimentos soviéticos, e então passar para uma de menor escala, resolvendo novos problemas emergentes ao longo do caminho, depois de ter lidado com os antigos no estágio anterior, e assim por diante. O Centro de Nanotecnologia de Zelenograd (ZNTC), que desenvolveu uma máquina de 350 nm em colaboração com a empresa bielorrussa Planar, pretende, aliás, lançar uma fotolitografia de 130 nm em 2026. Os pioneiros mundiais, recordemos, percorreram o mesmo caminho em cinco anos, de 1996 a 2001. É verdade que, para atingir a meta estabelecida pelo governo russo – dominar a tecnologia de processo de 28 nm até 2027 – será necessário acelerar: a mesma TSMC começou a produzir microcircuitos de 130 nm em 2001 e atingiu a marca de 28 nm apenas em 2011. E os engenheiros de microeletrônica russos também terão que descobrir em ritmo acelerado como neutralizar o envelhecimento inevitável dos semicondutores; caso contrário, os chips produzidos em litografias nacionais não poderão se comparar em termos de vida útil real, mesmo com raridades de 15 anos.
⇡#Materiais relacionados
A Canon parece ter aproveitado o ressurgimento das câmeras digitais compactas nas redes sociais e…
A startup Dig Energy desenvolveu uma sonda de perfuração a jato d'água que pode reduzir…
A startup Alterego revelou “o primeiro dispositivo vestível do mundo com capacidades quase telepáticas”. Segundo…
A SoftBank Corporation anunciou o desenvolvimento de um novo rack para servidores sem cabos. Isso…
A Microsoft está trabalhando na correção de um bug que faz com que seu serviço…
A desenvolvedora de baterias de estado sólido QuantumScape e a fabricante de baterias do Grupo…