Por que precisamos de chiplets ou como dar nova vida à “lei de Moore” além de 3 nm

Para chips modernos, a densidade característica de colocação de elementos básicos de circuitos integrados (transistores) já ultrapassou 200 milhões por 1 mm2. Em si, isso é extremamente grande – e não está totalmente claro como aumentar ainda mais essa densidade sem entrar em conflito com as leis da física. Além disso, o aumento constante no número de transistores – mais ou menos uniforme de acordo com a “lei” (na verdade, uma profecia autorrealizável) de Gordon Moore – leva a um aumento desproporcionalmente rápido nos custos indiretos de fabricação. Um pouco mais – e a indústria simplesmente não pode pagar. Algo deve ser feito, e com urgência!

Os chips compostos são projetados hoje não apenas em duas, mas já em três dimensões (fonte: Intel)

⇡#Prazer caro

Na época do triunfo da tecnologia de processo “28 nm” – como a mais avançada e em miniatura da época – o custo total do desenvolvimento do VLSI de acordo com esses padrões de produção (ou seja, o custo total, desde o licenciamento da microarquitetura até a validação a amostra de pré-produção acabada) foi, segundo a IBS, um pouco mais de 51 milhões de USD. É claro que esse é um valor médio para o mercado: ficou muito mais barato projetar e colocar em operação algum tipo de controlador de rede; CPU ou GPU do servidor – visivelmente mais caro.

O custo do desenvolvimento completo de um novo VLSI, milhões de USD, depende do ritmo de produção escolhido para o seu fabrico. Em cada coluna, os componentes dos custos são destacados em cores, de baixo para cima: reconciliação dos direitos de propriedade intelectual (incluindo a aquisição das licenças necessárias), desenvolvimento da arquitetura, verificação de seu desempenho, hardware para desenvolvimento, pagamento pelo software usado em seu curso, prototipando-se, validação do protótipo finalizado (fonte: IBS)

Com a transição para a tecnologia de processo “7 nm”, os mesmos procedimentos no total subiram de preço para quase 300 milhões de dólares, e no caso de “5 nm” já exigem investimentos no valor de cerca de 550 milhões. Para uma média condicional, lembramos, microcircuitos. Se falamos do mais relevante hoje “3 nm”, então a aposta nesses padrões de produção implica, de acordo com os mesmos analistas da IBS, custos absolutamente incompreensíveis para todo o ciclo de desenvolvimento – até US $ 1,5 bilhão no caso do GP .

A crescente complexidade do VLSI se manifesta, por exemplo, no fato de que é simplesmente impossível projetar manualmente a colocação de bilhões de transistores. Para isso, há muito se utiliza software especializado, extremamente complexo em termos algorítmicos. Além disso, deve ser garantido que esteja pronto para funcionar imediatamente após a implantação nas estações de trabalho dos projetistas de engenharia. O preço do erro aqui é muito alto: receber um patch do desenvolvedor que corrige um descuido infeliz depois que uma fotomáscara cara foi feita com base em um projeto errôneo é um consolo duvidoso. É por isso que o software para o desenvolvimento de microcircuitos a cada nova etapa da miniaturização do processo técnico (e, conseqüentemente, o aumento da densidade dos transistores na superfície do microcircuito) fica cada vez mais caro.

O crescimento do investimento na construção de fábricas de microprocessadores operando em padrões de produção cada vez mais miniaturizados, embora não tão dinâmico quanto o aumento no custo do design do chip, não está mais na casa das centenas de milhões, mas na casa dos bilhões de dólares (fonte: McKinsey)

Da mesma forma, com a transição para padrões tecnológicos cada vez mais compactos, os custos tanto para verificar o design criado por esse software quanto para validar protótipos de futuros VLSI seriais, ou seja, verificar se suas características funcionais reais correspondem às calculadas, crescem de maneira semelhante. A propósito, na fase de produção comercial, é preciso gastar muito tempo e dinheiro para identificar nós defeituosos em uma placa em branco que acabou de ser litografada, até golpes de Schaeffer não funcionais. Essa tarefa em termos de intensidade de trabalho é bastante comparável ao processo de fabricação de tal placa.

Em uma palavra, nem todo fabricante de chips do planeta é capaz de pagar equipamentos para fabricar chips de acordo com “5 nm” e mais padrões tecnológicos em miniatura, mas nem todo desenvolvedor fabless tem fundos suficientes para design funcional – de um esboço preliminar a formação de um pacote completo de documentação enviado ao fabricante do chip para atendimento do pedido – tais chips.

Do ponto de vista econômico, o crescimento muito rápido nos custos dos desenvolvedores e fabricantes de microcircuitos é extremamente desvantajoso para o mercado. Se uma empresa jovem e ambiciosa não tiver a oportunidade de investir US$ 1,5 bilhão no projeto de um novo chip, ela não competirá com os monstros microprocessadores de fato que formam um oligopólio – e esses, por sua vez, não terão incentivos para reduzir o custo de seus desenvolvimentos que se tornaram muito complicados.

A pesquisa da McKinsey mostra que quanto maior a carga média de pedidos das fábricas de microprocessadores, mais rápido é atingido o ponto de equilíbrio (break-even point, quando os custos de organização da produção são exatamente compensados ​​pelas receitas), mesmo na ausência de subsídios governamentais ( fonte: McKinsey)

Como resultado da manutenção de preços altos para produtos acabados (e na ausência de concorrência, por que deveriam diminuir?), o fluxo de pedidos de VLSI de acordo com os padrões de produção mais recentes diminuirá, reduzindo a receita de desenvolvedores e fabricantes de microcircuitos. Isso, por sua vez, diminuirá o retorno sobre os investimentos de capital feitos tanto pelos fabricantes de chips em novos equipamentos quanto pelos projetistas fabless no desenvolvimento de chips avançados.

Assim, os ciclos de miniaturização dos processos técnicos serão inadmissivelmente alongados, e a “lei de Moore” será ameaçada com outra reedição em nova edição. Desta vez, em vez do anterior “dobrar o número de transistores no processador atual mais avançado uma vez a cada 18 meses”, e posteriormente “… uma vez a cada 24-36 meses”, ele se auto-realizará com um ritmo como “. .. uma vez a cada 48-60 meses”, se não mais.

A indústria global de semicondutores hoje é excessivamente centralizada – quase ao ponto de um oligopólio: as cinco principais empresas desse setor em termos de receita anual média para 2015-2019. superou os 249 restantes (existem cerca de 380 deles no planeta, mas nem todos têm dados disponíveis) no total (fonte: McKinsey)

Esse problema é de natureza sistêmica: uma nova redução nos padrões de produção ainda é possível (para 2027, a Samsung Electronics já agendou o início da produção em massa de VLSI de “1,4 nm”, por exemplo), mas está se tornando cada vez menos lucrativa economicamente .

Ao mesmo tempo, a necessidade de um aumento constante no desempenho dos microcircuitos, mantendo aproximadamente suas dimensões físicas, não desapareceu: é formado ativamente por áreas promissoras da indústria de alta tecnologia como realidade mista, 6G e altamente autônomo Internet industrial das coisas. Já surgiram protótipos funcionais de controladores de rede para redes de fibra ótica, capazes de alternar fluxos de dados com densidade superior a 1,8 Pbps – e não há dúvida de que processadores prontos para gerar esses fluxos também começarão a ser produzidos em massa em breve.

A abordagem planar-unitária para o desenvolvimento de novos VLSI, em que regiões separadas de um único cristal semicondutor executam tarefas diferentes, está se tornando história (fonte: NVIDIA)

Isso é familiar para nós hoje, unitário planar (no sentido de colocar todos os seus elementos básicos, transistores, no plano de um único cristal semicondutor), esse tipo de chip, provavelmente, não será. E eles provavelmente serão compostos (vários chips planares separados com barramentos de interconexão de alta velocidade dentro de um único pacote – chamados de “chiplets”) ou de vários andares (várias camadas de transistor eletricamente conjugadas uma acima da outra) ou algumas combinação dessas duas abordagens (estamos falando de o DSA – arquitetura específica de domínio; Cada uma dessas opções merece uma consideração cuidadosa separada e começaremos com o chiplet VLSI – felizmente, hoje essa área já está bastante desenvolvida.

⇡#Peças de microeletrônica

À primeira vista, o significado econômico da transição de um chip unitário para um conjunto de minichips (chips) menos funcionais, eletricamente e logicamente conectados, montados sob a capa de um pacote comum, não parece óbvio. Pelo contrário: a história do desenvolvimento, por exemplo, de smartphones mostra que apenas a substituição de VLSI díspares (um processador separado, um controlador de memória separado, display, etc.) em um sistema em um chip tornou possível reduzir o custo de produção de montagem, reduzir os requisitos para o volume ocupado por dispositivos lógicos – e, em geral, contribuiu para o progresso neste setor do mercado de TI.

Os sistemas unitários em um chip são especialmente adequados para a fabricação de dispositivos ultracompactos, como esses biossensores subcutâneos de tamanho centimétrico desenvolvidos na EFPL suíça – Escola Politécnica Federal de Lausanne (fonte: EFPL)

Tudo é assim: um cristal semicondutor multifuncional unitário é realmente bom para todos – no final, quando já foi fabricado, testado, encontrado adequado e colocado dentro de um determinado gadget. Mas obter tal cristal não é uma tarefa trivial e torna-se mais difícil quanto menor for a tecnologia de processo usada para fabricar o VLSI.

Apenas um exemplo: o principal fabricante de chips americano, dominando a tecnologia de processo “Intel 7” (nee conhecido como “10 nm”), de acordo com a TrendForce, ainda não – até o final de outubro de 2022 – fez nenhum progresso no aumento da participação de rendimento VLSI de uma placa litografada acima de 55-60%. Como resultado, o início em massa de remessas de chips de arquitetura Sapphire Rapids já foi de fato deslocado do quarto trimestre planejado anteriormente. do ano corrente “para o primeiro semestre” (nem mesmo o primeiro trimestre!) de 2023.

Photomask (retículo) em um substrato de vidro de quartzo quadrado de 6 polegadas usado em litografia de wafer usando os processos de 14nm e 10nm da Intel (fonte: Intel)

Se permanecermos no quadro do paradigma planar-unitário, não será possível evitar os monstruosos gastos de capital para o desenvolvimento de processos técnicos cada vez mais diminutos. Uma forma extensa e, ao que parece, a mais óbvia – aumentar a área do cristal colocando sobre ele mais elementos semicondutores fabricados de acordo com os padrões tecnológicos anteriores – não está mais disponível para os fabricantes de chips, pois eles já Trabalho com fotomáscaras (retículas) de formato extremamente grande com área de pouco mais de 800 mm2.

O padrão em branco no qual a fotomáscara é formada é uma placa quadrada de quartzo com um lado de 6 polegadas – aproximadamente 152 × 152 mm – embora a área realmente usada para formar a imagem nela seja um pouco menor. Mas depois da máscara, a radiação dentro do caminho óptico da litografia passa por um sistema de lentes (ou espelhos, no caso do processo EUV) que repetidamente reduzem a imagem, resultando na projeção da imagem original sobre a peça de trabalho é significativamente reduzida – a um retângulo com lados de apenas 26 × 33 mm (858 mm2).

Fotomáscara reflexiva para litografia EUV dentro de um fabricante de chips (fonte: TNO)

As dimensões exatas da projeção final são ditadas pelas propriedades óticas do sistema de lentes ou espelhos por onde se propaga a luz que expõe a peça de trabalho: se a máscara for muito grande, muita distorção aparecerá em suas bordas. Os dispositivos EUV mais recentes com abertura numérica aumentada (high-NA) são forçados a lidar com projeções de fotomáscara ainda mais miniaturas – 26 × 16,5 mm – devido aos recursos de um sistema óptico muito mais sofisticado com anamórfico (não axissimétrico) do que para o unidades de primeira geração. ) lentes.

É por isso que os engenheiros de microeletrônica são forçados a procurar maneiras não extensivas de aumentar o número de transistores dentro de um único microprocessador. E a transformação de tal processador, antes integral, em composto acaba sendo quase o menor dos males.

Módulo multichip – módulo multichip, MCM – mainframe IBM System z10, produzido em 2008-2011. (fonte: IBM)

Sim, neste caso, há uma necessidade urgente de organizar um barramento de alta velocidade e ultraconfiável entre os chiplets que formam um único sistema – caso contrário, a eficiência de seu trabalho mútuo diminuirá significativamente em comparação com a colocação dos mesmos elementos na superfície de um cristal monolítico. Mas do ponto de vista econômico e tecnológico – benefícios sólidos.

Mais chiplets em miniatura e altamente especializados são mais fáceis de fabricar (inclusive em diferentes empresas, o que pode contribuir para sua redução adicional de custo) e mais fáceis de testar. Além disso, é fácil montar VLSIs compostos de desempenho e funcionalidade diferentes a partir de chipsets correspondentes a um determinado padrão unificado, como se fossem cubos de design, economizando dinheiro no desenvolvimento de soluções de microprocessador de nicho.

Uma ilustração clara de quão benéfica é a transição de um VLSI monolítico para um conjunto de chiplet: horizontalmente – a área do microcircuito em milímetros quadrados, verticalmente – o rendimento (rendimento) de bons microcircuitos em% de seu número total marcada na placa em branco. Pode-se ver que quanto menor a área de um chip individual, maior o rendimento: se para um VLSI com área de 360 ​​m2. mm este indicador é de cerca de 15%, então para quatro chiplets equivalentes a ele (levando em consideração a tolerância técnica para o corte) aproximadamente 100 sq. rendimento mm, outras coisas sendo iguais, já estará no nível de 37% (fonte: WikiChip)

Não é por acaso que a conhecida agência americana DARPA iniciou o programa CHIPS em 2017 – não confundir com o CHIPS Act, uma iniciativa legislativa aprovada pelo Congresso dos EUA em meados de 2022 e destinada a facilitar o retorno do chip- fazendo indústrias para o solo americano. As instituições que participam do programa CHIPS incluem diversas instituições como fabricantes de chips clássicos (Intel, Northrop, Micross, UCLA), desenvolvedores de chiplet (Ferric, Jariet, Micron, Synopsys, University of Michigan) e desenvolvedores de software de design VLSI (Cadence and the Institute de Tecnologia da Geórgia).

O acrônimo CHIPS é revelado como Common Heterogeneous Integration and IP Reuse Strategies – “estratégias para integração heterogênea geral e reutilização de propriedade intelectual” (IP significa apenas propriedade intelectual neste caso – significando o licenciamento separado de chiplets por seus desenvolvedores). A principal tarefa aqui é superar o limite do retículo atingido nas máquinas litográficas devido a um processo essencialmente oposto ao que levou ao surgimento dos systems-on-a-chip. Ou seja, a desmontagem de um chip que continua a funcionar como um todo único em elementos fisicamente separados, cada um dos quais é projetado, fabricado e verificado separadamente.

⇡#Faces da desagregação

A indústria global de microprocessadores chegou perto de perceber a necessidade de uma transição rápida para os chiplets, talvez não antes do memorável ano de 2020 – no entanto, isso não se deveu à recessão na economia global provocada pelo coronavírus, mas à conquista dos fabricantes de chips de um limite tecnológico bem definido. “Quando as pessoas começaram a trabalhar em tecnologia de processo no exterior em 3 nm, isso gerou muita discussão que resultou em investimento maciço em muitos chiplets, ou basicamente desagregação de sistema em um chip”, é como o diretor-chefe de gerenciamento de produtos da Cadence de Vinay Patwardhan.

O custo de fabricação de chips em termos de 1 sq. mm obtido na saída de VLSI adequado (apenas adequado!) Para um cristal semicondutor condicional de 250 quadrados. mm, litografado de acordo com padrões de produção em constante declínio, está se tornando cada vez mais caro. Este custo unitário é baseado na tecnologia de processo de 45nm (Fonte: AMD)

Existem várias maneiras de dividir o microcircuito inicialmente sólido em blocos lógicos de tamanho mais compacto e fáceis de fabricar. A classificação proposta pelos desenvolvedores da Synopsys divide as abordagens para projetar chips compostos em quatro grandes grupos:

  • Dimensionamento de sistemas em um chip (escala SoC); a implementação prática mais conhecida dessa abordagem é a arquitetura AMD Ryzen. Núcleos de processador ou blocos funcionais maiores (CPU die) são projetados e implementados como chiplets compatíveis, que são fáceis de combinar dentro de um único pacote, dependendo da tarefa: um desses blocos será suficiente para um processador móvel, dois para estações de trabalho de alto desempenho , para resolver tarefas sérias do servidor – oito. O conceito de SoCs escaláveis ​​é especialmente bom quando aplicado a sistemas usados ​​para aprendizado de máquina.
  • Separação de sistemas em um chip (split SoC); a solução mais direta para o problema do limite do retículo. Se o VLSI projetado for muito pesado – embora seu tamanho não repouse nem no limite físico da projeção da fotomáscara na peça de trabalho, simplesmente por causa da alta densidade de elementos funcionais complexos, o processo de fabricação é acompanhado por um rendimento inaceitavelmente baixo de chips adequados – faz sentido cortá-lo, grosso modo, em vários fragmentos, cuja troca de dados não será difícil de organizar na velocidade adequada por meio do barramento de interconexão interno.
  • Agrupamento funcional (funções agregadas); na verdade, a implementação da ideia de chiplets, que é incorporada pela agência DARPA ao programa CHIPS. Cada chiplet nesta abordagem é um cluster especializado que agregou (incorporou) uma ou outra funcionalidade particular de todo o sistema como um todo. Podem ser funções gerais de computação (CPU), processamento gráfico (GPU), controle de E / S para conexões de rede, etc. Os barramentos internos de alta velocidade die-to-die (D2D) são organizados entre esses clusters e os próprios clusters fazem não precisam ser executados de acordo com as mesmas normas tecnológicas – em contraste com a abordagem de SoC dividido, por exemplo. Se a agregação da função de processamento de sinal de rádio for bem tratada pelo chip “16nm” ou mesmo “28nm”,
  • Criação de funções internas e periféricas (central desagregada e I/O); em certa medida, a redução da ideia de agregação funcional VLSI a dois blocos fundamentalmente diferentes em propósito e estrutura – o central (onde as informações recebidas são processadas com o resultado destinado à tradução externa) e entrada-saída de dados. Apenas interfaces de E/S de alta velocidade, como serializadores / desserializadores (SerDes) para redes de 100 Gb / s, são muito piores do que os somadores e outras unidades de computação, prestam-se à miniaturização: o padrão de fabricação tecnológica “28 nm” para eles é quase ótimo, já é possível atingir uma alta porcentagem do rendimento de SerDes adequados “16 nm” e “7 nm” com considerável dificuldade, enquanto é extremamente difícil transferi-los para “5 nm” e menos .
  • Uma classificação visual de microcircuitos compostos por tipo (fonte: Synopsys)

    Na verdade, o conceito de separar as funções internas e periféricas de um sistema semicondutor foi implementado muito antes da própria ideia de chiplets. Afinal, a “ponte norte” lembrada por muitos como parte de chipsets em placas-mãe de PC de um passado não tão distante apenas assumiu a interface da CPU com o subsistema de memória e periféricos e, ao mesmo tempo, foi feita de acordo com muito menos progressivo padrões tecnológicos do que os centrais interagindo com eles.

    É claro que a solução de um problema (limite do retículo), como costuma acontecer na engenharia, instantaneamente dá origem a outro, a saber, a necessidade de fornecer interconexões confiáveis ​​e de alta velocidade (D2D) dentro do chip composto. Felizmente, esta tarefa é bastante solucionável hoje – pelo menos, o preço de sua solução é significativamente menor do que o investimento esperado em um aumento significativo na área de projeção da fotomáscara na peça semicondutora.

    A “ponte” inter-chip EMIB é uma pequena camada de silício entre microcircuitos conectados e/ou barramentos externos, densamente pontilhada com contatos microbumps (fonte: Intel)

    Além disso, o desenvolvimento de D2D eficiente acabou sendo tão promissor e relativamente fácil de alcançar que foi adotado em paralelo – e alcançou a meta com sucesso – por uma seção de várias das principais empresas de semicondutores do mundo. E isso por si só se torna um problema: as interfaces de interconexão de chiplet implementadas hoje são em sua maioria proprietárias, o que as torna obviamente incompatíveis. Intel tem EMIB (ponte de interconexão multi-die incorporada), AMD tem Infinity Fabric, NVIDIA tem NVLink, Qualcomm tem Qlink e, aparentemente, isso é apenas o começo. Por exemplo, desenvolvedores da China continental, constantemente cortados por novas sanções do Departamento de Comércio dos EUA do principal caminho de desenvolvimento de tecnologias de microprocessador, quase certamente assumirão (se ainda não tiverem iniciado) o desenvolvimento de sua própria interface D2D.

    No entanto, mesmo que houvesse um padrão universalmente reconhecido para interconectar microcircuitos compostos planares internos no mundo, o empacotamento de chiplets em um pacote comum – incluindo as dimensões exatas dos pentes de contato (mais precisamente, “saliências” de contato quase hemisféricas) e os tamanhos de chiplets individuais – não é padronizado no nível industrial. O que, por sua vez, torna extremamente difícil montar hipoteticamente um chip composto a partir de componentes fabricados independentemente em diferentes empresas.

    Desenvolvido em 2020 pelo centro de pesquisa francês CEA-Leti, um conjunto de processadores de 96 núcleos e 6 chiplets com 3 Tbps por milímetro quadrado de largura de banda interchiplet. D2D “ponte” com um atraso de sinal não superior a 0,6 ns por 1 milímetro linear (fonte: CEA-Leti)

    Do ponto de vista de desenvolvedores individuais e/ou fabricantes de chips, isso é bastante justificado: por que diabos eles deveriam compartilhar propriedade intelectual com concorrentes? Mas, lembremos novamente, para a indústria de microprocessadores como um todo, a transição para a próxima etapa tecnológica custa cada vez mais caro – por razões técnicas bastante objetivas. E quanto mais dinheiro puder ser economizado nesse caminho (inclusive por meio da implementação de padrões abertos unificados), mais cedo será possível retornar os investimentos investidos em novos equipamentos.

    Mas sem seu retorno e lucro, não será possível para empresas comerciais – fabricantes de chips e desenvolvedores fabless – dar o próximo passo, mais uma vez confirmando a lei de Moore com todas as estipulações, por mais significativo que seja o apoio fornecido a eles no nível estadual. Isso significa que um padrão de chiplet unificado – ou pelo menos reconhecido por todos os líderes da indústria – está fadado a aparecer.

    ⇡#Olá do mundo dos cubos

    A padronização do barramento de comunicação intracomputador, PCIe, oferece liberdade considerável em termos de escolha de componentes individuais para resolver vários problemas – qualquer pessoa que já trocou um adaptador gráfico em um PC de mesa ou adicionou uma unidade M.2 a um slot vazio em um laptop placa-mãe pode atestar isso. Uma liberdade semelhante para desenvolvedores de chips baseados em chiplets deve ser fornecida pelo padrão UCIe – Universal Chiplet Interconnect Express – atualmente existente na versão 1.0. As organizações que trabalham nessa especificação e estão prontas para implementá-la em seus produtos futuros incluem AMD, Arm, Intel, Qualcomm, Samsung Electronics e TSMC.

    O padrão UCIe é necessário para desenvolver e promover chips compostos verdadeiramente heterogêneos baseados em um ecossistema chiplet aberto (Fonte: UCIe Consortium)

    O principal objetivo de padronizar o barramento D2D para garantir a interação entre os chiplets indica diretamente a criação de um amplo ecossistema – com vistas até mesmo para algo como um mercado B2B – que permitiria a qualquer tarefa do cliente, não importa quão estreita, montar um conhecido -chip composto viável a partir de componentes unificados disponíveis. O princípio é exatamente o mesmo de qualquer construtor infantil de cubos (e partes de uma forma mais complexa), apenas a interface UCIe desempenha o papel de pinos e cavidades compatíveis garantidos.

    A largura de banda fornecida por esta interface depende das tarefas resolvidas por chiplets específicos. Para o subpadrão UCIe 1.0 básico, pode variar de 28 a 224 GB / s por 1 mm de comprimento de barramento físico, para uma versão mais rápida (avançada) – de 165 a 1317 nas mesmas unidades. Lembre-se de que o padrão PCIe versão 4.0 fornece 16 Gt / s (gigatransfers por segundo – significando a transferência de informações “brutas”, com todos os bits de serviço e controle) para um único canal, o que equivale ao throughput máximo de dados úteis um pouco menos de 2 GB/s.

    Uma das vantagens mais importantes do UCIe é a interface de blocos funcionais independentes (mas correspondentes a este padrão, é claro) para vários propósitos na forma de chiplets (fonte: UCIe Consortium)

    A latência típica para PCIe em distâncias características de distâncias entre chiplets atinge 20 ns, enquanto para UCIe 1.0 é uma ordem de magnitude menor. A eficiência da transferência de dados – a energia gasta na transferência de um bit – no caso do subpadrão UCIe 1.0 básico é declarada no nível de 0,5 pJ (picojoules), a versão avançada é de 0,25 pJ / bit, o que também é mais do que uma ordem decimal melhor do que para PCIe.

    O ideal que os fabricantes de chips e desenvolvedores fabless que suportam UCIe estão buscando implica apenas um agrupamento funcional de funções executadas por chiplets – além disso, em um corte bastante pequeno, se assim posso dizer. O objetivo é minimizar deliberadamente o custo de cada bloco individual, permitindo que os desenvolvedores selecionem a combinação apropriada de chiplets, correspondendo funcionalmente a quase qualquer VLSI monolítico arbitrariamente complexo.

    Processador EPYC composto de 64 núcleos (fonte: AMD)

    No nível da lógica de operação, praticamente não haverá diferença entre microcircuitos integrais e compostos – graças à alta largura de banda e baixa latência do UCIe – e o projeto de engenharia e a produção de chips baseados em chiplets obviamente ficarão mais baratos. De acordo com representantes da AMD, que realmente implementou a tecnologia chiplet na primeira geração de processadores Zen (instalando de 4 a 8 núcleos Zeppelin em CPUs de desktop, até 32 em servidores), cada processador monolítico de 32 núcleos custaria 70% a mais do que um composto.

    No entanto, da mesma forma, a eficiência econômica da fabricação de chiplets em máquinas litográficas é significativamente maior do que para VLSI monolítico (se estivermos falando de produtos finais com um número comparável de transistores). Tomemos, por exemplo, um momento extremamente desagradável, mas inevitável, como a formação de transistores defeituosos e / ou condutores conectando-os a circuitos lógicos durante o processo litográfico.

    O protótipo Ryzen 9 5900 apresentado na Computex 2021 incluía até mesmo chips de cache 3D V-Cache L3 integrados verticalmente (fonte: AMD)

    Durante a inspeção no final do processo de produção, áreas defeituosas são identificadas e bloqueadas: se, por exemplo, um ou mais núcleos do processador estiver completamente inoperante, tal CPU geralmente é classificada como menos produtiva e é vendida, respectivamente, mais barata. Mas, neste caso, o fornecedor recebe pelo menos algum lucro, enquanto a densidade criticamente alta de defeitos na seção não duplicada do circuito semicondutor (digamos, na área reservada para a memória cache) pode levar à rejeição completa de tal VLSI . Uma perda total!

    A tecnologia de chip, devido à completa intercambialidade de clusters funcionais, se não remover completamente o problema de um rendimento não 100% de bons chips de cada wafer, então, em grande parte, o elimina. Para a fabricação de cada processador composto ou outro circuito, chiplets obviamente operáveis ​​são inicialmente selecionados e exatamente no sortimento necessário neste caso específico. E como o número de transistores em cada chiplet não é muito grande para os padrões modernos, e a parcela do rendimento de VLSI adequado desse tipo de um wafer em branco será maior do que para chips enormes unitários planares, e a validação de cada chiplet exigirá menos tempo.

    Microfotografias de fragmentos da “ponte” EMIB D2D (no diagrama na parte superior da figura há uma estreita faixa cinza na espessura do substrato sob os chiplets Die1 e Die2): a distância entre saliências adjacentes conectando os chiplets e o substrato é de 55 μm, entre pinos mais grandes, por meio dos quais o processador composto interage com o soquete (soquete), – 130 mícrons (fonte: Intel)

    Além disso, um chiplet com falha pode, em princípio, ser substituído. Sim, será um pouco mais difícil do que reinstalar a placa de vídeo em um PC de mesa; exigirá equipamentos especiais e, possivelmente, a participação direta do fabricante do chip ou de um centro de serviço por ele autorizado, que possua pessoal com qualificação adequada. Mas isso leva o mercado VLSI a um nível totalmente novo, fazendo uma revolução nele, semelhante à que outrora elevou os PCs “compatíveis com IBM” a uma altura inatingível por outras arquiteturas – fechadas – concorrentes.

    Além disso, o que é importante, nada ameaça os desenvolvimentos proprietários dos principais designers fabless do mundo: ninguém tirará seu direito de criar seus próprios nós lógicos protegidos por patente verdadeiramente únicos. É que hoje, ao projetar seus sistemas em um chip, alguns Apple ou Qualcomm são forçados a integrá-los repetidamente (além dos desenvolvimentos inovadores reais) nós universais estabelecidos há muito tempo quase perfeitos: controladores de memória , controladores de entrada e saída, etc. A tecnologia chiplet permitirá que os desenvolvedores se concentrem na criação de VLSI verdadeiramente progressivo, envolvendo a implementação de funcionalidades padrão criadas paralelamente por outras empresas, mas unidades obviamente compatíveis.

    ⇡#A heterogeneidade é benéfica

    Ao projetar seus chips compostos Zen de primeira geração, os desenvolvedores da AMD aplicaram os padrões de fabricação “14nm” pela primeira vez na história da empresa. A transição para o Zen 2 foi logicamente acompanhada por uma reorientação para a tecnologia “7 nm”, a mais avançada da época dominada pelo atual líder da indústria de chips – a empresa taiwanesa TSMC. No entanto, no processo de dimensionamento do sistema Zeppelin em um chip, que desempenhou com tanto sucesso seu papel nos chips Xen de primeira geração, descobriu-se que uma redução formal na norma de produção pela metade não leva a um diminuição dupla na área do chiplet acabado. Em vez disso, o chip “7nm” será apenas cerca de 28% menor que o “14nm”.

    Renderização 3D de um chip composto, que pode conter, entre outras coisas, chiplets heterogêneos em termos de padrões de fabricação (fonte: Intel)

    A razão para este aparente paradoxo é bastante simples: os elementos lógicos VLSI, os próprios traços de Schaeffer e os circuitos constituídos por eles, são regularmente reduzidos de tamanho pela metade com uma dupla miniaturização do processo técnico. Mas esses elementos não ocupam mais do que 56% da área total do núcleo do Zeppelin. Todo o resto recai sobre os já mencionados SerDes, DDR PHY e outras interfaces físicas que conectam o chiplet com seus dispositivos periféricos.

    É aqui que reside o principal problema: como as dimensões externas de tais interfaces são estritamente especificadas pelas dimensões lineares dos pentes dos contatos correspondentes, não faz sentido reduzir as dimensões físicas dos transistores que garantem sua operação no nível do processador lógica. Ou seja, é possível reduzi-lo, mas você terá que deixar grandes lacunas entre eles (pelos padrões de uma tecnologia de processo reduzida pela metade), o que no final quase anula os benefícios de mudar para um novo padrão de produção mais progressivo .

    O sistema em um chip Zeppelin contém dois clusters de computação com quatro núcleos Zen e cache L3 cada, que escalam de “14 nm” a “7 nm” muito bem, enquanto outros elementos são interfaces SerDes Infinity Fabric On-Package ( IFOP ), Infinity Fabric InterSocket (IFIS), Server Controller Hub (SCH), etc. – não é mais tão bom (fonte: AMD)

    Além disso – mais: ao passar para “5 nm” e processos técnicos menores, como mostra a prática, as células de memória SRAM (formando o cache do processador) não escalam tão bem quanto os golpes de Schaeffer, dos quais as portas lógicas e estruturas computacionais maiores do A própria CPU é montada. Segundo a própria TSMC, a mudança da norma tecnológica N7 (“7 nm”) para N5 (“5 nm”) leva a uma redução da área ocupada por elementos lógicos na superfície do substrato de silício em cerca de 1,8 vezes, ocupada por células SRAM – por 1, 35 vezes e com estruturas analógicas – apenas 1,2 vezes. Isso significa que a distância entre os elementos semicondutores ativos nos dois últimos casos escala muito pior do que as dimensões desses próprios elementos.

    Pode parecer que a redução não muito impressionante da área do chip durante a transição para um processo técnico mais miniatura não seja o problema mais sério: afinal, o VLSI ainda está ficando menor do que antes, mesmo que apenas 30% , e não pela metade, o que significa que tais microcircuitos em uma bolacha de peça de trabalho em qualquer caso, será mais do que no estágio tecnológico anterior. Mas aqui, novamente, é impossível não levar em consideração considerações econômicas, uma vez que a produção de chips é uma empresa comercial.

    A tecnologia de chip permite combinar livremente blocos funcionais heterogêneos em um chip composto, dependendo de sua finalidade (fonte: AMD)

    O custo de organizar a produção em série de microprocessadores de acordo com padrões de produção cada vez mais diminutos está crescendo significativamente a cada estágio. Isso pode ser julgado pelo menos pelo aumento impressionante dos preços das máquinas litográficas correspondentes e, além deles, os fabricantes de chips precisam em cada estágio de detectores de falhas mais caros, por exemplo, e o assunto também não se limita a eles. Como resultado, se uma mudança no padrão tecnológico garantir uma redução dupla na área VLSI (e, portanto, o dobro do rendimento de bons chips de um wafer), isso é mais ou menos aceitável em termos de compensação de custos. Quando um processo de fabricação que pelo menos dobrou de preço torna possível obter apenas um terço a mais de cavacos de cada peça de trabalho, isso inevitavelmente mergulhará o fabricante de cavacos em perdas diretas.

    A propósito, até agora foi tacitamente implícito que os custos de produção de semicondutores não diretamente relacionados à mudança no processo tecnológico permanecem inalterados no custo por longos períodos de tempo, mas isso está longe de ser o caso. A fotolitografia EUV é muito mais intensiva em energia do que a DUV, e os preços da energia no mundo de hoje mostram uma clara tendência de alta.

    Além disso, os próprios wafers de silício estão aumentando constantemente de preço: de acordo com especialistas do China Times, fabricados na primavera de 2022, até 2024, o preço de um wafer de 12 polegadas nas entregas no atacado ultrapassará a marca de US $ 200 por unidade para o primeira vez na história, tendo aumentado a partir de agora os valores reais em 20-25%. E esta, prestemos atenção, é a previsão de março, que não levou em conta o forte aumento da inflação industrial nas economias mais desenvolvidas do mundo, que não pode mais ser ignorado neste outono.

    Com a tecnologia de processo de 3 nm, a situação é ainda mais complicada: se no TSMC a transição de N7 para N5 garantiu uma redução na área de seções lógicas de microcircuitos em no máximo 1,87 vezes, então a mudança de N5 para N3, como esperado já em 2020 (mesmo antes do lançamento efetivo de novas linhas) levará a uma queda menor neste parâmetro – em 1,7 vezes. De fato, no final de 2021, quando o trabalho das linhas seriais N3 começou a melhorar, ficou claro que era possível reduzir a área da parte lógica do chip ao escalar da norma de produção N5 em não mais de 1,6 vezes.

    A evolução das abordagens da AMD para o desenvolvimento de chips de processador: do monolítico ao heterogêneo composto (fonte: AMD)

    Na verdade, é exatamente por esse motivo que a segunda geração de processadores AMD EPYC é representada não apenas por chips compostos, mas por conjuntos de chiplets heterogêneos – combinações de núcleos de processadores fabricados de acordo com os padrões de produção “7 nm” e “14 nm” blocos de comunicação, incluindo controladores de memória e I/O.

    Sim, a recusa em transferir parte dos elementos do microcircuito para um processo técnico mais miniatura leva ao aumento do apetite energético do chip composto. No entanto, a economia de custos – obtida devido ao fato de que, de fato, apenas elementos altamente escaláveis ​​​​da lógica de semicondutores são miniaturizados – permite manter o preço do produto acabado dentro de limites razoáveis. Graças a isso, tanto o desenvolvedor VLSI quanto seu fabricante permanecem lucrativos – e têm a oportunidade de fazer novos investimentos em empreendimentos ainda mais promissores.

    ⇡#Dividir para coletar

    Microcircuitos compostos, portanto, fazem sentido montar a partir de chiplets otimizados (em termos do processo técnico usado para sua produção) para executar determinadas funções. No entanto, os chiplets colocados em um único pacote devem estar interligados, e isso por si só representa um certo problema tecnológico – mesmo que deixemos de lado a questão da padronização das interfaces D2D, que foi discutida um pouco antes.

    As CPUs de servidor composto da família Sapphire Rapids-SP da quarta geração Xeon Scalable são compostas por “tiles” (tiles – termo usado pela Intel para seus próprios desenvolvimentos em vez de chiplets) conectados por “pontes” EMIB (fonte: Intel)

    O fato é que os contatos internos que conectam transistores individuais, cursos de Schaeffer e nós lógicos maiores dentro de um VLSI separado são muito pequenos em tamanho para simplesmente trazê-los para a borda de um elemento de microcircuito composto para conexão com outros elementos semelhantes. Isso significa que é preciso formar estruturas semicondutoras adicionais nessa mesma aresta, que serviriam de pontes entre a lógica interna do chiplet e o pente de contatos – essencialmente macroscópico, se comparado com as dimensões dos condutores internos – projetado para formar conexões entre chiplets.

    Este procedimento por si só complica o projeto de VLSI composto (e, portanto, aumenta seu custo; novamente, independentemente de as conexões D2D usadas serem padronizadas ou não) e requer algum aumento na área de cada chiplet individual – em média, em cerca de 10%, quando comparado com um fragmento de um VLSI planar-unitário monolítico semelhante em funcionalidade. Também é importante que a escolha de um método específico para implementar as interconexões afete diretamente o throughput D2D e, conseqüentemente, o desempenho do chip composto como um todo.

    Várias maneiras de integrar chiplets heterogêneos e seus recursos (fonte: Intel)

    A interconexão mais direta dentro de um chiplet é organizada da mesma forma que dentro de uma placa-mãe multicamada: esse método é descrito como interconexão 2D ou pacote multichip (MCP). Os trilhos de transporte de corrente dentro do substrato no qual os chiplets são colocados se estendem por alguns e dezenas de milímetros e, neste caso, nenhum truque tecnológico especial é exigido dos desenvolvedores: o comprimento curto dos condutores em si garante atrasos baixos e dispersão mínima dos sinais transmitidos através deles. O AMD Infinity Fabric, a base das arquiteturas de chiplet Zen 2 e Zen 3 para processadores de desktop e servidor, é precisamente uma interconexão 2D – e, como pode ser julgado pelos indicadores de desempenho dessas CPUs em tarefas modernas, ele executa sua tarefa de maneira bastante adequada .

    No entanto, os atrasos de acesso à memória (latência) de processadores compostos organizados de acordo com o princípio MCP ainda são bastante grandes quando comparados com chips monolíticos. Além disso, talvez o mais importante, a densidade de contatos entre o chiplet e o substrato no caso de 2D D2D é relativamente baixa – corresponde aproximadamente à densidade das “pernas” macroscópicas dos pacotes do processador que são familiares a todos. O interposer de silício, que já pertence à categoria 2.5D, foi projetado para resolver esses problemas.

    Princípio de integração volumétrica de chiplets heterogêneos usando interconexões 2.5D e 3D (fonte: AMD)

    Essa interconexão pode ser implementada na forma de uma única camada intermediária que se estende por toda a área do substrato do chip composto (então eles falam de interpositor de silício no sentido apropriado) ou na forma de “pontes” curtas dentro o substrato (pontes de silício) conectando diretamente um chiplet ao outro. Em ambos os casos, são usados ​​contatos de passagem, verticalmente (se tomarmos o plano do substrato como horizontal) passando pelo silício da camada intermediária de interconexões até os chiplets – através de vias de silício, TSV.

    Na superfície dos chiplets, esses contatos, microprotuberâncias, já podem ser muito menores do que os pinos ou furos usuais para soquetes de processadores, o que possibilita a formação de uma rede muito mais densa de interconexões acasalando chiplets individuais. Com isso, não há necessidade de perder tempo na comutação de sinais intra-chip externos de diferentes elementos lógicos por meio de um único barramento comum – o que, por sua vez, reduz a latência do microcircuito composto como um todo ao acessar estruturas externas (subsistema de memória , instalações de entrada-saída, etc.). P.).

    A família de processadores Metror Lake (Núcleo de 14ª geração) também é composta, incluindo a GPU Arc integrada como um “ladrilho” separado (fonte: Intel)

    Graças às pontes EMIB (embedded multi-die interconnect bridge), os mais recentes processadores de arquitetura Intel Scalable Sapphire Rapids são capazes de integrar até 60 núcleos em um único pacote com concessões mínimas em termos de latência em comparação com uma hipotética contraparte monolítica (que, como sabemos agora, proíbe fisicamente a produção de um limite de retículo limitando as capacidades das litografias atuais). Cada núcleo Sapphire Rapids é equipado com cinco “pontes” EMIB, devido às quais tem a oportunidade de acessar os controladores de E / S e RAM localizados em outros núcleos como parte de uma montagem comum com atrasos mínimos.

    O próximo passo lógico após o 2.5D D2D são as interconexões 3D, exemplos dos quais são a interface HBM (memória de alta largura de banda) desenvolvida pela Samsung Electronics, AMD e SK Hynix para memória DRAM multicamada, bem como o método vertical de montagem do cache do processador memória proposta pela AMD – 3D v-cache. No entanto, até agora há mais problemas do que conquistas neste caminho: tudo novamente depende dos investimentos necessários para um maior desenvolvimento, cujas perspectivas de retorno não são óbvias devido à pouca previsibilidade do efeito econômico da introdução em série de caros inovações.

    Processadores empilhados horizontal e verticalmente, como os chips Ryzen 9 5950X, por exemplo, são uma maneira poderosa de prolongar a vida útil da Lei de Moore (Fonte: AMD)

    No entanto, a transição de um projeto VLSI monolítico para um composto está se tornando cada vez mais popular, mesmo porque a miniaturização indiscriminada de chips como um todo já está demonstrando ineficiência catastrófica hoje. É provável que o futuro ainda pertença a estruturas semicondutoras verdadeiramente tridimensionais, e não apenas no nível dos microcircuitos, mas também dos transistores que os compõem – mas este já é um tópico para uma discussão detalhada separada.

    avalanche

    Postagens recentes

    Cofundador da Oracle, Larry Ellison, assume o título de homem mais rico do mundo, de Elon Musk

    O bilionário cofundador da Oracle, Larry Ellison, ultrapassou o CEO da Tesla e da SpaceX,…

    1 hora atrás

    Dreame mostra o carro elétrico “mais rápido”, mas apenas em imagens – ele se parece muito com um Bugatti Chiron

    A empresa chinesa Dreame Technology, conhecida por seus robôs aspiradores de pó, revelou renderizações de…

    6 horas atrás

    A Microsoft cancelou a taxa para desenvolvedores que publicam aplicativos na Microsoft Store

    A Microsoft anunciou que, a partir de hoje, os desenvolvedores de aplicativos para Windows não…

    7 horas atrás

    Sapphire lança diversas placas-mãe Ryzen Socket AM5 internacionalmente

    A Sapphire é conhecida principalmente por suas placas de vídeo Radeon. No entanto, a fabricante…

    7 horas atrás

    O filme BioShock será “definitivamente” baseado no primeiro BioShock e não será lançado em breve

    O produtor Roy Lee compartilhou novos detalhes sobre a adaptação cinematográfica da franquia cult de…

    7 horas atrás

    A Thermalright apresenta ventoinhas finas de 120 mm e 15 lâminas para PC

    A Thermalright lançou a série TL-B12015 de ventoinhas de gabinete fino, incluindo a TL-B12015 e…

    9 horas atrás