时刻

“Zen”的演变

“Zen”的演变

这张图片大部分是在8月底Zen 4正式揭幕前完成的,一些以前不为人知的数字已经被公开了,例如,RetiredEngineer®在Twitter上放了一个对比表,显示了从Zen 3到Zen 4的一些变化,再加上通过Angstronomics,很多有趣的数据可以相互比较。

从Zen 1开始,我们有一个由Global Foundries在14/12纳米制造的单片SoC设计,芯片尺寸约为212平方毫米,集成了两个4核CCX以及PCIe、USB和Infinity Fabric的多个I/O设备,整个SoC的晶体管密度在~23 MTr/mm²。


之后,AMD采用了芯片设计,在台积电的N7节点上制造了一个核心复合芯片,而I/O功能(PHY在新节点上几乎没有扩展)在Global Foundries被分离成一个更便宜的12纳米芯片,有了这一变化,我们在比较这两个模具和前代产品时看到了鲜明的对比。
76平方毫米的核心芯片达到了50 MTr/mm²,与Zen 1的单片设计相比,晶体管密度提高了121%,而I/O芯片只有16.72 MTr/mm²,比Zen 1 SoC差26%。

Zen 3使用了 “相同的 “芯片设计和I/O芯片,但引入了新的N7 CCD与新的CPU核心,这些芯片的尺寸稍大,导致CCD的尺寸为~ 84 mm²,晶体管密度基本相同。即将推出的Zen 4 Raphael封装再次部署了相同的芯片设计,但用新的节点缩小了两个芯片。

CCD从N7转移到N5,达到91.3 MTr/mm²,与前代产品相比增加了83%,如果不包括I/O PHY和其他模拟组件,AMD很可能真的实现了与前一节点相比2倍的晶体管密度改进,新的I/O芯片从12纳米的Global Foundries到6纳米(N6)的TSMC,尽管晶体管的缩减是巨大的,但新的I/O模子几乎和以前一样大。

这有几个潜在的原因。

模拟器件,因为它们被用于I/O PHYs,在新的节点上不能很好地扩展,目前的12纳米设计已经使所有的芯片边缘都被I/O占据了相当大的空间,人们可以重新设计PHY,使其占用更少的水平空间,并进一步深入到芯片中,但这可能是一个挑战,也不是人们所希望的,如果缩小目前的设计,你可能不会使芯片的体积明显缩小,因为这种设计有焊盘(I/O PHY)限制。大幅缩小的是中间的绿色部分,这也会导致大量的未使用面积,然而,你可以 “免费 “整合新功能。这就是AMD所做的,I/O芯片现在包括一个RDNA2 iGPU,有一个WGP(128个着色器),运行速度高达2.2 GHz(约564 FP32 GFLOPs),这足以驱动显示器和简单的应用,并占领商业市场的一部分,这在以前是无法做到的。除了小型iGPU,用于视频解码/编码的VCN引擎也将被纳入,同时还有必要的显示引擎及其显示PHY。最后,6纳米节点总体上应使逻辑和SRAM器件具有更好的能源效率。

关于核心设计,AMD在每一代产品中总是触及几个方面的问题:


Zen 1和2共享相同的微架构基础,因此非常熟悉,使用4核CCXs和逻辑上类似的执行体。但是由于7纳米的收缩,Zen 2上的许多结构可以被放大,其中一些是大规模的。增加了一个新的TAGE预测器,分支目标缓冲器(几乎)增加了一倍,FPU宽度从128位增加到256位,用于单周期AVX256执行。此外,每个CCX的L3高速缓存容量也增加了一倍。显然,它还在继续,例如,多个寄存器/缓冲器已经增加,如重新排序缓冲器,以从指令流中提取更多的ILP,整数寄存器文件得到了一些更多的条目,以及执行单元和加载/存储内存系统的各种调度队列。除了简单的结构扩大,AMD还重新平衡了一些方面,如L1指令缓存的大小和操作缓存的容量。该公司将L1I$的容量减半,而将Op$的存储容量增加一倍,以便从后者中获取更多的数据。


更多的数据来自后者,这是一条更有效、更广泛的路径,而不是传统的L1I$/解码路径。

Zen 3改变了微架构的关键方面,并在使用相同的7纳米节点的同时建立了新的设计基础,三级BTB结构已经不复存在,取而代之的是只有两级,第一级为零泡执行,执行体变得更宽,端口设计也发生了变化,在高层次上,你主要看到了预期的方案,几个结构的尺寸被稍微增加了除了改变许多内核属性外,Zen 3的另一个亮点是从2个CCXs(具有独立的L3缓存和往返于I/O芯片的功能)改变为一个单一的CCX设计,其统一的L3缓存结构为所有8个内核服务。

Zen 4几乎是一个增压的Zen 3核心,与Zen 2的设计方式相比,Zen 1并无不同。使用了相同的底层微架构,同时随着5纳米工艺的晶体管预算的增加,一些结构得到了升级。前端的宽度被保留了下来,并从4代以来一直跟随我们。和以前一样,我们有一个4宽的传统解码路径和一个6宽的调度到执行引擎。然而,分支预测部分一直在改进,Zen 4在这方面也不例外。BTB再次被增加,而且和Zen 2一样,更加强调Op$路径,容量从4K增加到6.75K,执行主体与之前Zen 3上的相同(宽度+端口设计)。所以我们仍然看到4x INT管道,3x AGU和一个带有2个FADD和2个FMUL(FMA)管道的FPU(+其他管道)。与Zen 2类似,Zen 4也将其晶体管预算的很大一部分投入到FPU中,并再次对FPU进行了大量的投资。它现在支持AVX512和大量的新指令。此外,在Zen 1之后,FP寄存器的数量首次有了相当大的增长。

像往常一样,你也会看到许多其他结构被增加,比如重新排序的缓冲区现在持有320个条目(+25%)。在这方面,AMD在这方面的增加仍然相当保守,考虑到英特尔在Sunny Cove上将ROB增加到352(从Skylake的224),在Golden Cove上增加到512的相当大的规模。随着Zen 5的推出,AMD将扩大前端,并可能更积极地增加ROB,尽管该公司可能会争取一个平衡点,保持较高的perf/mm²,就像之前几代一样。好吧,相对于英特尔,我们可以说,这都是相对的。

分享此文章