根据你的观点,过去的两年要么过得非常慢,要么非常快。虽然COVID大流行似乎从未结束—而且技术上仍未结束—但过去两年对科技行业,特别是对NVIIDA来说,已经呼啸而过。该公司两年前刚刚在GTC 2020上推出了Ampere GPU架构,在他们的芯片销量超过以往之后,现在到了2022年,已经是推出下一个架构的时候了。因此,废话不多说,让我们来谈谈Hopper架构,它将成为下一代NVIDIA服务器GPU的基础。
作为NVIDIA的惯例,该公司利用春季GTC活动发布其下一代GPU架构。两年前刚刚推出的Ampere是英伟达迄今为止最成功的服务器GPU架构,仅去年一年,数据中心的销售额就超过100亿美元。然而,英伟达没有时间安于现状,因为服务器加速器市场的增长和盈利能力意味着比以往任何时候都有更多的竞争者想从英伟达的市场中分一杯羹。为此,NVIDIA已经准备好(并且渴望)利用他们今年最大的展会来讨论他们的下一代架构,以及将实施该架构的首批产品。
将英伟达带入下一代服务器GPU的是Hopper架构。Hopper架构以计算机科学先驱格雷斯-霍普(Grace Hopper)的名字命名,是该公司正在进行的GPU架构系列的一个非常重要的,但也是非常英伟达的更新。随着公司的工作现在稳固地分为服务器和消费者GPU配置,Hopper是英伟达在该公司所做的一切上加倍努力,然后比以前更大。
撇开夸张的说法不谈,在过去的几年里,英伟达已经为如何应对服务器GPU行业制定了一套非常坚实的游戏规则。在硬件方面,这基本上可以归结为正确识别当前和未来的趋势以及客户对高性能加速器的需求,投资所需的硬件以高速处理这些工作负载,然后对所有这些进行优化。而对于英伟达来说,最后一步很可能是最重要的一点。英伟达将大量的工作放在摆脱工作上。
这种心态反过来也是英伟达Hopper架构的核心所在。虽然英伟达已经进行了全面的投资以提高性能,从内存带宽和I/O到机器学习和机密计算,但Hopper的最大性能提升是在英伟达已经找到了如何做更少工作的领域,使他们的处理器变得更快。
H100是NVIDIA的旗舰服务器加速器,是Hopper一代的开端。GH100以GH100 GPU为基础,是NVIDIA传统的服务器首发产品,该公司从高端开始,为其最大和最有钱的服务器和企业客户开发加速卡。
首先,也是最重要的一点,英伟达再次为其旗舰GPU进行了大规模的建设。GH100 GPU由800亿个晶体管组成,它是在英伟达所说的台积电4N工艺节点的 “定制 “版本上建造的,这是台积电N5技术的更新版本,具有更好的功率/性能特性,并在密度上有非常小的改进。因此,即使在安培之后仅仅两年,英伟达也在为GH100做一个完整的节点跳跃,然后是一些。在这一点上,英伟达没有披露芯片尺寸,所以我们没有确切的数字可以分享。但考虑到台积电工艺节点的已知密度改进,GH100的尺寸应该与826mm2的GA100接近。而事实上,它确实是814mm2。
与英伟达之前的加速器一样,H100卡在发货时并没有配备完全启用的GPU。因此,NVIDIA所提供的数据是基于H100的实现,以及启用了多少功能单元(和内存堆栈)。

关于性能,英伟达没有提前引用任何标准矢量性能的数字。然而,他们引用了张量性能,根据不同的格式,张量性能比A100加速器快3倍或6倍。我们将看到在时钟速度增加和更大或更多的张量核心之间如何分解,但显然NVIDIA再次将更多的硬件投向张量性能,这一策略到目前为止对他们很有效。
英伟达官方喜欢引用启用了稀疏性的数据,但为了我们的规格表,我使用了非稀疏性的数字,以便与英伟达以前的硬件以及竞争对手的硬件进行更贴切的比较。在启用稀疏性的情况下,TF32的性能和下限可以翻倍。

英伟达将以其惯用的两种形式提供H100。用于高性能服务器的SXM夹层,以及用于更多主流服务器的PCIe卡。与上一代产品相比,这两种外形尺寸的功率要求都有明显提高。英伟达为SXM版本的显卡报出了令人瞠目结舌的700瓦TDP,比A100的官方400瓦TDP高出75%。不管是好是坏,NVIDIA在这里没有任何保留,尽管晶体管功率比例的持续下降对NVIDIA也没有任何好处。
冷却如此炎热的GPU将是一项有趣的任务,尽管并不超出目前的技术。在这种功率水平下,我们几乎肯定会看到液体冷却,而SXM的外形尺寸非常适合。不过,值得注意的是,竞争对手的OAM外形尺寸—基本上是开放计算项目在加速器中使用的SXM—设计的最高功率为700W。因此,英伟达似乎正在接近夹层式显卡所能处理的上限,前提是各供应商不采用奇特的冷却方法。
同时,H100 PCie卡的TDP将从现在的300W提高到350W。鉴于300W是PCIe卡的传统极限,看看NVIDIA及其合作伙伴如何保持这些卡的冷却,将是一件很有趣的事情。否则,由于TDP只有SXM卡的一半,我们预计PCIe版本的时钟/配置会明显变慢,以控制该卡的功耗。
Hopper Tensor 核心: 现在有了转化器引擎
接下来,我们将讨论Hopper架构的重要架构功能,首先是NVIDIA的转化器引擎。变压器引擎名副其实,它是一种新型的、高度专业化的张量核心,旨在进一步加速变压器ML模型。
为了与英伟达对机器学习的关注保持一致,对于Hopper架构,该公司重新审视了ML市场的构成,以及哪些工作负载在现有硬件上受欢迎和/或要求最高。在这方面,赢家是变压器(https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)),这是一种深度学习模型,由于其在自然语言处理和计算机视觉中的实用性而迅速流行起来了。最近变压器技术的进步,如GPT-3(https://en.wikipedia.org/wiki/GPT-3)模型,加上服务运营商对更好的自然语言处理的需求,使变压器成为ML领域的最新重大突破。
但与此同时,变压器的处理要求也阻碍了更好的模型的发展。简而言之,更好的模型需要越来越多的参数,仅GPT-3就有超过1750亿个参数,即使在大型GPU集群上,变压器的训练时间也变得难以应付。
为此,英伟达公司开发了一个张量核心的变体,专门用于加快变换器的训练和推理,他们将其称为变换器引擎。英伟达对这个新单元进行了优化,将其简化为只处理大多数转化器使用的低精度数据格式(FP16),然后通过引入FP8格式进一步缩小规模。简而言之,新单元的目标是在每一步都使用必要的最低精度来训练变压器而不损失精度。换句话说,就是要避免做超过必要的工作。

有鉴于此,与传统的神经网络模型在整个过程中以固定的精度进行训练不同,英伟达对变压器的最新破解是改变精度,因为FP8不能在整个模型中使用。因此,Hopper的转化器引擎可以在FP16和FP8之间逐层训练,利用英伟达提供的启发式方法来选择所需的最低精度。这样做的净好处是,可以用FP8处理的每一层都可以以两倍的速度处理,因为转换引擎可以以两倍于FP16的速度打包和处理FP8数据。
结合H100上的额外内存和更快的NVLink 4 I/O,英伟达声称,一个大型GPU集群训练变压器的速度可以提高9倍,这将使当今最大的模型的训练时间下降到更合理的时间段,并使更大的模型更切实可行地得到解决。
同时,在推理方面,Hopper也可以立即使用自己的FP8训练模型进行推理使用。这对Hopper来说是一个重要的区别,因为它允许客户跳过转换和优化训练好的转化器模型,将其降至INT8。英伟达并没有宣称坚持使用FP8而不是INT8会带来任何具体的性能优势,但这意味着开发人员可以享受到在INT8模型上运行推理所带来的相同的性能和内存使用优势,而无需进行之前需要的转换步骤。
最后,英伟达声称,H100与A100相比,变压器的推理性能提高了16倍到30倍之间。就像他们的培训声明一样,这是一个H100集群与A100集群的对比,因此内存和I/O的改进在这里也发挥了作用,但这也强调了H100的转化器引擎不仅仅是为了加快培训速度。
DPX指令,用于GPU的动态编程
英伟达公司对Hopper架构的另一大智能改进来自于动态编程领域(https://en.wikipedia.org/wiki/Dynamic_programming)。对于他们最新一代的技术,英伟达公司正在增加对编程模型的支持,增加了一套专门用于动态编程的新指令。该公司将这些指令称为DPX指令。
简而言之,动态编程是一种以递归方式将复杂问题分解为更小、更简单的问题,然后先解决这些小问题。动态编程的关键特征是,如果这些子问题中有一些是相同的,那么这些冗余可以被识别和消除—这意味着一个子问题可以被解决一次,其结果被保存下来,供将来在大问题中使用。
所有这些都是说,像Sparsity和Transformer Engines一样,英伟达正在实施动态编程,让他们的GPU摆脱做更多的工作。通过消除工作负载的冗余部分,可以按照动态编程的规则进行分解,NVIDIA的GPU需要做的工作就会少很多,它们产生结果的速度也会快很多。
尽管与Transformer Engines不同,通过DPX指令增加动态编程支持,与其说是为了加快GPU上现有工作负载的速度,不如说是为了在GPU上实现新的工作负载。Hopper是首个支持动态编程的英伟达架构,因此可以用动态编程解决的工作负载通常是在CPU和FPGA上运行。从这个角度看,这是英伟达又找到了一个可以从CPU上偷来的工作负载,而在GPU上运行。
总的来说,英伟达声称,在单个H100上的动态编程算法性能与在A100上的天真执行相比,提高了7倍。
至于DPX指令的现实意义,英伟达公司称路线规划、数据科学、机器人学和生物学都是这项新技术的潜在受益者。这些领域已经使用了几种著名的动态编程算法,如Smith-Waterman和Flyod-Warshall,它们分别对基因序列的排列进行评分,并找到一对目的地之间的最短距离。
总的来说,动态编程是高性能工作负载中比较小众的领域之一。但英伟达认为,一旦有了合适的硬件支持,它就能很好地适用于GPU。
加密计算,保护GPU数据免受窥视
从以性能为重点的功能转向,英伟达对Hopper架构的另一个重大推动是在安全方面。随着云计算环境中GPU使用量的扩大—尤其是共享虚拟机环境—该公司正在将新的重点放在所带来的安全问题上,以及如何保护共享系统。
这些努力的最终结果是,Hopper正在引入对可信执行环境的硬件支持。具体而言,Hopper支持创建英伟达所谓的保密虚拟机,在该虚拟机环境中的所有数据都是安全的,而且所有进入(和离开)该环境的数据都是加密的。
英伟达公司在我们的简报中没有详细介绍支撑其新安全功能的技术细节,但据该公司称,这是一个由新硬件和软件功能混合而成的产品。特别值得注意的是,数据加密/解密在进出GPU时的速度足以以PCIe线路速率(64GB/秒)完成,这意味着在使用这一安全功能时,从主机到GPU的实际带宽不会减慢。
这种可信的执行环境又被设计成能够抵御一切形式的篡改。GPU本身的内存内容是由英伟达称之为 “硬件防火墙 “来保护的,它可以防止外部进程接触这些内容,而且这种保护也延伸到SM中的飞行数据。据称,可信环境还可以防止操作系统或管理程序从上面访问GPU的内容,只限制虚拟机的所有者访问。也就是说,即使有对GPU的物理访问,也不可能访问Hopper上安全虚拟机内的数据。
归根结底,英伟达的目的似乎是让他们的客户放心使用GPU来处理敏感数据,当他们在安全模式下工作时,会有很多硬件被入侵。反过来,这不仅是为了保护传统的敏感数据,如医疗数据,也是为了保护英伟达的一些客户现在正在创建的那种高价值人工智能模型。鉴于创建和训练一个模型的所有工作,客户不希望他们的模型被复制,无论是在共享云环境中还是从物理上不安全的边缘设备中取出。
多实例GPU v2: 现在有了隔离功能
作为NVIDIA在保密计算方面的安全努力的延伸,该公司还将这些保护措施扩展到其多实例GPU(MIG)环境。MIG实例现在可以完全隔离,实例和主机之间的I/O也完全虚拟化和安全化,基本上赋予了MIG实例与H100整体相同的安全功能。总的来说,这使MIG更接近于CPU虚拟化环境,在这种环境中,各种虚拟机假定不相互信任,并保持隔离。
随着Hopper架构的推出,NVIDIA的NVLink高带宽互连也得到了新的演绎,该互连用于将GPU(以及即将推出的CPU)连接在一起,以便在可扩展到多个GPU的工作负载中获得更好的性能。英伟达在每一代旗舰GPU上都对NVLink进行了迭代,这次也不例外,推出了NVLink 4。
虽然我们正在等待NVIDIA全面披露技术规格,但该公司已经确认,NVLink每片的带宽已经从A100的600GB/秒提高到H100的900GB/秒。请注意,这是NVLink支持的所有单个链路的所有上游和下游带宽的总和,因此将这些数字减半以获得具体的发送/接收速率。
鉴于NVLink 3已经以50 Gbit/sec的信令速率运行,目前还不清楚额外的带宽是由更快的信令速率提供的,还是NVIDIA再次调整了来自GPU的链接数量。英伟达之前改变了A100的NVLink车道配置,当时他们将车道宽度减半,车道数量翻倍,同时将信令速率翻倍。在此基础上增加车道意味着不必再想办法将信令率提高更多,但这也意味着NVLink I/O所需的引脚数量增加了50%。
沿着这些思路,还值得注意的是,英伟达将通过Hopper增加对PCIe 5.0的支持。由于PCIe仍然用于主机到GPU的通信(至少在Grace准备好之前),这意味着NVIDIA将其CPU-GPU带宽增加了一倍,使他们能够更好地支持H100。不过,要很好地利用PCIe 5.0,需要一个支持PCIe 5.0的主机CPU,而目前AMD或英特尔还没有提供这种支持。据推测,当NVIDIA在第三季度推出H100时,会有人准备好硬件并发货,尤其是NVIDIA喜欢对其DGX预制服务器进行同质化。
最后,随着H100/NVLink 4的推出,英伟达还利用这个时间宣布了一个新的、外部NVLink开关。这个外部开关超越了英伟达目前的板载NVSwitch功能,该功能用于帮助在单个节点内建立更复杂的GPU拓扑结构,并允许H100 GPU在多个节点内直接相互通信。从本质上讲,它可以取代NVIDIA GPU通过Infiniband网络进行跨节点通信的做法。

外部NVLInk交换机允许在一个单一领域内连接多达256个GPU,这相当于32个8路GPU节点。据NVIDIA称,一个1U的NVLink交换机通过32个八进制SFP(OSFP)收发器提供128条NVLink通道。完整的交换机又提供了70.4TB/秒的总分割带宽。
然而,值得注意的是,NVLink交换机并不是Infiniband的完全替代品—当然,NVIDIA也通过其网络硬件部门销售Infiniband。节点之间的Infiniband连接仍然需要用于其他类型的通信(例如CPU到CPU),因此外部NVLink网络是Infiniband的补充,允许H100 GPU之间直接聊天。
英伟达HGX再次驰骋,用于H100的HGX
最后,但并非最不重要的是,NVIDIA已经确认,他们也将为H100更新其HGX底板生态系统。自从NVIDIA开始使用SXM格式的GPU以来,HGX底板是NVIDIA生产的GPU底板,供系统建设者在设计完整的多GPU系统时使用。HGX板为NVIDIA的SXM外形的GPU提供了完整的连接和安装环境,然后销售商可以将电源和PCIe数据(除其他外)从他们的主板输送到HGX底板上。对于当前的A100一代,NVIDIA一直在销售4路、8路和16路设计。
相对于GPU本身,HGX是相当平淡无奇的。但它是NVIDIA生态系统的一个重要组成部分。服务器合作伙伴可以购买HGX板和GPU,然后迅速将其整合到服务器设计中,而不必从头开始设计自己的服务器。就H100而言,这意味着现状将(在很大程度上)保持不变,NVIDIA的服务器合作伙伴将能够以与以往相同的方式组装系统。
Hopper H100加速器,2022年第三季度发货
总结一下,NVIDIA计划在今年第三季度推出配备H100的系统。这将包括英伟达的全套自建系统,包括DGX和DGX SuperPod服务器,以及使用HGX底板和PCIe卡的OEM合作伙伴的服务器。虽然按照典型的方式,英伟达并没有公布单个H100的定价,理由是他们通过服务器合作伙伴销售这一硬件。一旦英伟达宣布他们自己的DGX系统的价格,我们会有更多的见解,但足以说明,不要指望H100卡会便宜。
