时刻

Arm推出Cortex-A715

Arm推出Cortex-A715

去年,Arm公司推出了Cortex-A710,这是该公司在大内核中的第一个ARMv9实现。按照过去几年5/6月前后的传统,今天Arm推出了他们最新的下一代Cortex-A710继任者—Cortex-A715,以前被称为Makalu。

继Cortex-A710之后,A715作为最新的大核心,支持与ARMv9.0 ISA基本相同的功能,并有若干增强。也许更关键的是,新内核仅提供对AArch64的独家支持—完全放弃32位支持。A715的设计原则仍然与之前的大内核相似:以更高的比例提高性能,而不是影响功耗和面积。在这次迭代中,性能的重点是在不大幅拓宽流水线或延长其深度的情况下全面提高性能(尽管两者都发生了)。最后,Arm工程师引入了有针对性的改进—如对分支预测器和预取的改进—这些改进受到了早期Cortex-X设计的启发。

功率=效率

据称,与Cortex-A710相比,新的A715在等效功率下可提供5%的性能改进。同样,在与A710相同的性能水平下,A715的耗电量减少了20%。这两项比较都是在等效过程中进行的。换句话说,Arm表示新的Cortex-A715可以提供与第一代Cortex-X1内核相同的性能,X1是 Arm在2020年的旗舰性能核心。

总的来说,很明显,在这一代中,降低功耗更为重要–特别是在持续使用的情况下。在这个内核中有点不寻常的是,性能的提高似乎有点不尽人意。Arm公司在大幅提高性能和大幅降低功耗(性能提升更低)之间转换并不是闻所未闻的,但是在这种特殊情况下,考虑到他们在2020年Arm TechCon的公告(后来在去年的Vision Day上重申),我们期待着更大的提升,他们承诺比Cortex-A78的单核性能高30%。与A78相比,在IPC方面,我们大约是15%。目前还不清楚为什么差异如此之大。尽管如此,下面显示的DVFS曲线在整个性能范围内显示了良好的功率效率收益。

微架构

在这一代中,幕后有相当多的变化。绝大多数变化发生在内存子系统中的内核前端。

获取

Arm花了很多时间来完善他们的预取器和分支预测器。这也是他们能够保持相对较小的缓存规模的部分原因。在这次迭代中,他们将方向预测器的容量增加了一倍,同时提高了其准确性。在上一代A710中,该核心能够在每个周期预测两个无条件的分支。现在,在A710中,这种能力被进一步扩展,以支持条件性分支。换句话说,虽然A710可以有一个无条件的条件,并且只采取一个条件分支,但它现在可以做到两个。

A715的另一项改进是引入了一个3阶段预测方案,以实现快速周转。以前,Arm有一个快速的L0 0周期预测和一个较慢的2周期预测结构,而在A715中,Arm将其分解为三个阶段,有一个新的1周期周转中间结构,减少了获得预测的延迟。
随着更大容量的分支预测器产生更高的分支请求带宽,有可能遇到更多取用两个独立指令流的情况。为了适应这种情况,A715现在支持更高的指令缓存查询带宽,最高可达两倍的标签/周期。

纯粹的64位能够实现不同的权衡

新的Cortex-A715是一个纯粹的AArch64实现,这意味着设计团队可以摆脱32位架构带来的各种架构问题和低效率。Arm表示,由于AArch64的性质更加正常,新的解码器不仅可以更有效地设计和优化,而且体积也大大缩小。事实上,Arm说新的解码器实际上 “比Cortex-A710中的解码器小4倍,并具有相应的省电功能”,这是相当了不起的。
随着这些新解码器的出现,发生了很多变化。首先,Arm采用了指令融合机制,并将其直接移到指令缓存中。以前,A710专门在MOP高速缓存中进行。这意味着,现在所有的应用都可以在获取层面利用融合指令(即从更高的有效指令吞吐量中受益)。第二,以前,一些指令只能由特定的解码器处理。现在,所有解码器都可以处理所有的操作。

由于AArch64解码器的尺寸较小,Arm增加了第五个解码通道。换句话说,新的A715的取/解码带宽现在与A710的MOP带宽相匹配,而指令高速缓存获得了MOP融合能力。通过将MOP高速缓存的许多好处与新增加的解码通道一起转移,Arm说它能够在没有MOP高速缓存的情况下实现类似的性能。出于这个原因,它被移除。移除缓存也提供了一些面积和功率增益,尽管就性能而言,相当大的设计交换基本上是相互抵消的。

存储器子系统

在内存子系统方面,Cortex-A715增加了加载回复队列。这是一个保存已发出的负载访问的结构。Arm将数据缓存库的数量增加了一倍。随着库的增加,现在有更多的读/写端口,允许更多的数据访问并发。A715的最后一个变化是现在多了50%的L2 TLB条目,同时Arm说每个条目现在可以存储双倍的虚拟地址(VA),这意味着在适当的条件下,有可能实现比Cortex-A710多3倍的有效TLB。

展望未来,Arm披露了这两年的两个新内核–Hunter和Chaberton。对Neoverse Demeter和Cortex Hunter & Hayes的软件支持从去年年底开始推送

分享此文章