NVIDIA发布首款Arm服务器CPU！命名“格蕾丝” 取自编译语言之母

zhiyongz 4年前 (2021-04-14) 阅读数 #硬件

在今天凌晨召开的NVIDIA GTC 2021开发者大会上，NVIDIA CEO黄仁勋正式发布了旗下首款Arm服务器CPU，代号“Grace”，主要面向超大规模AI人工智能、HPC高性能计算，最大特点就是海量的带宽，号称是全球首款专为TB级加速计算而设计的CPU。

与此同时，NVIDIA还发布了基于Arm IP的BlueField-3 DPU，以及集成了Arm IP的首款算力高达1000TOPS的自动驾驶汽车芯片NVIDIA DRIVE Atlan。

NVIDIA发布首款Arm服务器CPU！命名“格蕾丝” 取自编译语言之母 NVIDIA Arm服务器CPU 第1张

黄仁勋在会上也表示：“我们每年都会发布激动人心的新品。三类芯片，逐年飞跃，一个架构。”黄仁勋说，数据中心路线图包括CPU、GPU和DPU这三类芯片，而Grace和BlueField是其中必不可少的关键组成部分。每个芯片架构历经两年的打磨周期（周期内可能出现转变），一年专注于x86平台，另一年专注于Arm平台。

NVIDIA首款Arm服务器CPU Grace

虽然在大家印象里NVIDIA是一家GPU公司，但早在多年前就曾推出过自己的Tegra系列CPU，甚至还一度进入了智能手机市场。

此次发布的NVIDIA Grace的名字，取自Grace Hopper——格蕾丝·霍珀女士，她是计算机史上最早的程序员之一，也是编译语言之母，领导开发了编程语言Cobol。

NVIDIA发布首款Arm服务器CPU！命名“格蕾丝” 取自编译语言之母 NVIDIA Arm服务器CPU 第2张

据介绍，NVIDIA Grace基于Arm面向数据中心的下一代Neoverse内核架构每个CPU能在SPECrate2017_int_base基准测试中单位时间运行超过300个实例。

NVIDIA Grace还采用了第四代NVIDIA NVLink技术，从CPU到NVIDIA的GPU连接速度超过900GB/s，达到相当于目前服务器14倍的带宽。而从CPU到CPU的连接速率也超过了600GB/s。另外，NVIDIA Grace还拥有目前最高的内存带宽，搭配LPDDR5X内存可提供超过500GB/s的带宽，而且支持ECC错误校验。

NVIDIA发布首款Arm服务器CPU！命名“格蕾丝” 取自编译语言之母 NVIDIA Arm服务器CPU 第3张

NVIDIA发布首款Arm服务器CPU！命名“格蕾丝” 取自编译语言之母 NVIDIA Arm服务器CPU 第4张

在此次会议上，黄仁勋并未公布NVIDIA Grace具体的核心数量、频率、缓存、功耗等数据。不过，黄仁勋表示，明年瑞士国家计算中心（CSCS）和美国洛斯阿拉莫斯国家实验室分别将推出一款性能强大的AI超级计算机面世，都将采用NVIDIA Grace CPU，据称其与NVIDIA GPU紧密结合，性能将比目前最先进的NVIDIA DGX系统（在x86 CPU上运行）高出10倍。其中，瑞士国家超级计算中心(CSCS)、慧与(HPE)将联合使用NVIDIA Grace CPU及下一代NVIDIA GPU，共同打造号称世界最快AI超算的“ALPS”(阿尔卑斯山)，算力高达20ExaFlops(每秒2千亿亿次计算)，主要用于天气研究与预报、材料科学等。

NVIDIA发布首款Arm服务器CPU！命名“格蕾丝” 取自编译语言之母 NVIDIA Arm服务器CPU 第5张

据介绍，NVIDIA Grace处理器计划2023年正式推出，2025年将会推出下一代。NVIDIA还同时强调，会继续支持x86架构，未来将坚持x86、Arm两条路线并行。

新一代数据处理器Bluefield-3 DPU

NVIDIA同时还发布了新一代数据处理器BlueField-3 DPU，为数据中心提供强大的软件定义网络、存储和网络安全加速功能。

NVIDIA发布首款Arm服务器CPU！命名“格蕾丝” 取自编译语言之母 NVIDIA Arm服务器CPU 第6张

据介绍，BlueField-3 DPU的晶体管数量达到了220亿个，集成了16个Arm Cortex-A78内核、18M IOPs弹性块存储。与上一代的BlueField-2 DPU相比，BlueField-3 DPU实现了10倍的加速计算性能提升和4倍的加密速度。BlueField-3也是首款支持第五代PCIe总线并提供数据中心时间同步加速的DPU。

一个BlueField-3 DPU所提供的数据中心服务相当于300个CPU核才能实现的工作负载，以400Gbps的速率，对网络流量进行保护、卸载和加速。

另外值得一提的是，BlueField-3完全向下兼容BlueField-2，提供更加出色的数据中心应用转移、加速和隔离性能。BlueField-2有双端口100Gb/s以太网或双端口100Gb/s InfiniBand两种选择，最多可支持8个Arm核。BlueField-2 DPU还集成了各种不同的加速引擎来加速软件定义存储、网络、安全、流媒体、线速TLS/IPSEC加密、5G电信的精确定时、数据中心的时间同步以及其它云基础设施服务等。

根据预计，BlueField-3 DPU将于2022年第一季度发布样品，后续的BlueField-4 DPU将包含640个晶体管，算力达1000TOPS，网络速率达800Gbps。

自动驾驶汽车芯片DRIVE Atlan

NVIDIA在此次会议上还正式发布了最新一款智能汽车和自动驾驶汽车芯片组——DRIVE Atlan，单颗芯片的算力能够达到1000TOPS，这也是业内首款达到1000TOPS算力的芯片，将应用于L4及L5级别自动驾驶。

NVIDIA发布首款Arm服务器CPU！命名“格蕾丝” 取自编译语言之母 NVIDIA Arm服务器CPU 第7张

作为参考，上一代Orin算力为254TOPS，而特斯拉自研的芯片算力则为144 TOPS。足以可见，英伟达Atlan的强大实力。

NVIDIA发布首款Arm服务器CPU！命名“格蕾丝” 取自编译语言之母 NVIDIA Arm服务器CPU 第8张

Atlan SoC集成了NVIDIA最新的安培架构GPU核心、以及Arm架构的Grace CPU核心、深度学习和计算机视觉加速器单元以及BlueField DPU核心，该平台将实现每秒执行1000万亿次操作(1000 TOPS)，是上一代产品的4倍，且预估其SPECint得分将超过100（SPECrate2017_int），高于当今大多数robotaxi的总计算量。Atlan还是首款配备NVIDIA BlueField DPU的SoC，可提供可信赖的安全性、高级网络和存储服务。

Atlan SoC将于2023年向开发者提供样品，2025年左右上市的车型就可能搭载。

同时，英伟达也公布了最新L4级自动驾驶开发车Hyperion 8，车辆搭载2颗英伟达Orin SoC用作自动驾驶计算，并用1颗Orin SoC监测车内安全员，同时用4颗Orin SoC与4颗MLNX芯片记录3D环境。

车外传感器使用8个800万像素、4个300万像素鱼眼摄像头、3个座舱内摄像头、9个毫米波雷达以及2个激光雷达。

这辆开发车将在今年年底面向开发者开放。黄仁勋还宣布自动驾驶仿真平台DRIVE Sim将于今年夏季开放使用。

关于对Arm的收购进展

去年10月宣布以400亿收购Arm之后，仅6个月之后，NVIDIA就一口气发布了三款基于Arm IP的产品，这也足见NVIDIA对于Arm技术及其生态的看重。

值得一提的是，目前Arm服务器CPU阵营当中的两大玩家——华为和飞腾接连遭到了美国的制裁，这也对于刚有起色的Arm服务器生态带来了不小的打击。此番NVIDIA的加入确实有助于Arm服务器生态的建设。但是，如果NVIDIA成功收购了Arm，那么则可能对于Arm生态建设带来负面的影响。此前不论是Arm联合创始人赫尔曼·豪泽，还是众多的Arm CPU厂商都对此NVIDIA收购Arm表达了反对意见。

关于对Arm的收购进展，黄仁勋表示，目前收购工作正在稳妥有序进行。“NVIDIA和各国监管部门进行了积极有效的沟通，我们相信，监管部门会支持NVIDIA收购Arm，因为这有利于市场竞争，有利于半导体行业的技术研发，相信这笔交易会在2022年有个积极正面的结果。”

值得一提的是，NVIDIA此次还公布了与亚马逊AWS、Ampere Computing、联发科和Marvell等基于Arm的CPU平台的合作伙伴关系与合作进展，具体内容包括为亚马逊AWSGraviton2 CPU提供GPU加速、为科学和AI应用开发提供支持的全新HPC开发者套件、提升边缘视频分析和安全功能、打造新一类基于Arm并搭载NVIDIA RTX GPU的新款PC等。