您当前的位置：中海网>资讯 > 正文

英伟达发布“地表最强”AI新品市值超过6600亿美元

2022-03-24 10:28:59 来源：芯东西编辑：bj06

提供400GB/s的吞吐量，可用于连接计算和存储，这一速度比上一代系统提升了1倍。

2、DGX SuperPOD：FP8 AI性能达1Exaflops

DGX H100系统是新一代英伟达DGX POD和DGX SuperPOD超级计算机的构建模块。

借助NVLink Switch系统，拥有32个节点、256个GPU的DGX Pod，其HBM3显存达20.5TB，显存带宽高达768TB/s。

“相比之下，整个互联网不过只有100TB/s。”黄仁勋感慨道。每个DGX都可借助4端口光学收发器连接到NVLink Switch，每个端口都有8个100G-PAM4通道，每秒能够传输100GB，32个NVLink收发器连接到1个机架单元的NVLink Switch系统。

新一代DGX SuperPOD可提供1Exaflops的FP8 AI性能，比上一代产品性能高6倍，能够运行具有数万亿参数的大型语言模型工作负载;还有20TB的HBM3显存、192TFLOPS的SHARP网络计算性能。

通过采用Quantum-2 InfiniBand连接及NVLink Switch系统，新DGX SuperPOD架构在GPU之间移动数据的带宽高达70TB/s，比上一代高11倍。

Quantum-2 InfiniBand交换机芯片拥有570亿个晶体管，能提供64个400Gbps端口。多个DGX SuperPOD单元可组合使用。

此外，英伟达推出新的DGX-Ready托管服务计划，以助力简化AI部署。其DGX Foundry托管的开发解决方案正在全球扩展，北美、欧洲和亚洲的新增地点支持远程访问DGX SuperPOD。

DGX Foundry中包含英伟达Base Command软件，该软件能够使客户基于DGX SuperPOD基础设施，轻松管理端到端AI开发生命周期。

3、Eos：全球运行速度最快的AI超算

黄仁勋还透露说，英伟达正在打造Eos超级计算机，并称这是“首个Hopper AI工厂”，将于数月后推出。

该超算包含18个DGX POD、576台DGX H100系统，共计4608块DGX H100 GPU，预计将提供18.4Exaflops的AI算力，这比目前运行速度最快的日本富岳(Fugaku)超级计算机快4倍。在传统科学计算方面，Eos预计可提供275Petaflops的性能。

三、由两个CPU组成的超级芯片

除了GPU外，英伟达数据中心“三芯”战略中另一大支柱CPU也有新进展。

今日，英伟达推出首款面向HPC和AI基础设施的基于Arm Neoverse的数据中心专属CPU——Grace CPU超级芯片。

这被黄仁勋称作“AI工厂的理想CPU”。

据介绍，Grace Hopper超级芯片模组能在CPU与GPU之间进行芯片间的直接连接，其关键驱动技术是内存一致性芯片之间的NVLink互连，每个链路的速度达到900GB/s。

Grace CPU超级芯片也可以是由两个CPU芯片组成。它们之间通过高速、低延迟的芯片到芯片互连技术NVLink-C2C连在一起。

它基于最新的Armv9架构，单个socket拥有144个CPU核心，具备最高的单线程核心性能，支持Arm新一代矢量扩展。

在SPECrate®2017_int_base基准测试中，Grace CPU超级芯片的模拟性能得分为740，据英伟达实验室使用同类编译器估算，这一结果相比当前DGX A100搭载的双CPU高1.5倍以上。

此外，Grace CPU超级芯片可实现当今领先服务器芯片内存带宽和能效的2倍。

其依托带有纠错码的LPDDR5x内存组成的创新的内存子系统，能实现速度和功耗的最佳平衡。LPDDR5x内存子系统提供两倍于传统DDR5设计的带宽，可达到1TB/s，同时功耗也大幅降低，CPU加内存整体功耗仅500瓦。

Grace CPU超级芯片可运行所有的英伟达计算软件栈，结合英伟达ConnectX-7网卡，能够灵活地配置到服务器中，或作为独立的纯CPU系统，或作为GPU加速服务器，可以搭配1块、2块、4块或8块基于Hopper的GPU。

也就是说，用户只维护一套软件栈，就能针对自身特定的工作负载做好性能优化。

黄仁勋说，Grace超级芯片有望明年开始供货。

四、为定制芯片集成开放NVLink，将支持UCIe小芯片标准

我们单独来说一下NVLink-C2C技术。

前面说的Grace CPU超级芯片系列、去年发布的Grace Hopper超级芯片都采用了这一技术来连接处理器芯片。

NVIDIA超大规模计算副总裁Ian Buck认为：“为应对摩尔定律发展趋缓的局面，必须开发小芯片和异构计算。”

因此，英伟达利用其在高速互连方面的专业知识开发出统一、开放的NVLink-C2C互连技术。

该技术将支持定制裸片与英伟达GPU、CPU、DPU、NIC和SoC之间实现一致的互连，从而通过小芯片构建出新型的集成产品，助力数据中心打造新一代的系统级集成。

NVLink-C2C现已为半定制芯片开放，支持其与NVIDIA技术的集成。

通过采用先进的封装技术，英伟达NVLink-C2C互连链路的能效最多可比NVIDIA芯片上的PCIe Gen 5高出25倍，面积效率高出90倍，可实现每秒900GB乃至更高的一致互联带宽。

NVLink-C2C支持Arm AMBA一致性集线器接口(AMBA CHI)协议，或CXL工业标准协议，可实现设备间的互操作性。当前英伟达和Arm正在密切合作，以强化AMBA CHI来支持与其他互连处理器完全一致且安全的加速器。

当前英伟达和Arm正在密切合作，以强化AMBA CHI来支持与其他互连处理器完全一致且安全的加速器。

NVIDIA NVLink-C2C依托于英伟达的SERDES和LINK设计技术，可从PCB级集成和多芯片模组扩展到硅插入器和晶圆级连接。这可提供极高的带宽，同时优化能效和裸片面积效率。

除NVLink-C2C之外，NVIDIA还将支持本月早些时候发布的通用小芯片互连传输通道UCIe标准。

与NVIDIA芯片的定制芯片集成既可以使用UCIe 标准，也可以使用NVLink-C2C，而后者经过优化，延迟更低、带宽更高、能效更高。

五、AI软件：对话式AI服务全面发行，推出推荐系统AI框架1.0版本

如今英伟达已经能提供全栈AI，除了AI计算硬件外，其AI软件也有不少进展。

黄仁勋说，AI已经从根本上改变了软件的能力以及开发软件的方式，过去十年，英伟达加速计算在AI领域实现了百万倍的加速。

今日，英伟达发布了60多个针对CUDA-X的一系列库、工具和技术的更新，以加速量子计算和6G研究、网络安全、基因组学、药物研发等领域的研究进展。

英伟达将使用其首台AI数字孪生超级计算机Earth-2来应对气候变化挑战，并创建了Physics-ML模型来模拟全球天气模式的动态变化。

英伟达还与来自加州理工学院、伯克利实验室等高校及科研机构的研究人员们开发了一个天气预报AI模型FourCastNet，该模型基于10TB的地球系统数据进行训练，首次在降水预测上达到比先进的数值模型更高的准确率，并使预测速度提高了4~5个数量级。以前，传统的数值模拟需要一年时间，而现在只需几分钟。

NVIDIA Triton是一款开源的、超大规模的模型推理服务器，是AI部署的“中央车站”，它支持CNN、RNN、GNN、Transformer等各种模型、各类AI框架及各类机器学习平台，支持在云、本地、边缘或嵌入式设备运行。

同时，黄仁勋宣布英伟达对话式AI服务Riva全面发行，Riva 2.0版本支持识别7种语言，可将神经文本转换为不同性别发声的语音，用户可通过其TAO迁移学习工具包进行自定义调优。

Maxine是一个AI模型工具包，现已拥有30个先进模型，可优化实时视频通信的视听效果。比如开远程视频会议时，Maxine可实现说话者与所有参会者保持眼神交流，并能将说的语言实时切换成另一种语言，而且音色听起来不变。

本次GTC发布的版本增加了用于回声消除和音频超分辨率的新模型。

此外，黄仁勋也宣布推出英伟达面向推荐系统的AI框架Merlin的1.0版本。

Merlin可帮助企业快速构建、部署和扩展先进的AI推荐系统。比如，微信用Merlin将短视频推荐延迟缩短为原来的1/4，并将吞吐量提升了10倍。从CPU迁移至GPU，腾讯在该业务上的成本减少了1/2。

在医疗健康领域，黄仁勋谈道，过去几年，AI药研初创公司获得了超400亿美元的投资，数字生物学革命的条件已经成熟，他称这将是“NVIDIA AI迄今为止最伟大的使命”。

6G标准于2026年左右问世，一些相关基础技术逐渐成形。对此，黄仁勋宣布推出了一款用于6G通信研究的AI框架Sionna。

六、Omniverse：首推数字孪生专用服务器和超级集群

黄仁勋认为，第一波AI学习是感知和推理，下一波AI的发展方向是机器人，也就是使用AI规划行动。英伟达Omniverse平台也正成为制造机器人软件时必不可少的工具。

作为虚拟世界的仿真引擎，Omniverse平台能遵循物理学定律，构建一个趋真的数字世界，可以应用于使用不同工具的设计师之间的远程协作，以及工业数字孪生。

黄仁勋认为，工业数字孪生需要一种专门构建的新型计算机，因此英伟达打造了面向工业数字孪生的OVX服务器和OVX SuperPOD超级集群。

OVX是首款Omniverse计算系统，由8个英伟达A40 RTX GPU、3个ConnectX-6 200Gbps网卡(NIC)和2个英特尔至强Ice Lake CPU组成。

32台OVX服务器可构成OVX SuperPOD超级集群，实现这一连接的关键设施是英伟达今日新推出的Spectrum-4以太网平台。

据悉，这是全球首个400Gbps端到端网络平台，其交换吞吐量比前几代产品高出4倍，聚合ASIC带宽达到51.2Tbps，支持128个400GbE端口。

Spectrum-4实现了纳秒级计时精度，相比典型数据中心毫秒级抖动提升了5~6个数量级。这款交换机还能加速、简化和保护网络架构。与上一代产品相比，其每个端口的带宽提高了2倍，交换机数量减少到1/4，功耗降低了40%。

该平台由英伟达Spectrum-4交换机系

关键词：虚拟空间 AI重磅新品

热点

文娱

科技