您当前的位置 :中海网>资讯 > 正文
英伟达发布“地表最强”AI新品 市值超过6600亿美元
2022-03-24 10:28:59 来源:芯东西 编辑:bj06

提供400GB/s的吞吐量,可用于连接计算和存储,这一速度比上一代系统提升了1倍。

2、DGX SuperPOD:FP8 AI能达1Exaflops

DGX H100系统是新一代英伟达DGX POD和DGX SuperPOD超级计算机的构建模块。

借助NVLink Switch系统,拥有32个节点、256个GPU的DGX Pod,其HBM3显存达20.5TB,显存带宽高达768TB/s。

“相比之下,整个互联网不过只有100TB/s。”黄仁勋感慨道。每个DGX都可借助4端口光学收发器连接到NVLink Switch,每个端口都有8个100G-PAM4通道,每秒能够传输100GB,32个NVLink收发器连接到1个机架单元的NVLink Switch系统。

新一代DGX SuperPOD可提供1Exaflops的FP8 AI能,比上一代产品能高6倍,能够运行具有数万亿参数的大型语言模型工作负载;还有20TB的HBM3显存、192TFLOPS的SHARP网络计算能。

通过采用Quantum-2 InfiniBand连接及NVLink Switch系统,新DGX SuperPOD架构在GPU之间移动数据的带宽高达70TB/s,比上一代高11倍。

Quantum-2 InfiniBand交换机芯片拥有570亿个晶体管,能提供64个400Gbps端口。多个DGX SuperPOD单元可组合使用。

此外,英伟达推出新的DGX-Ready托管服务计划,以助力简化AI部署。其DGX Foundry托管的开发解决方案正在全球扩展,北美、欧洲和亚洲的新增地点支持远程访问DGX SuperPOD。

DGX Foundry中包含英伟达Base Command软件,该软件能够使客户基于DGX SuperPOD基础设施,轻松管理端到端AI开发生命周期。

3、Eos:全球运行速度最快的AI超算

黄仁勋还透露说,英伟达正在打造Eos超级计算机,并称这是“首个Hopper AI工厂”,将于数月后推出。

该超算包含18个DGX POD、576台DGX H100系统,共计4608块DGX H100 GPU,预计将提供18.4Exaflops的AI算力,这比目前运行速度最快的日本富岳(Fugaku)超级计算机快4倍。在传统科学计算方面,Eos预计可提供275Petaflops的能。

三、由两个CPU组成的超级芯片

除了GPU外,英伟达数据中心“三芯”战略中另一大支柱CPU也有新进展。

今日,英伟达推出首款面向HPC和AI基础设施的基于Arm Neoverse的数据中心专属CPU——Grace CPU超级芯片。

这被黄仁勋称作“AI工厂的理想CPU”。

据介绍,Grace Hopper超级芯片模组能在CPU与GPU之间进行芯片间的直接连接,其关键驱动技术是内存一致芯片之间的NVLink互连,每个链路的速度达到900GB/s。

Grace CPU超级芯片也可以是由两个CPU芯片组成。它们之间通过高速、低延迟的芯片到芯片互连技术NVLink-C2C连在一起。

它基于最新的Armv9架构,单个socket拥有144个CPU核心,具备最高的单线程核心能,支持Arm新一代矢量扩展。

在SPECrate®2017_int_base基准测试中,Grace CPU超级芯片的模拟能得分为740,据英伟达实验室使用同类编译器估算,这一结果相比当前DGX A100搭载的双CPU高1.5倍以上。

此外,Grace CPU超级芯片可实现当今领先服务器芯片内存带宽和能效的2倍。

其依托带有纠错码的LPDDR5x内存组成的创新的内存子系统,能实现速度和功耗的最佳衡。LPDDR5x内存子系统提供两倍于传统DDR5设计的带宽,可达到1TB/s,同时功耗也大幅降低,CPU加内存整体功耗仅500瓦。

Grace CPU超级芯片可运行所有的英伟达计算软件栈,结合英伟达ConnectX-7网卡,能够灵活地配置到服务器中,或作为独立的纯CPU系统,或作为GPU加速服务器,可以搭配1块、2块、4块或8块基于Hopper的GPU。

也就是说,用户只维护一套软件栈,就能针对自身特定的工作负载做好能优化。

黄仁勋说,Grace超级芯片有望明年开始供货。

四、为定制芯片集成开放NVLink,将支持UCIe小芯片标准

我们单独来说一下NVLink-C2C技术。

前面说的Grace CPU超级芯片系列、去年发布的Grace Hopper超级芯片都采用了这一技术来连接处理器芯片。

NVIDIA超大规模计算副总裁Ian Buck认为:“为应对摩尔定律发展趋缓的局面,必须开发小芯片和异构计算。”

因此,英伟达利用其在高速互连方面的专业知识开发出统一、开放的NVLink-C2C互连技术。

该技术将支持定制裸片与英伟达GPU、CPU、DPU、NIC和SoC之间实现一致的互连,从而通过小芯片构建出新型的集成产品,助力数据中心打造新一代的系统级集成。

NVLink-C2C现已为半定制芯片开放,支持其与NVIDIA技术的集成。

通过采用先进的封装技术,英伟达NVLink-C2C互连链路的能效最多可比NVIDIA芯片上的PCIe Gen 5高出25倍,面积效率高出90倍,可实现每秒900GB乃至更高的一致互联带宽。

NVLink-C2C支持Arm AMBA一致集线器接口(AMBA CHI)协议,或CXL工业标准协议,可实现设备间的互操作。当前英伟达和Arm正在密切合作,以强化AMBA CHI来支持与其他互连处理器完全一致且安全的加速器。

当前英伟达和Arm正在密切合作,以强化AMBA CHI来支持与其他互连处理器完全一致且安全的加速器。

NVIDIA NVLink-C2C依托于英伟达的SERDES和LINK设计技术,可从PCB级集成和多芯片模组扩展到硅插入器和晶圆级连接。这可提供极高的带宽,同时优化能效和裸片面积效率。

除NVLink-C2C之外,NVIDIA还将支持本月早些时候发布的通用小芯片互连传输通道UCIe标准。

与NVIDIA芯片的定制芯片集成既可以使用UCIe 标准,也可以使用NVLink-C2C,而后者经过优化,延迟更低、带宽更高、能效更高。

五、AI软件:对话式AI服务全面发行,推出推荐系统AI框架1.0版本

如今英伟达已经能提供全栈AI,除了AI计算硬件外,其AI软件也有不少进展。

黄仁勋说,AI已经从根本上改变了软件的能力以及开发软件的方式,过去十年,英伟达加速计算在AI领域实现了百万倍的加速。

今日,英伟达发布了60多个针对CUDA-X的一系列库、工具和技术的更新,以加速量子计算和6G研究、网络安全、基因组学、药物研发等领域的研究进展。

英伟达将使用其首台AI数字孪生超级计算机Earth-2来应对气候变化挑战,并创建了Physics-ML模型来模拟全球天气模式的动态变化。

英伟达还与来自加州理工学院、伯克利实验室等高校及科研机构的研究人员们开发了一个天气预报AI模型FourCastNet,该模型基于10TB的地球系统数据进行训练,首次在降水预测上达到比先进的数值模型更高的准确率,并使预测速度提高了4~5个数量级。以前,传统的数值模拟需要一年时间,而现在只需几分钟。

NVIDIA Triton是一款开源的、超大规模的模型推理服务器,是AI部署的“中央车站”,它支持CNN、RNN、GNN、Transformer等各种模型、各类AI框架及各类机器学台,支持在云、本地、边缘或嵌入式设备运行。

同时,黄仁勋宣布英伟达对话式AI服务Riva全面发行,Riva 2.0版本支持识别7种语言,可将神经文本转换为不同别发声的语音,用户可通过其TAO迁移学工具包进行自定义调优。

Maxine是一个AI模型工具包,现已拥有30个先进模型,可优化实时视频通信的视听效果。比如开远程视频会议时,Maxine可实现说话者与所有参会者保持眼神交流,并能将说的语言实时切换成另一种语言,而且音色听起来不变。

本次GTC发布的版本增加了用于回声消除和音频超分辨率的新模型。

此外,黄仁勋也宣布推出英伟达面向推荐系统的AI框架Merlin的1.0版本。

Merlin可帮助企业快速构建、部署和扩展先进的AI推荐系统。比如,微信用Merlin将短视频推荐延迟缩短为原来的1/4,并将吞吐量提升了10倍。从CPU迁移至GPU,腾讯在该业务上的成本减少了1/2。

在医疗健康领域,黄仁勋谈道,过去几年,AI药研初创公司获得了超400亿美元的投资,数字生物学革命的条件已经成熟,他称这将是“NVIDIA AI迄今为止最伟大的使命”。

6G标准于2026年左右问世,一些相关基础技术逐渐成形。对此,黄仁勋宣布推出了一款用于6G通信研究的AI框架Sionna。

六、Omniverse:首推数字孪生专用服务器和超级集群

黄仁勋认为,第一波AI学是感知和推理,下一波AI的发展方向是机器人,也就是使用AI规划行动。英伟达Omniverse台也正成为制造机器人软件时必不可少的工具。

作为虚拟世界的仿真引擎,Omniverse台能遵循物理学定律,构建一个趋真的数字世界,可以应用于使用不同工具的设计师之间的远程协作,以及工业数字孪生。

黄仁勋认为,工业数字孪生需要一种专门构建的新型计算机,因此英伟达打造了面向工业数字孪生的OVX服务器和OVX SuperPOD超级集群。

OVX是首款Omniverse计算系统,由8个英伟达A40 RTX GPU、3个ConnectX-6 200Gbps网卡(NIC)和2个英特尔至强Ice Lake CPU组成。

32台OVX服务器可构成OVX SuperPOD超级集群,实现这一连接的关键设施是英伟达今日新推出的Spectrum-4以太网台。

据悉,这是全球首个400Gbps端到端网络台,其交换吞吐量比前几代产品高出4倍,聚合ASIC带宽达到51.2Tbps,支持128个400GbE端口。

Spectrum-4实现了纳秒级计时精度,相比典型数据中心毫秒级抖动提升了5~6个数量级。这款交换机还能加速、简化和保护网络架构。与上一代产品相比,其每个端口的带宽提高了2倍,交换机数量减少到1/4,功耗降低了40%。

平台由英伟达Spectrum-4交换机系

相关阅读
分享到: