您当前的位置：中海网>资讯 > 正文

英伟达发布“地表最强”AI新品市值超过6600亿美元

2022-03-24 10:28:59 来源：芯东西编辑：bj06

今日，NVIDIA(英伟达)携基于最新Hopper架构的H100 GPU系列新品高调回归!

英伟达创始人兼CEO黄仁勋依然穿着皮衣，不过这次他没有出现在几乎已成GTC大会“标配”的厨房场景中，而是在一个更具科幻感的虚拟空间。

延续以往风格，黄仁勋在主题演讲中继续秒天秒地秒空气，公布多个“全球首款”。这次他带来一系列堪称“地表最强”的AI重磅新品，随便一个精度的AI性能，都比上一代A100高出3~6倍。

虽然英伟达并购Arm的计划刚刚告吹，但它的数据中心“三芯”总路线(GPU+DPU+CPU)依然不动摇——继去年推出其首款数据中心CPU后，今天，英伟达又亮出一款基于Arm架构的Grace CPU超级芯片。

此外，黄仁勋再次派出自己的虚拟数字人化身“玩偶老黄”Toy Jensen，并跟这个表情生动的玩偶进行了一番流畅的实时问答对话。

凭借押中图形处理和人工智能(AI)两大赛道，英伟达已经成为全球半导体市值TOP1。截至文章发布时间，英伟达的市值超过6600亿美元，比第二名台积电足足多了近1100亿美元。

下面就让我们来看看本场GTC大会的完整干货：

1、H100 GPU：采用台积电4N工艺，拥有800亿个晶体管，实现了首个GPU机密计算，相比A100，FP8性能提升6倍，FP16、TF32、FP64性能各提升3倍。

2、全新NVLink Switch系统：高度可扩展，支持256块H100 GPU互连。

3、融合加速器H100 CNX：耦合H100 GPU与ConnectX-7和以太网智能网卡，可为I/O密集型应用提供更强劲的性能。

4、DGX H100：配备8块H100 GPU，总计有6400亿个晶体管，在全新的FP8精度下AI性能比上一代高6倍，可提供900GB/s的带宽。

5、DGX SuperPOD：最多由32个DGX H100组成，AI算力可达1EFLOPS。

6、Eos超级计算机：全球运行速度最快的AI超级计算机，配备576台DGX H100系统，FP8算力达到18EFLOPS，PF64算力达到275PFLOPS。

7、Grace CPU超级芯片：由两个CPU芯片组成，采用最新Armv9架构，拥有144个CPU核心和1TB/s的内存带宽，将于2023年上半年供货。

8、为定制芯片集成开放NVLink：采用先进封装技术，与英伟达芯片上的PCIe Gen 5相比，能源效率高25倍，面积效率高90倍。英伟达还将支持通用小芯片互连传输通道UCIe标准。

9、CUDA-X：60多个针对CUDA-X的一系列库、工具和技术的更新。

10、Riva 2.0：对话式AI服务Riva全面发行，2.0版本支持识别7种语言，可将神经文本转换为不同性别发声的语音。

11、Merlin 1.0：可帮助企业快速构建、部署和扩展先进的AI推荐系统。

12、Sionna：一款用于6G通信研究的AI框架。

13、OVX与OVX SuperPod：面向工业数字孪生的数据中心级服务器和超级集群。

14、Spectrum-4：全球首个400Gbps端到端网络平台，交换吞吐量比前几代产品高出4倍，达到51.2Tbps。

15、Omniverse Cloud：支持协作者们随时随地实现远程实时协同工作。

16、DRIVE Hyperion 9：汽车参考设计，拥有14个摄像头、9个雷达、3个激光雷达和20个超声传感器，总体传感器数量是上一代的两倍。

17、DRIVE Map：多模态地图引擎，包含摄像头、激光雷达和雷达的数据，同时兼顾安全性。

18、Clara HoloscanMGX：可供医疗设备行业在边缘开发和部署实时AI应用的计算平台，AI算力可达每秒254~610万亿次运算。

19、Isaac for AMR：提供自主移动机器人系统参考设计。

20、Jetson AGX Orin开发者套件：在边缘实现服务器级的AI性能。

黄仁勋还介绍了英伟达创建的NVIDIA AI加速计划，通过与AI生态系统中的开发者合作，开发工程化解决方案，以确保客户放心部署。

一、H100 GPU：800亿晶体管、六大创新

每次英伟达的GPU新架构都会以一位科学家的名字来命名，这次同样如此。

新Hopper架构的命名取自美国计算机科学家格蕾丝·赫柏(Grace Hopper)，她是耶鲁大学第一位数学女博士、世界上第三位程序员、全球首个编译器的发明者，也是第一个发现“bug”的人。

1945年9月9日，格蕾丝使用的Mark Ⅱ机出现故障，经过近一天的排查，她找到了故障的原因：继电器中有一只死掉的蛾子。后来，“bug”(小虫)和“debug”(除虫)这两个词汇就作为计算机领域的专用词汇流传至今。

基于Hopper架构的一系列AI计算新品，被冠上各种“全球首款”。按行业惯例，但凡比较AI算力，必会拿英伟达最新旗舰GPU作为衡量标准。

英伟达也不例外，先“碾压”一下自己两年前发布的上一代A100 GPU。

作为全球首款基于Hopper架构的GPU，英伟达 H100接过为加速AI和高性能计算(HPC)扛旗的重任，FP64、TF32、FP16精度下AI性能都达到A100的3倍。

可以看到，NVIDIA越来越热衷于走稀疏化路线。过去六年，英伟达相继研发了使用FP32、FP16进行训练的技术。此次H100的性能介绍又出现了新的Tensor处理格式FP8，而FP8精度下的AI性能可达到4PFLOPS，约为A100 FP16的6倍。

从技术进展来看，H100有6项突破性创新：

1)先进芯片：H100采用台积电4N工艺、台积电CoWoS 2.5D封装，有800亿个晶体管(A100有540亿个晶体管)，搭载了HBM3显存，可实现近5TB/s的外部互联带宽。

H100是首款支持PCIe 5.0的GPU，也是首款采用HBM3标准的GPU，单个H100可支持40Tb/s的IO带宽，实现3TB/s的显存带宽。黄仁勋说，20块H100 GPU便可承托相当于全球互联网的流量。

2)新Transformer引擎：该引擎将新的Tensor Core与能使用FP8和FP16数字格式的软件结合，动态处理Transformer网络的各个层，在不影响准确性的情况下，可将Transformer模型的训练时间从数周缩短至几天。

3)第二代安全多实例GPU：MIG技术支持将单个GPU分为7个更小且完全独立的实例，以处理不同类型的作业，为每个GPU实例提供安全的多租户配置。H100能托管7个云租户，而A100仅能托管1个，也就是将MIG的部分能力扩展了7倍。每个H100实例的性能相当于两个完整的英伟达云推理T4 GPU。

4)机密计算：H100是全球首款具有机密计算功能的GPU加速器，能保护AI模型和正在处理的客户数据，可以应用在医疗健康和金融服务等隐私敏感型行业的联邦学习，以及共享云基础设施。

5)第4代英伟达NVLink：为了加速大型AI模型，NVLink结合全新外接NVLink Switch，可将NVLink扩展为服务器间的互联网络，最多连接多达256个H100 GPU，相较于上一代采用英伟达 HDR Quantum InfiniBand网络，带宽高出9倍。

6)DPX指令：Hopper引入了一组名为DPX的新指令集，DPX可加速动态编程算法，解决路径优化、基因组学等算法优化问题，与CPU和上一代GPU相比，其速度提升分别可达40倍和7倍。

总体来说，H100的这些技术优化，将对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生、气候科学等任务的效率提升非常明显。

比如，用H100支持聊天机器人使用的monolithic Transformer语言模型Megatron 530B，吞吐量比上一代产品高出30倍，同时能满足实时对话式AI所需的次秒级延迟。

再比如用H100训练包含3950亿个参数的混合专家模型，训练速度可加速高达9倍，训练时间从几周缩短到几天。

H100将提供SXM和PCIe两种规格，可满足各种服务器设计需求。

其中H100SXM提供4 GPU和8 GPU配置的HGX H100服务器主板;H100 PCIe通过NVLink连接两块GPU，相较PCIe 5.0可提供7倍以上的带宽。PCIe规格便于集成到现有的数据中心基础设施中。

这两种规格的电力需求都大幅增长。H100 SXM版的散热设计功耗(TDP)达到700W，比A100的400W高出75%。据黄仁勋介绍，H100采用风冷和液冷设计。

这款产品预计于今年晚些时候全面发售。阿里云、AWS、百度智能云、谷歌云、微软Azure、Oracle Cloud、腾讯云和火山引擎等云服务商均计划推出基于H100的实例。

为了将Hopper的强大算力引入主流服务器，英伟达推出了全新的融合加速器H100 CNX。它将网络与GPU直接相连，耦合H100 GPU与英伟达ConnectX-7 400Gb/s InfiniBand和以太网智能网卡，使网络数据通过DMA以50GB/s的速度直接传输到H100，能够避免带宽瓶颈，为I/O密集型应用提供更强劲的性能。

二、更强企业级AI系统，全球最快AI超算

基于A100，英伟达最先进的企业级AI基础设施DGX H100系统、DGX POD、DGX SuperPOD以及一一登场。它们将从今年第三季度开始供应。

黄仁勋称，在财富10强企业和100强企业中，分别有8家和44家企业使用DGX作为AI基础架构。

英伟达DGX系统现在包含英伟达AI Enterprise软件套件，该套件新增了对裸金属基础设施的支持。DGX客户可使用软件套件中的预训练AI平台模型、工具包和框架来加快工作速度。

1、DGX H100：最先进的企业级AI基础设施

第四代英伟达DGX系统DGX H100是一款基于英伟达H100 Tensor Core GPU的AI平台。

每个DGX H100系统配备8块H100 GPU，总计有6400亿个晶体管，由NVLink连接，在全新的FP8精度下AI性能可达32Petaflops，比上一代系统性能高6倍。

DGX H100系统中每块GPU都通过第四代 NVLink连接，可提供900GB/s的带宽，是上一代系统的1.5倍。DGX H100的显存带宽可达24TB/s。

该系统支持双x86 CPU，每个系统还包含2个英伟达BlueField-3 DPU，用于卸载、加速和隔离高级网络、存储及安全服务。

8个英伟达ConnectX-7 Quantum-2 InfiniBand网卡能够

关键词：虚拟空间 AI重磅新品

热点

文娱

科技