超算“猛将”英伟达:AI超算的未来已来?

2020-11-19 网络
浏览
[人工智能]超算“猛将”英伟达:AI超算的未来已来?

在谈英伟达的大计谋之前,明白两个主要事宜:

英伟达NVIDIA在2019年3月公然以69亿美圆现金收买Mellanox,该项生意营业终究在2020年4月尘埃落定。

英伟达NVIDIA在2020年9月宣告以400亿美圆现金加股票的体式款式,对软银旗下芯片设想公司、环球主要芯片架构供应商Arm举行收买。

这两件事变的胜利,为英伟达在芯片范畴的生长带来了更深切、更普遍的生长前景,以及更加利好的影响。从资本市场的表现便可见一斑,按周一美东时候11月16日16:00收盘时的价钱盘算,英伟达的总市值为3335.56亿美圆,险些快凌驾某友商市值的两倍。友商名字不方便宣布,人人可以猜猜看。

前些天业内朋侪叹息,这一年,过得太快了。实在,我更想叹息,英伟达的市值飙升得太快了。

但这市值增进的背地,却暗藏着英伟达的更大希图:超算大计谋。

依据最新的TOP500榜单排名显现,英伟达周全抢先,无论是针对超算范畴的盘算、收集照样HPC。

事实上,NVIDIA GPU和收集正在越来越多地用于加快世界上最快的超等盘算机。

一是,基于NVIDIA手艺构建的超算体系占比相对抢先,包含8个TOP10超算体系在内,近70%进入TOP500榜单的超算体系都基于NVIDIA手艺构建。

二是,NVIDIA Selene超等盘算机(HPC)在环球超等盘算机速率排行中位列第五。该超等盘算机基于NVIDIA DGX A100 640GB体系和NVIDIA Mellanox InfiniBand收集构建。

三是,在权衡体系动力效力的Green500榜单中,NVIDIA DGX SuperPOD体系位居榜首,获得业界一致一定。

从SC20(Supercomputing Conference)超算大会宣布的最新TOP500榜单可以看出,英伟达的超算大计谋势在必得,将在强化现有手艺才布置的前提下,明白了下一步计谋的“三驾马车”:GPU更强、HPC更快、收集更优。面向超算范畴,英伟达的计谋很明白,一点儿都不必暧昧,更强更快更优,也将会是其历久挺立超算范畴的制胜宝贝。

更强:GPU一起高歌猛进

在超算行业,强中自有强中手。作为超算范畴最好加持者,英伟达在GPU这条生长路上,可谓一起高歌猛进。

AI算力的壮大,再一次彰显了英伟达团体超算计谋的贤明。好像,这也是英伟达命中注定的好趋向,谁叫AI行业化,行业AI化的智能化时期来得云云之快呢。

针对数据中间GPU需求来看,英伟达以A100、A40、V100、T4、RTX 6000、RTX 8000多款业界着名的产物系列既已掩盖。

然则术业有专攻。针对大流量数据事情负载方面,AI算力的需求迥殊凸起,然则跟着NVIDIA A100 80GB GPU的涌现,异常有助于种种练习、推理和超等盘算运用等方面的生长,在速率和机能上得以亘古未有的满足。

作为英伟达创始人、现任CEO黄仁勋亲手推出的GPU力作,A100第一代产物是在几个月前的英伟达GTC 2020大会上初次表态的。

由于是基于英伟达安培(Ampere)架构的首款图形处置惩罚器,所以备受业界关注。当时A100引入了有着里程碑式意义的Tensor Cores双精度盘算手艺。要知道之前在NVIDIA V100 Tensor Core GPU上须要10个小时的双精度模仿功课,在A100上4小时即可完成。

NVIDIA A100 Tensor Core GPU针对AI、数据剖析和高机能盘算 (HPC)等运用上,完成了更强的加快,针对极为严重的盘算应战上有了更大作为。A100高效扩大性也很凸起,数千个A100 GPU在同一个体系中胜利完成集成,也可以应用NVIDIA多实例 GPU (MIG) 手艺将每一个A100 划分割为七个自力的GPU实例,获得对种种范围事情负载的加快。

ai.com/upload/2020/11/raumEj.png" class="aligncenter">

须要注重的是,这里针对HPC机能的对照中,仅限于NVIDIA V100 GPU第一代产物。

A100的涌现,对数据中间大范围的盘算带来了更强的优化结果,不仅一致了人工智能练习和推理,同时将天真、弹性加快的完成可能性向前又推进一步。

作为A100 GPU系列中的最新力作,A100 80GB GPU在继续了第一代A100 GPU的上风基础上,内存比第一代A100 GPU提拔一倍,也支持NVIDIA HGX AI超等盘算平台。

大内存容量和高带宽,关于AI与HPC实际运用的优点有目共睹,毕竟在这个范畴中一切都要以速率决胜负。全新A100采纳HBM2e手艺,可将A100 40GB GPU的高带宽内存增添一倍至80GB,供应每秒凌驾2TB的内存带宽。这使得数据可以疾速传输到环球最快的数据中间GPU A100上,使研讨人员可以更快地加快其运用,处置惩罚最大范围的模子和数据集。

由此,我们可以很轻易看到全新一代的加强A100 80GB GPU在HPC范畴的表现更加凸起,比拟最早一代2016年代表之作P100 GPU,A100 80GB GPU完成了HPC运用机能的11倍提拔。

ai.com/upload/2020/11/viiQve.png" class="aligncenter">

不仅云云,在深度进修、数据剖析、能效方面都获得了亘古未有的优化。

关于如RNN-T等自动言语辨认模子的AI推理,单个A100 80GB MIG实例可处置惩罚更大范围的批量数据,将生产中的推理吞吐量进步1.25倍。

在TB级零售大数据剖析基准上,A100 80GB将其机能进步了2倍,使其成为可对最大范围数据集举行疾速剖析的抱负平台。跟着数据的动态更新,企业可以及时做出症结决议计划。

关于科学运用,A100 80GB可为天气预报和量子化学等范畴供应庞大的加快。材料模仿软件Quantum Espresso采纳单节点A100 80GB完成了近2倍的吞吐量提拔。

ai.com/upload/2020/11/fYviyq.png" class="aligncenter">

从这几个比较典范的须要大批数据存储空间的运用来看,A100 80GB GPU在运用机能上确切成为新一代GPU的亮点。由此在架构特征上可以总结为几点:

一是,采纳第三代Tensor Core中间。经由过程全新TF32,将上一代Volta架构的AI吞吐量进步多达20倍。经由过程FP64,将HPC机能进步多达2.5倍。经由过程 INT8,将AI推理机能进步多达20倍,而且支持BF16数据格式。

二是,采纳更大、更快的HBM2e GPU内存。从而使内存容量增添一倍,在业内领先完成2TB/s以上的内存带宽。

三是,采纳MIG手艺,将单个自力实例的内存增添一倍,可最多供应七个MIG,每一个实例具有10GB内存。

四是,采纳结构化希罕手艺,将推理希罕模子的速率进步两倍。

五是,第三代NVLink和NVSwitch,相较于上一代互连手艺,可以使GPU之间的带宽增添至本来的两倍,将数据密集型事情负载的GPU数据传输速率进步至每秒600 gigabytes。

AI才的壮大,表现在GPU产物的推陈出新,以及GPU为行业运用带来革命性的转变。这就是英伟达的过人之处,好手艺带来行业转变和产业款式变化。

更智即更强。由此而言,关于超算行业的生长来讲,更智能也就天然表现得更加壮大了。

更快:HPC没有最快只要更快

超算的中间在于快,合作的代价在于更快。在超算范畴只要在超算体系上完成更快的速率,才完成超算体系团体才的更强。

作为强化AI算力的环球抢先厂商,英伟达新一代DGX Station A100和DGX A100 640GB挪动数据中间引起了我迥殊的注重,这也是在 SC20超等盘算大会上与A100 80GB GPU同期宣布的重量级产物。

ai.com/upload/2020/11/i67Vn2.png" class="aligncenter">

DGX Station A100的AI机能可以到达2.5 petaflops,经由过程NVIDIA NVLink完整互连,完成四个全新NVIDIA A100 80GB GPU融会在一起的事情组服务器,同时GPU内存高达320GB。更加迥殊是DGX Station A100也是唯一支持NVIDIA多实例GPU手艺(MIG)的事情组服务器。借助MIG,单一DGX Station A100最多可供应28个自力GPU实例以运转并行使命,并可在不影响体系机能的前提下支持多用户运用。

这也是环球唯一的千万亿级事情组服务器,云云机能超快的DGX Station A100,被业内称之为一体式AI数据中间,也就是说,用户借助一台DGX Station A100,就可以在任何地方布置AI超算中间了。

云云说来,作为服务器级的体系,DGX Station A100无需装备数据中间级电源或散热体系,却具有与NVIDIA DGX A100数据中间体系雷同的长途治理功用。当数据科学家和研讨人员在家中或实验室办公时,体系治理员可轻松地经由过程长途衔接,实行任何治理使命。

作为一台到处可得的AI超等盘算机,机能上的凸起表现尤其吸引人。为支持诸如BERT Large推理等庞杂的对话式AI模子,DGX Station A100比上一代DGX Station提速4倍以上。关于BERT Large AI练习,其机能进步近3倍。

ai.com/upload/2020/11/e6j2Az.png" class="aligncenter">

另外,全新DGX A100 640GB体系也将集成到企业版NVIDIA DGX SuperPOD解决方案,使机构能基于以20 个DGX A100体系为单元的一站式AI超等盘算机,完成大范围AI模子的构建、练习和布置。

ai.com/upload/2020/11/qmiEJf.png" class="aligncenter">

装备A100 80GB GPU的NVIDIA DGX SuperPOD体系将领先装置于英国的Cambridge-1超等盘算机,以加快推进医疗康健范畴研讨,以及佛罗里达大学的全新HiPerGator AI超等盘算机,该超等盘算机将赋力这一“阳光之州”展开AI赋能的科学发明。

因而可知,新一代DGX Station A100和DGX A100 640GB挪动数据中间的涌现,将给AI超等盘算机的行业款式带来一次新的震惊。环球云视察剖析,这有望将超算从传统超算时期推向真正的智能超算时期,那末英伟达一定就是个中无足轻重的使能者之一。同时AI超算上的立异也将由于NVIDIA A100 80GB GPU而再次迎来新的生长,对AI超算的行业运用提高带来了更大的生长潜力与空间。

更优:高效收集机能绝后

任何超算体系,离开了高效的收集,基本上谈不上超算。可见收集关于超算体系团体代价的孝敬缺一不可。

为此,英伟达并购Mellanox后,关于InfiniBand高效收集的机能发挥获得了绝后的提拔。

400G InfiniBand体系在之前听说过业内听说,没有想到英伟达现在很快变成了实际。“NVIDIA Mellanox 400G InfiniBand的海量吞吐量和智能加快引擎使HPC、AI和超大范围云基础设施可以以更低的本钱和庞杂性,完成了环球最具应战性的收集互连机能。”

为了支持更强更快的AI超算的须要,Mellanox 400G InfiniBand带来的加快才也是值得一看。Mellanox NDR 400G InfiniBand交换机,可供应3倍的端口密度和32倍的AI加快才。而且将框式交换机体系的聚合双向吞吐量进步了5倍,到达1.64 petabits/s,削减交换机使用量获得更大事情负载的支持,必定对用户团体运用本钱带来更优越的报答。

ai.com/upload/2020/11/N3Mn2i.png" class="aligncenter">

固然,好的产物,迥殊是在行业范畴有着手艺立异抢先性的产物,每每博得市场的认同更加普遍。

从一组财报数据来看,英伟达停止2020年7月26日的第二季度财报,营收为38.7亿美圆,创汗青新高,较去年同期的25.8亿美圆增进50%,较上一季度的30.8亿美圆增进26%。

个中有一个症结信息就是该季度数据中间方面营业收入出奇高增进,财报期内为17.5亿美圆,为2019年同期收入6.55亿美圆的两倍多。这也是数据中间范畴带来的收入初次涌现逾越英伟达建立以来的主营视频游戏范畴营业,财报期内视频游戏营业为16.5亿美圆。

就此来讲,英伟达在数据中间获得高速增进结果,与收买Mellanox有着密切相关。

可见,英伟达Mellanox在高效收集方面的机能表现,已博得了用户的心声,迥殊是在超算范畴,英伟达Mellanox的InfiniBand手艺一向备受瞩目。

小结:AI超算的将来已来

英伟达的超算大计谋,必定就是将AI加入到HPC中,并扩大至传统超等盘算中间以外的平台,从而引发了环球AI超算大趋向。

与此同时,立异效力超高的英伟达,在加快盘算范畴、HPC、收集三大范畴离别宣布了新一代A100 80GB GPU处置惩罚器、新一代DGX StationA100和DGX A100 640GB挪动数据中间、Mellanox 400G InfiniBand体系多款重磅新品,可谓三驾马车不相上下,以应对环球爆发式增进的数据处置惩罚需乞降日趋凸显的机械进修须要。这对环球超算团体款式的变化,带来异常主动的推进作用。

更强的GPU,更快的AI超算,更优的高效收集,也将成为英伟达延续向前生长的主要三部曲。