Nvidia發(fā)布Azure云超級(jí)計(jì)算機(jī)、Magnum IO和Arm服務(wù)器架構(gòu)參考平臺(tái)
GPU制造商N(yùn)vidia今天宣布了三項(xiàng)超級(jí)計(jì)算機(jī)相關(guān)創(chuàng)新,旨在擴(kuò)展設(shè)計(jì)以便在更多數(shù)據(jù)中心內(nèi)支持人工智能工作負(fù)載。
特別是Nvidia引入了基于Arm的服務(wù)器參考架構(gòu)、可擴(kuò)展的微軟Azure云可訪問超級(jí)計(jì)算機(jī)、面向數(shù)據(jù)科學(xué)家和人工智能的Magnum IO軟件套件。Nvidia的GPU已經(jīng)成為人工智能的首選處理器,因?yàn)镹vidia的GPU提供了支持圖形和游戲的高度并行處理,被證明是機(jī)器學(xué)習(xí)的理想選擇。
針對(duì)人工智能的Arm服務(wù)器架構(gòu)參考平臺(tái)
Nvidia首席執(zhí)行官黃仁勛今天在SC19超級(jí)計(jì)算大會(huì)上發(fā)布了基于Arm的服務(wù)器架構(gòu)參考平臺(tái)。這個(gè)由硬件和軟件構(gòu)建塊組成的參考設(shè)計(jì)平臺(tái),將使高性能計(jì)算開發(fā)行業(yè)能夠利用更為廣泛的CPU架構(gòu)。
該平臺(tái)將使超級(jí)計(jì)算中心、超大規(guī)模云運(yùn)營商和企業(yè)把Nvidia基于CUDA軟件的圖形計(jì)算芯片與最新基于Arm的服務(wù)器平臺(tái)相結(jié)合。
黃仁勛表示:“高性能計(jì)算領(lǐng)域正在復(fù)興。機(jī)器學(xué)習(xí)和人工智能技術(shù)的突破,正在重新定義著各種科學(xué)方法,并為新架構(gòu)提供了機(jī)會(huì)。將Nvidia GPU帶入Arm體系中,將為創(chuàng)新者打開一扇大門,為創(chuàng)建從超大規(guī)模云到百億億次超級(jí)計(jì)算乃至更多新應(yīng)用提供了系統(tǒng)。”
為了構(gòu)建這個(gè)參考平臺(tái),Nvidia與Arm及其生態(tài)系統(tǒng)合作伙伴(包括Ampere Computing、Fujitsu和Marvell)展開了合作,以及與HPE及其子公司Cray的深度合作。
基于微軟Azure云的Nvidia超級(jí)計(jì)算機(jī)
Nvidia還宣布開始支持微軟Azure云NDv2超大型實(shí)例,該實(shí)例使用多達(dá)800個(gè)Nvidia Tensor Core GPU,連接到一個(gè)Mellanox InfiniBand后端網(wǎng)絡(luò)上。
Nvidia表示,這讓客戶第一次可以在辦公桌上就能按需租用整個(gè)人工智能超級(jí)計(jì)算機(jī)。
Nvidia副總裁兼加速計(jì)算總經(jīng)理Ian Buck表示:“到目前為止,仍然只有全球最大型的企業(yè)組織能夠使用面向人工智能和高性能計(jì)算的超級(jí)計(jì)算機(jī)。這款新產(chǎn)品實(shí)現(xiàn)了人工智能大眾化,讓人們使用一款基本工具就能解決一些最為嚴(yán)峻的挑戰(zhàn)。”
這款新產(chǎn)品非常適合人工智能和機(jī)器學(xué)習(xí)工作負(fù)載,其性能優(yōu)勢(shì)遠(yuǎn)遠(yuǎn)超過傳統(tǒng)基于CPU的計(jì)算。
微軟和Nvidia的工程師使用64個(gè)NDv2實(shí)例在集群的預(yù)發(fā)布版本上訓(xùn)練BERT(一種流行的自然語言會(huì)話AI模型),時(shí)間僅僅花費(fèi)了三個(gè)小時(shí),而且一部分是通過Nvidia CUDA核心技術(shù)和Mellanox互連實(shí)現(xiàn)的。
面向數(shù)據(jù)科學(xué)家和人工智能研究人員的Magnum IO
Magnum IO是一款軟件套件,旨在幫助數(shù)據(jù)科學(xué)家、人工智能和高性能計(jì)算研究人員能夠在數(shù)分鐘而不是數(shù)小時(shí)內(nèi)處理大量的數(shù)據(jù)。
該軟件套件和工具與傳統(tǒng)模型相比,當(dāng)處理海量數(shù)據(jù)集能夠?yàn)槎喾⻊?wù)器、多GPU計(jì)算節(jié)點(diǎn)提供高達(dá)20倍的數(shù)據(jù)傳輸速度,因此非常適合進(jìn)行大規(guī)模的復(fù)雜財(cái)務(wù)分析、氣候建模和其他高性能計(jì)算工作負(fù)載。
黃仁勛表示:“處理大量收集來的數(shù)據(jù)或者模擬數(shù)據(jù)是像人工智能這樣的數(shù)據(jù)科學(xué)的核心。”
Nvidia通過與計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)領(lǐng)域的眾多行業(yè)領(lǐng)導(dǎo)者緊密合作開發(fā)了Magnum IO,包括DataDirect Networks、Excelero、IBM、Mellanox和WekaIOLtd。
Magnum IO的核心是GPUDirect,該架構(gòu)允許數(shù)據(jù)繞過CPU并使用GPU、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備提供的“開放高速公路”來處理數(shù)據(jù),發(fā)布之初該架構(gòu)兼容眾多采用點(diǎn)對(duì)點(diǎn)和遠(yuǎn)程訪問直接內(nèi)存的通信互連。
黃仁勛表示:“極端計(jì)算需要極端的I/O。Magnum IO通過將Nvidia GPU加速——具有革命性的計(jì)算基數(shù)——引入I/O和存儲(chǔ)來實(shí)現(xiàn)這一點(diǎn),F(xiàn)在,人工智能研究人員和數(shù)據(jù)科學(xué)家不用等待漫長的數(shù)據(jù)處理,可以把精力放在完成自己的工作上。”
最新推出的元素是GPUDirect Storage,它讓研究人員可以在訪問存儲(chǔ)時(shí)繞過CPU,快速處理數(shù)據(jù)文件以進(jìn)行仿真、分析或可視化。
Nvidia Magnum IO現(xiàn)已上市,但不包含GPUDirect Storage,GPUDirect Storage僅面向某些選定的早期客戶,計(jì)劃于2020年上半年全面上市。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼
