Nvidia DGX SuperPOD,AI 超級電腦成為一件可接觸的產品

新的AI處理模式,新的AI電腦品種

AI得到爆發性發展,可以見到需要一種新的AI電腦去開發軟件,達至有處理一項工作的邏輯的能力,這個是透過使用大量Data作AI訓練。這個過程如同電腦的程式自己去理解並編寫新的程式,生成為製成品,這是人類都不能編寫出來的程式。這種新的AI電腦需要新的晶片,新的系統架構,新的網絡設置,新的軟件,新的方法模型,新的工具等。

Nvidia已經投入大量資源去發展了一段時間,去研發如何幫助各行業去達到以上的AI運算量方式,提供的解決方案是Nvidia DGX作為一種AI Computer。它是一個集成系統(Integrated System),有多種不同的選項和設置去做出不同效果,乎合不同的需要。

市場和各行業

Nvidia CEO,Jensen指出已經見到各行業廣泛採用DGX去加速AI研發,包括:頂尖大學,醫院,環球電訊公司,銀行,消費產品公司,車輛製造商,航天公司等。DGX作為一部有高速運算能力AI電腦,配合AI研究人員更有效率地工作,值得留意這些專業人士是市場上少有専材,加上AI涉及大量運算時間,工作時間都是一項重要成本,一件是否合適並有效率的工具,直接影響到成果,是事半功倍,或事倍功半。

各行各業都面對各自市場的競爭,最好的AI研究人員和最後好的軟件工程師,需要最好的AI電腦。

DGX 系列產品

包括以下:

  • DGX A100 - AI Data Center Building Block,它是系統中最基礎的AI電腦,提供5 petaFLOPS的運算能力,超快速儲存空間,網絡連接。

  • DGX Station - AI Data Center-in-a-Box,足夠一個Workgroup工作組使用。 

  • DGX SuperPOD - AI Data Center As-a-Product,完全集成fully integrated,網絡優化network optimized,適合對於AI研發有密集式高要求去使用。

Nvidia內部擁有的一部SuperComputer,名為Selene,由4部DGX SuperPOD組成,它是現時World Top 500全球超級電腦中,排名第五及工業用超級電腦中最快。

DGX Station 320G可以用作大型AI Training Model的訓練,32GB superfast HBM2記憶,連接4個A100 GPU,超過8 Terabytes per second bandwidth,這個如同在傳統設置下40部CPU Servers達到的memory bandwidth。它有是使用普通電源插坐,用電量1500 Watts,設有液體冷卻,只產生37 db音量。

提供如此運算能力,傳統的CPU Cluster成本約以百萬USD計。DGX Station的價錢為149,000 USD,或9,000 USD Monthly Subscription,作為AI研究人員的一項標準工具。

今次最新的DGX SuperPOD包括以下三項主要升級: 

  • 80 gigabyte A100,90 terabytes of HBM2 memory, 達到2.2 exabytes per second. 這個如同傳統11,000 CPU Servers達到的bandwidth,需要250-rack,佔用空間是SuperPOD的15倍。

  • SuperPOD使用最新BlueField-2去提升網絡安全性,Cloud Native,Multi Tenants Sharable,Fill Isolation

  • 包括Base Command,這是DGX系統管理及編排的工具,以應付覆雜的工作環境和高用量,可以支持千計工程人員,超過200個團隊,每週一百萬GPU hours。

DGX SuperPOD價錢由7 Million USD起,到大型完整系統為60 Million USD。

DGX SuperPOD適合處理越來越超級龐大AI Training Model的研發,例如:Natural Language Processing,Drug Discovery等。

結語

在過去二十至三十年前,我聽到Super Computer,通常是國家或大學的大型科學研究,或某些頂尖企業擁有作特別用途。需要非常覆雜設置,如度身訂造,未必有公司願意發展此為標準產品。

近年AI的興起,令到電腦運算能力的要求爆發式增長,傳統CPU已經觸及Death of Moore’s Law階段,Nvidia靠著GPU  + CUDA成為新的AI Eco System生態系統,證明公司擁有的AI競爭優勢。對比傳統的CPU Servers,Nvidia做到價錢更平,更省空間,更省電。

一般人在日常生活,AI應用已經不知不覺間滲入其中,例如:語音 / 文字識別和生成,人面識別,網上廣告,網購推薦,Covid-19肺炎的疫苗研究等,AI應用的趨勢是不會逆轉,企業和機構都會加大AI研發。隨之而來是Nvidia令到AI Super Computer商品化,超級電腦不再是只在科學實驗室才見到的設備。


參考文章

NVIDIA GTC (2021/4月) 總結,未來的產品佈局

NVIDIA DRIVE AV (AUTONOMOUS VEHICLE) 自動架駛,增長賽道就在前面

NVIDIA OMNIVERSE,一個指向 METAVERSE 元宇宙的實現

NVIDIA GRACE CPU,在數據中心的晶片之戰

NVIDIA TAO,不只是一間晶片公司的AI 競爭優勢

NVIDIA 數據中心市場產品 - BLUEFIELD 2 / 2X DPU DATA PROCESSING UNIT

NVIDIA 收購 ARM 的跟進 - ARM DEV SUMMIT 2020

NVIDIA 收購 ARM,背後想甚麽

NVIDIA : I AM AI

半導體系列 (3) 半導體行業的改朝換代

半導體系列 (2) 半導體時代,這次不一樣,THIS TIME IS DIFFERENT ?

半導體系列 (1) 半導體產業鏈

Comments

  1. 師兄真係極度睇好NVDA, 雖然難理解但又知道多一點NVDA未來發展, 依然很有增長潛力, 謝謝分享

    ReplyDelete
    Replies
    1. 謝謝Ed
      一個比較簡單指標,每期業績有powerpoint列出Revenue收入by sector,見到Data center增長和Gaming相同,末來如果發展正路,Data Center會蓋過

      Delete
  2. 多謝介紹, 我又買少少開始建倉先

    ReplyDelete
    Replies
    1. 謝謝wengerfans
      此股比較波動,現時偏貴。分注安全一點

      Delete
  3. 回顧

    Nvidia Q1
    Revenue+84%
    GAAP EPS+106%

    Revenue Gaming+106%
    Revenue Data Center+79%

    ReplyDelete

Post a Comment

Popular Posts