Nvidia GTC (2022/3月) Hopper H100 GPU,AI 基礎設施

 

作為AI基礎設施,原本的Ampere Architecture A100 GPU將會提升,下一代為Hopper Architecture H100 GPU,具800億個 transistor,使用台積電4N製程。

  • 設計包括Scale Up縱向擴展和Scale Out橫向擴展。

  • 40 terabits per second IO Bandwidth。

  • 運算能力,H100 的4 PF 運算在 FP8 是A100 FP16運算的六倍。

  • 運用作Transformer DL training model,加入transformer engine,提升效率,由過去以星期計提升至以日計。

  • 增加 Per-Instance Isolation (7),方便Cloud Srive Provider使用。

  • 支持Confidential Computing,資料可以在at-rest和in-transist時用密,增加安全性。

  • 加入新的DPX instruction set,提升原來算法的速度可以達40倍。

H100作為AI基礎設施的擴展,有多種不同的可能性:

  • DGX - 8 x H100 SXM modules,在HGX Mother Broad上利用NVLINK Switch連接,成為DGX AI 電腦系統。(原本的A100 DGX已經在市場取得不錯成績,Fortune Top 10有8個在使用,Fortune 100有44個在使用。)DGX令到8個H100成為一個巨大GPU,6400億個Transistor,32 petaFLOPS AI運算能力,640 GBHBM2 memory,24 terabytes per second memory bandwidth。DGX就是一個Building Block。 
  • DGX POD - 32 x DGX利用NVLINK Switch連接,成為DGX POD,有256個H100 GPU如一個巨大GPU,6400億個Transistor,32 petaFLOPS AI運算能力,20.5 TB HBM2 memory,768 terabytes per second memory bandwidth。
  • DGX SuperPOD - 利用多個DGX POD,透過NVLINK Switch連接,成為DGX SuperPOD

Nvidia正在建造Eos,是第一個Hopper AI Factory,18 x DGX PODs,576 x DGXs,4608 H100 GPUs。

應用在傳統Scientific Computing,Eos是275teraFLOPS,是對比現時在美國國內A100驅動的Summit之性能的1.4倍。

Eos是18.4 exaFLOPS,對比現在世界上最大的Supercomputer Fugaku(位於日本)之性能的4倍。

預計Eos將會成為AI最快的AI supercomputer,正在設置中,預計數個月後可以運作。

Eos可以作為一個示範的藍圖,各OEM生產商或者Cloud合作伙伴可以使用H100 DGX SuperPOD的全部或者個別組成部分。

Hopper H100大大提高AI運算性能。用作Transformer training model,軟件可以達到9倍提升。用作Large Language Model的Inferencing,H100的Throughput吞吐量是A100的30倍。

如果配合在傳統Server上使用,Data的移動很大樽頸在CPU和PCI Express,Nvidia提出解決方案是直接把CPU接到Network,是H100 CNX,傳送速度可以達到50 GB per second。

H100 系統可以乎合不同規模的應用,作為 Server的PCI Express Accelerator、DGX、DGX POD、DGX SuperPOD,全部具有兼容性可支持Nvidia HPC、Nvidia AI的CUDA Libraries生態系統。

關於Nvidia GTC (2022/3月),寫了四篇文章:

  • 本文 - H100 GPU,AI 基礎設施

還有一篇GTC (2022/3月)文章是關於Grace CPU的Update,下次發放,有興趣的朋友可以留意。

5月25日收市後有Nvidia 2022 Q1業績,大家注意,美股這段時間仍然飄忽,坐穩過山車。


下面的Page / Group,歡迎大家Like和Follow,就可以自動收到文章更新。
Facebook
https://facebook.com/duncaninvest
Instagram
https://instagram.com/duncannewinvest
Telegram
https://t.me/duncaninvest
謝謝支持!


參考文章

NVIDIA GTC (2022/3月) OMNIVERSE - ROBOTICS 機械人技術,ISAAC 和 METROPOLIS

NVIDIA GTC (2022/3月) OMNIVERSE - NVIDIA DRIVE 自動架駛

NVIDIA GTC (2022/3月) OMNIVERSE,元宇宙平台

NVIDIA 2021 Q4 業績,看發展進程,PROFESSIONAL VISUALIZATION (OMNIVERSE)

CES 2022,NVIDIA DRIVE 自動架駛

有一個元宇宙,叫 NVIDIA OMNIVERSE

NVIDIA,AMD,INTEL,晶片公司發佈,其實背後想講什麽?

NVIDIA GTC (2021/11月) 速報

NVIDIA GTC (2021/4月) 總結,未來的產品佈局

NVIDIA DGX SUPERPOD,AI 超級電腦成為一件可接觸的產品

NVIDIA DRIVE AV (AUTONOMOUS VEHICLE) 自動架駛,增長賽道就在前面

NVIDIA OMNIVERSE,一個指向 METAVERSE 元宇宙的實現

NVIDIA GRACE CPU,在數據中心的晶片之戰

NVIDIA TAO,不只是一間晶片公司的AI 競爭優勢

NVIDIA : I AM AI

Comments

  1. 謝謝介紹, 我既科技知識只係留於商業應用既programming, 最多只係用過最簡單既machine learning同NLP..
    Btw, 有個問題, 好elementary但一直唔係太知, 而家咁多人網上拍片, 好多片都好長, 又有串流, 想問下現時對於呢D海量既非文字複雜數據, 係點樣達到存儲? 即是說, youtube個感覺係, 好似完全無容量限制去製作video, Nvidea喺呢方面有無貢獻 (僅data center)? Thanks

    ReplyDelete
    Replies
    1. 謝謝Simon
      好似有一個可能性是MongoDB 的NoSQL格式

      Delete
  2. 太深,不能理解。另外nvda 出了earning,q2 guideline。真的受大陸training 影向减5B。我avg price 係220 可以熄機敞平了。

    ReplyDelete

Post a Comment

Popular Posts