Nvidia TAO,不只是一間晶片公司的 AI 競爭優勢

如果視Nvidia純粹為一間晶片設計公司,這個看法基本上不正確。

* * * * *

在2021年4月的GTC (GPU Technology Conference)上,有很多項新的產品發佈,比較多是AI和Data Center相關,與Gaming相關是有但相對較少。Youtube上的GTC片很長,接近兩小時,看完之後,感覺很興奮但內容有點艱深。

在GTC之中,Jensen講解Nvidia科技的結構,分為四個部分:

  • RTX - Omniverse,Isaac,去創作和模擬,是虛擬世界的應用,包括design collaboration,simulation,robotic factory
  • DGX / Grace / BlueField / DOCA - High Performance Data Center,包括AI,Drug Discovery,Quantum Computing
  • EGX / 5G - 包括Jarvis,Merlin,Maxine,Morpheus,Nvidia AI,透過5G和Edge的應用
  • Hyperion / Atlan / Orin - DRIVE平台,自動架駛的應用

不同産品去應付不同市場的需要,產品之多,我自己需要時間慢慢消化內容今次先談Nvidia TAO(屬於以上第三個部份),之後有機會再分享其他。

在GTC,Jensen Huang多次強調Nvidia是一間Full Stack Computing Platform Company(全端運算平台公司)。

(參考:Youtube - GTC 2021 Keynote with NVIDIA CEO Jensen Huang

重視開發者和用家體驗 - CUDA

通常拿出一塊晶片,最首先eye catching的是晶片在硬件上的規格如Number of Cores,運算速度等。

對於在現實世界之中使用,最終體驗是透過軟件上的效果:

  • 對於開發者,開發的工作是否容易進行,開發的效率和所需的時間,軟件執行的速度。
  • 對於用家,軟件執行的速度。

Nvidia的CUDA,是以上的關鍵。CUDA是Software Library,而且這個Software Library是有Domain Specific的分門別類去處理各行業的獨特應用場景和要求,令到開發者更有效率,大大減低開發所需要的時間。

Nvidia花了極大量資源去發展CUDA,去Optimize去不斷優化Performance,所以控制到整個Hardware和Software的Integrated Solution的效果,得到的運算速度提升不只是來自晶片本身的Upgrade。

Nvidia關注的不單是一塊晶片,而是End-to-End,Full Stack AI Computing Solution,整體的用家體驗。

所以即使AMD和Intel能夠做到和Nvidia同樣的晶片,不可以得到如Nvidia的體驗,因為欠缺各自的”CUDA”的部份,很難去做到Fully Optimized Performance,去解決不同Domain Specific應用場景的問題。

Nvidia GPU + CUDA成為一個如生態系統,當許多開發者造出產品,產品受到用家歡迎,再吸引更多開發者參與,形成一個良性循環的效果,就類似當年PC + Windows和iPhone + iOS的興起成為趨勢。(參考文章:NVIDIA : I AM AI

Nvidia TAO縮短AI訓練的時間

如果一個客戶想使用Nvidia作為AI Solution,其實不是直接買一塊Nvidia晶片,當中涉及很多東西:

  • Step 1 - Data Center的設置
  • Step 2 - 電腦硬件的設置
  • Step 3 - 軟件的設置
  • Step 4 - AI的訓練,Machine Learning (機器學習) / Deep Learning (深度學習)
  • Step 5 - AI的應用,Inferencing (推斷)

Step 1,如果是一間新成立的公司去設置Data Center,或者是因為AI運作需求而去建造新的Data Center,自己去建造Data Center需唔時極長,約3年。

Step 2,不同Server生產商有使用Nvidia CPU的Server,Nvidia亦有自己品牌的DGX Server,或是更高級的DGX SuperPOD。

Step 3,相信軟件會建基於CUDA,這就是CUDA的優勢。相信沒有人會完全不使用CUDA,而由零開始去做。

Nvidia提供Nvidia GPU Cloud (NGC),等於直接解決了Step 1-3,Nvidia的角色是如一個Cloud Service Provider。

Nvidia TAO是一個新的服務,內含已經由大量Data訓練了的Pre-Trained AI Model,客戶要做的是利用自己獨有的Data再進行Customized Training,去做到更加度身訂造的效果,令到更加準確去應付自己獨有的應用場景。(情況好像,Nvidia AI Solution如一個有超級學習能力的腦袋,以往的模式,客戶得到的這個腦袋的空白的,然後利用大量Data去由零開始去進行架駛的訓練。Nvidia TAO提供的這個腦袋,已經在美國的道路上練成十年的架駛經驗,作為客戶要的是讓腦袋學習香港獨有的架駛環境,大大縮短學習時間。)

Nvidia TAO解決了Step 4的大部份過程。

AI如一套半煮熟的包裝套餐

GTC介紹了Nvidia TAO的應用,包括:Jarvis(Conversation AI對話式人工智能)應用在電訊公司的Call Center,和Metropolis(Smart City智慧城市)應用在車廠。

Jarvis功能包括:語音識別,語言理解,翻譯,語音合成,Pre-Trained AI Model是經過數以百萬計GPU hours的訓練,以十億計頁的文本,約6萬小時多種語言的對話,不同的口音/腔調/術語,不同的環境(單單一個客戶,幾乎是不可能一下子自行去進行此規模的訓練,或是投入的時間超級巨大,還有人力物力的投入,Nvidia TAO正正解決了此問題)。Out of the Box已經可以達到90%語音識別的準確程度。現在支援以下語言:英語,日語,西班牙語,法語,德語,俄語。

Nvidia本身硏發涉及大量Data和Training,應用涉及不同行業和範疇,這些訓練的成果和資源,即Pre-Trained AI Model,變成可以通過Nvidia TAO提供的服務,效果如同超市出售一套半煮熟的包裝套餐,令到AI成為一件很容易到達用戶手中並使用的產品。這些如Data和Software的服務,不是硬件製造,相信可以做到毛利率相當高。

Nvidia所做的,不是把一塊生產出來的晶片扔給用家去自行研究如何造出AI Solution。

以上的服務,明顯地超出一般晶片設計公司普遍的業務範圍。

結語

現今在晶片設計上,Nvidia的競爭對手,比較有力量的是AMD和Intel。這兩個競爭對手要在AI世界競賽上追上Nvidia,仍然有一個不是少的距離。

Nvidia靠著是創意和產品多樣性,已經超越一般人對於晶片設計公司的Business Model的理解,Nvidia TAO只是其中一個例子。公司對AI業務和Data Center有深度的洞見,加上具前膽性眼光,我相信Nvidia有能力提升到另一個層次。

以上不是投資建議,只是個人分享,歡迎大家留言討論。


參考文章

NVIDIA GRACE CPU,在數據中心的晶片之戰

NVIDIA 數據中心市場產品 - BLUEFIELD 2 / 2X DPU DATA PROCESSING UNIT

NVIDIA : I AM AI

Comments

Popular Posts