Nvidia TAO,不只是一間晶片公司的 AI 競爭優勢
如果視Nvidia純粹為一間晶片設計公司,這個看法基本上不正確。
* * * * *
在2021年4月的GTC (GPU Technology Conference)上,有很多項新的產品發佈,比較多是AI和Data Center相關,與Gaming相關是有但相對較少。YouTube上的GTC片很長,接近兩小時,看完之後,感覺很興奮但內容有點艱深。
在GTC之中,Jensen講解Nvidia科技的結構,分為四個部分:
- Omniverse,Isaac Sim - 結合現實世界和虛擬世界的應用,設計合作,模擬,機械人工廠
- Megatron,Drug Discovery,Quantum Computing,DGX,Grace,BlueField-3,DOCA 1.0 - AI Data Center和HPC(High Performance Computing)
- Jarvis,Merlin,Maxine,Morpheus,Nvidia AI,ESG on Aerial 5G - 企業,5G和Edge的應用
- DRIVE Sim,Hyperion 8,Atlan,Orin - 自動架駛的應用
不同産品去應付不同市場的需要,產品之多,我自己需要時間慢慢消化內容。今次先談Nvidia TAO(屬於以上第三個部分),之後有機會再分享其他。
在GTC,Jensen Huang多次強調Nvidia是一間Full Stack Computing Platform Company(全端運算平台公司)。
(參考:YouTube - GTC 2021 Keynote with NVIDIA CEO Jensen Huang)
重視開發者和用家體驗 - CUDA
通常拿出一塊晶片,最首先eye catching的是晶片在硬件上的規格如Number of Cores,運算速度等。
對於在現實世界之中使用,最終體驗是透過軟件上的效果:
- 對於開發者,開發的工作是否容易進行,開發的效率和所需的時間,軟件執行的速度。
- 對於用家,軟件執行的速度。
Nvidia的CUDA,是以上的關鍵。CUDA是Software Library,而且這個Software Library是有Domain Specific的分門別類去處理各行業的獨特應用場景和要求,令到開發者更有效率,大大減低開發所需要的時間。
Nvidia花了極大量資源去發展CUDA,去Optimize去不斷優化Performance,所以控制到整個Hardware和Software的Integrated Solution的效果,得到的運算速度提升不只是來自晶片本身的Upgrade。
Nvidia關注的不單是一塊晶片,而是End-to-End,Full Stack AI Computing Solution,整體的用家體驗。
所以即使AMD和Intel能夠做到和Nvidia同樣的晶片,不可以得到如Nvidia的體驗,因為欠缺各自的”CUDA”的部分,很難去做到Fully Optimized Performance,去解決不同Domain Specific應用場景的問題。
Nvidia GPU + CUDA成為一個如生態系統,當許多開發者造出產品,產品受到用家歡迎,再吸引更多開發者參與,形成一個良性循環的效果,就類似當年PC + Windows和iPhone + iOS的興起成為趨勢。(參考文章:NVIDIA : I AM AI)
Nvidia TAO縮短AI訓練的時間
如果一個客戶想使用Nvidia作為AI Solution,其實不是直接買一塊Nvidia晶片,當中涉及很多東西:
- Step 1 - Data Center的設置
- Step 2 - 電腦硬件的設置
- Step 3 - 軟件的設置
- Step 4 - AI的訓練,Machine Learning (機器學習) / Deep Learning (深度學習)
- Step 5 - AI的應用,Inferencing (推斷)
Step 1,如果是一間新成立的公司去設置Data Center,或者是因為AI運作需求而去建造新的Data Center,自己去建造Data Center需唔時極長,約3年。
Step 2,不同Server生產商有使用Nvidia CPU的Server,Nvidia亦有自己品牌的DGX Server,或是更高級的DGX SuperPOD。
Step 3,相信軟件會建基於CUDA,這就是CUDA的優勢。相信沒有人會完全不使用CUDA,而由零開始去做。
Nvidia提供Nvidia GPU Cloud (NGC),等於直接解決了Step 1-3,Nvidia的角色是如一個Cloud Service Provider。
Nvidia TAO是一個新的服務,內含已經由大量Data訓練了的Pre-Trained AI Model,客戶要做的是利用自己獨有的Data再進行Customized Training,去做到更加度身訂造的效果,令到更加準確去應付自己獨有的應用場景。(情況好像,Nvidia AI Solution如一個有超級學習能力的腦袋,以往的模式,客戶得到的這個腦袋的空白的,然後利用大量Data去由零開始去進行架駛的訓練。Nvidia TAO提供的這個腦袋,已經在美國的道路上練成十年的架駛經驗,作為客戶要的是讓腦袋學習香港獨有的架駛環境,大大縮短學習時間。)
Nvidia TAO解決了Step 4的大部分過程。
AI如一套半煮熟的包裝套餐
GTC介紹了Nvidia TAO的應用,包括:Jarvis(Conversation AI對話式人工智能)應用在電訊公司的Call Center,和Metropolis(Smart City智慧城市)應用在車廠。
Jarvis功能包括:語音識別,語言理解,翻譯,語音合成,Pre-Trained AI Model是經過數以百萬計GPU hours的訓練,以十億計頁的文本,約6萬小時多種語言的對話,不同的口音/腔調/術語,不同的環境(單單一個客戶,幾乎是不可能一下子自行去進行此規模的訓練,或是投入的時間超級巨大,還有人力物力的投入,Nvidia TAO正正解決了此問題)。Out of the Box已經可以達到90%語音識別的準確程度。現在支援以下語言:英語,日語,西班牙語,法語,德語,俄語。
Nvidia本身硏發涉及大量Data和Training,應用涉及不同行業和範疇,這些訓練的成果和資源,即Pre-Trained AI Model,變成可以通過Nvidia TAO提供的服務,效果如同超市出售一套半煮熟的包裝套餐,令到AI成為一件很容易到達用戶手中並使用的產品。這些如Data和Software的服務,不是硬件製造,相信可以做到毛利率相當高。
Nvidia所做的,不是把一塊生產出來的晶片扔給用家去自行研究如何造出AI Solution。
以上的服務,明顯地超出一般晶片設計公司普遍的業務範圍。
結語
現今在晶片設計上,Nvidia的競爭對手,比較有力量的是AMD和Intel。這兩個競爭對手要在AI世界競賽上追上Nvidia,仍然有一個不是少的距離。
Nvidia靠著是創意和產品多樣性,已經超越一般人對於晶片設計公司的Business Model的理解,Nvidia TAO只是其中一個例子。公司對AI業務和Data Center有深度的洞見,加上具前膽性眼光,我相信Nvidia有能力提升到另一個層次。
參考文章
NVIDIA GTC (2021/4月) 總結,未來的產品佈局
NVIDIA DGX SUPERPOD,AI 超級電腦成為一件可接觸的產品
NVIDIA DRIVE AV (AUTONOMOUS VEHICLE) 自動架駛,增長賽道就在前面
NVIDIA OMNIVERSE,一個指向 METAVERSE 元宇宙的實現
NVIDIA 數據中心市場產品 - BLUEFIELD 2 / 2X DPU DATA PROCESSING UNIT
Comments
Post a Comment