ChatGPT 背後的科技 (2) AI 算力需求的大戰
網友問:
「那一隻股票只升不跌?」
ChatGPT答:
「沒有股票是永遠不會下跌的。即使表現良好的股票,也可能因經濟情況、公司績效和全球事件等因素而下跌。因此,投資是有風險的。
為了降低風險,建議多元化投資組合,並選擇來自不同部門和產業的公司進行投資。同時,您還應該注意全球市場和經濟情況,以及任何有可能影響特定股票或部門表現的即將到來的事件或公告。
建議在作出投資決策之前與財務顧問聯繫,以了解當前市場情況並獲得個性化的投資建議。」
. . . . .
答案不是完全被問題所引導,彷彿背後有某種理解能力。
對比過去使用Chatbot的經驗不佳,很多只是罐頭式答案,例如:在網購的客服,按 1 - xxxx,按 2 - yyyy),效果是有天淵之別。。
ChatGPT是Generative AI的一個應用例子,讓一般人都容易明白,AI發展趨勢及其可以達到的實際應用一面。
AI 算力的需求
晶片的需求,來自於AI算力的需求,AI算力需求的增長動力來自於:(上回討論:CHATGPT 背後的科技 (1) 背後使用什麼晶片?)
- 隨著科技的研發,更複雜的AI運算
- 更多的AI應用出現(不單單是ChatGPT,ChatGPT只是一個例子)
- AI應用得到更多人使用
ChatGPT中的GPT - Generative Pre-trained Transformer,是一系列Language Models通常在大量文本數據上進行AI訓練,以生成類似人類的文本。
現在的ChatGPT是建基於GPT-3.5版本。
我第一次看到關於GPT這個字眼,是2021-2022年,在看Nvidia GTC Conference的影片,提到Google的GPT-3。(參考:NVIDIA GTC (2021/4月) 總結,未來的產品佈局 | NVIDIA GTC (2022/3月) OMNIVERSE,元宇宙平台)
AI 人工智能
AI Deep Learning 涉及兩個步驟:
- Training 訓練 - 是事前的準備,是事先進行,是一件巨大的工作,通常需時長,可能以週或者以月計。
- Inferencing 推理 - 是實際應用時,是每一個用家在應用時產生的需求,整體就是大量相對較細小的工作,要在短時間作出反應,例如:電動車在道路上的自動駕駛的行車中、用家向ChatGPT發出問題。
Training 訓練而獲得的結果,好像得到的知識,可以在推理中多次使用。當然在一段時間之後,要再次進行AI Training:
- 可能是訓練的模型升級(現在ChatGPT是建基於GPT-3.5版本)。
- 或者使用更新和更多的Training Dataset(現在ChatGPT是基於2021年的Dataset做AI Training)。
- 或者有些是Customized Training(包括使用過程中得到的回饋)。
即可見將來,ChatGPT要不斷再做AI Training。
ChatGPT覆蓋範圍十分濶,要求使用幾乎整個Internet進行AI訓練時,付出成本巨大。 OpenAI 尚未公佈確切的成本,但估計表明 GPT-3 是在大約 45 TB 的文本數據上進行訓練的。這大約是一百萬英尺的書架空間,或者整個美國國會圖書館的四分之一藏書。
回看以上,算力的需求的增長,受到的影響:
- Training 訓練 = 1 + 2(+ 3,若果使用過程中得到的回饋,再作AI Training)
- Inferencing 推理 = 1 + 2 + 3
GPT-3的功能包括:製作文檔摘要generate document summary, email phase completion,甚至可以理解你用英文表達的要求,然後去編寫出Program Code。GPT-3有175 Billion個Parameter,在三年之間增長了3000倍,Model Size是幾何級數般增長,以大約兩個半月時間double的速度增長,預計在2023年見到超過100 Trillion個Parameter的Model(一個粗略比較,人腦突觸Synapses約是125 Trillion之數)。
上圖中的Y-Axis是Parameter數目,以log scale顯示(1格是10倍,2格是100倍,如此類推),有寫Program的朋友會明白Parameter的用途,其數目的巨大及增長速度是十分恐怖,Parameter的數目代表著複雜程度,直接影響算力的需求。
這表示,AI Traning Model越來越巨大,運算時間可以是一個樽頸位Bottleneck。尤其AI訓練的時間,如果不是以日以月,可能甚至以年計,即使已經掌握解決問題的方法。
- 現在的ChatGPT是建基於GPT-3.5版本。
- GPT-3的模型是比較GPT-2大100倍。
- 預計GPT-4的模型是比較GPT-3大500倍。
以上換代,模型以百位計倍數推進,化為算力的需求,將會是驚人的增長速度。
面對模型的不斷升級,AI就是算力的軍備競賽。
有更先進的AI模型和算法出現,需要更高階的晶片設計,需要不斷進步的先進製程(例如:TSM),需要更加精密的晶片生產設備(例如:ASML)。
OpenAI 的 CTO - Greg Brockman 在接受英國《金融時報》採訪時表示:「我們認為,擁有最大電腦的人將獲得最大的收益。」
以上多少預視長期之下AI算力需求的增長,就是晶片需求的增長。
(參考:GPT-4 Will Have 100 Trillion Parameters — 500x the Size of GPT-3)
Nvidia的優勢
ChatGPT的AI Training有使用10,000塊Nvidia GPU晶片。(參考:CHATGPT 背後的科技 (1) 背後使用什麼晶片?)
上圖是拉濶時間線,宏觀一點看幾十年間電腦算力的演變,Y-Axis都是log scale,即表示以幾何級數型式增長。近5-6年,其中一個應用就是來自AI,增長驚人。
Nvidia利用GPU晶片作為AI,以大量Cores作為Parallel Processing,加大效率去縮短AI訓練時間。A100就有6912 Cores。
Nvidia有出產晶片、DGX Station、DGX POD、DGX Super POD、CUDA軟件,可以完全控制由軟件到硬件,做到Full Stack Solution的Optimization(同樣加上大量使用Parallel Processing的特性)。換代不單是晶片效能提升,還有加上各硬件層及軟件層效能提升,自然可以更大幅提升算力的效能。
以過去大概十年時間計,
- Nvidia 透過晶片 / 硬件 / 軟件,提供了大約1,000倍的性能提升。
- Data Center更為合適採用Server Racking型式,提供了大約100,000倍的性能提升。
- 整體就是100,000,000 = Million X,以百萬位為單位的性能提升。
例如,在 2015 年,單個Kepler GPU 花了將近一個月的時間,來訓練流行的計算機視覺模型 ResNet-50。今天,我們在Super Computer - Selene 上用不到半分鐘的時間訓練了同一個模型,它配備了數千個 NVIDIA Ampere 架構 GPU。
對比傳統CPU如Intel,難做到高度Parallel Processing效果,就會受制於Moore’s Law。所以Nvidia在算力的大戰中的比較,是有一定取巧,但從用家的實際應用角度,又是十分真實。
根據 IDC 的數據,到 2021 年,Nvidia在企業 GPU 市場(AI 應用)的份額為 91.4%,而 AMD 為 8.5%。
(參考:Mega Factor: Three Forces Fuse for Computing’s Million-X Leap)
思考
去年在逆風的環境之下,TSM台積電的HPC是主打高階Data Center / AI用途,全年營收按年增長+59%。
我們正在身處於AI的科技變革之中。
下次再談。
《AI 投資時代.真的值得參與嗎?》
《科技戰國.尋找科技價值投資的故事》
https://instagram.com/duncannewinvest
Telegram
https://t.me/duncaninvest
謝謝支持!
參考文章
分餅仔,半導體公司 ASML / TSM / AMD / INTEL (2022/Q4)
ARM 可能不授權阿里巴巴使用 NEOVERSE V 晶片設計,NEOVERSE 有何重要性?
ASML INVESTOR DAY 2022,未來半導體行業是危?是機?
當 AI 遇上雲計算,NVIDIA 和 MICROSOFT / ORACLE 合作的 DEAL
NVIDIA GTC (2022/9月) ,NVIDIA 仍然是 NVIDIA,只是做回自己
看台績電業績,高性能計算 HPC (HIGH PERFORMANCE COMPUTING)
謝分享
ReplyDelete謝謝支持
Delete師兄覺得三大內地電訊商的算力能否受惠?
ReplyDelete普遍上,電訊商有data center會因為AI應用而受惠。
Delete不過如果ChatGPT的規模,是AI supercomputer級別,例如Microsoft Azure Cloud
又袋錢落袋,謝謝!
ReplyDelete謝謝淘井,我好希望文章寫得簡單易明
Delete因為工作關係要寫不少literature review。某一天,老闆扔了一篇由ChatGPT 寫的短文給我,不說的話我會以為是從現有文章中抄出來的東西,也分不清這是電腦的分析呢...
ReplyDelete是否抄,是觀點與角度
DeleteTrain係利用現有internet上資訊,當然佢有整合,不是direct copy
ChatGPT的智能,同样也是大数据来支撑?是否后续出现创新?
ReplyDeleteAI 訓練都基於大數據,未來有新創新都可能
Delete只看GPT的升級換代,模型的複雜性,已經是算力和晶片需求的持續高速增長