ChatGPT 背後的科技 (2) AI 算力需求的大戰

February 15, 2023

ChatGPT 背後的科技 (2) AI 算力需求的大戰

網友問：

「那一隻股票只升不跌？」

ChatGPT答：

「沒有股票是永遠不會下跌的。即使表現良好的股票，也可能因經濟情況、公司績效和全球事件等因素而下跌。因此，投資是有風險的。

為了降低風險，建議多元化投資組合，並選擇來自不同部門和產業的公司進行投資。同時，您還應該注意全球市場和經濟情況，以及任何有可能影響特定股票或部門表現的即將到來的事件或公告。

建議在作出投資決策之前與財務顧問聯繫，以了解當前市場情況並獲得個性化的投資建議。」

. . . . .

答案不是完全被問題所引導，彷彿背後有某種理解能力。

對比過去使用Chatbot的經驗不佳，很多只是罐頭式答案，例如：在網購的客服，按 1 - xxxx，按 2 - yyyy），效果是有天淵之別。。

ChatGPT是Generative AI的一個應用例子，讓一般人都容易明白，AI發展趨勢及其可以達到的實際應用一面。

AI 算力的需求

晶片的需求，來自於AI算力的需求，AI算力需求的增長動力來自於：（上回討論：CHATGPT 背後的科技 (1) 背後使用什麼晶片？）

隨著科技的研發，更複雜的AI運算
更多的AI應用出現（不單單是ChatGPT，ChatGPT只是一個例子)
AI應用得到更多人使用

ChatGPT中的GPT - Generative Pre-trained Transformer，是一系列Language Models通常在大量文本數據上進行AI訓練，以生成類似人類的文本。

現在的ChatGPT是建基於GPT-3.5版本。

我第一次看到關於GPT這個字眼，是2021-2022年，在看Nvidia GTC Conference的影片，提到Google的GPT-3。（參考：NVIDIA GTC (2021/4月) 總結，未來的產品佈局 | NVIDIA GTC (2022/3月) OMNIVERSE，元宇宙平台）

AI 人工智能

AI Deep Learning 涉及兩個步驟：

Training 訓練 - 是事前的準備，是事先進行，是一件巨大的工作，通常需時長，可能以週或者以月計。

Inferencing 推理 - 是實際應用時，是每一個用家在應用時產生的需求，整體就是大量相對較細小的工作，要在短時間作出反應，例如：電動車在道路上的自動駕駛的行車中、用家向ChatGPT發出問題。

Training 訓練而獲得的結果，好像得到的知識，可以在推理中多次使用。當然在一段時間之後，要再次進行AI Training：

可能是訓練的模型升級（現在ChatGPT是建基於GPT-3.5版本）。

或者使用更新和更多的Training Dataset（現在ChatGPT是基於2021年的Dataset做AI Training）。

或者有些是Customized Training（包括使用過程中得到的回饋）。

即可見將來，ChatGPT要不斷再做AI Training。

ChatGPT覆蓋範圍十分濶，要求使用幾乎整個Internet進行AI訓練時，付出成本巨大。 OpenAI 尚未公佈確切的成本，但估計表明 GPT-3 是在大約 45 TB 的文本數據上進行訓練的。這大約是一百萬英尺的書架空間，或者整個美國國會圖書館的四分之一藏書。

回看以上，算力的需求的增長，受到的影響：

Training 訓練 = 1 + 2（+ 3，若果使用過程中得到的回饋，再作AI Training）

Inferencing 推理 = 1 + 2 + 3

GPT-3的功能包括：製作文檔摘要generate document summary, email phase completion，甚至可以理解你用英文表達的要求，然後去編寫出Program Code。GPT-3有175 Billion個Parameter，在三年之間增長了3000倍，Model Size是幾何級數般增長，以大約兩個半月時間double的速度增長，預計在2023年見到超過100 Trillion個Parameter的Model（一個粗略比較，人腦突觸Synapses約是125 Trillion之數）。

上圖中的Y-Axis是Parameter數目，以log scale顯示（1格是10倍，2格是100倍，如此類推），有寫Program的朋友會明白Parameter的用途，其數目的巨大及增長速度是十分恐怖，Parameter的數目代表著複雜程度，直接影響算力的需求。

這表示，AI Traning Model越來越巨大，運算時間可以是一個樽頸位Bottleneck。尤其AI訓練的時間，如果不是以日以月，可能甚至以年計，即使已經掌握解決問題的方法。

現在的ChatGPT是建基於GPT-3.5版本。

GPT-3的模型是比較GPT-2大100倍。

預計GPT-4的模型是比較GPT-3大500倍。

以上換代，模型以百位計倍數推進，化為算力的需求，將會是驚人的增長速度。

面對模型的不斷升級，AI就是算力的軍備競賽。

有更先進的AI模型和算法出現，需要更高階的晶片設計，需要不斷進步的先進製程（例如：TSM），需要更加精密的晶片生產設備（例如：ASML）。

OpenAI 的 CTO - Greg Brockman 在接受英國《金融時報》採訪時表示：「我們認為，擁有最大電腦的人將獲得最大的收益。」

以上多少預視長期之下AI算力需求的增長，就是晶片需求的增長。

（參考：GPT-4 Will Have 100 Trillion Parameters — 500x the Size of GPT-3）

Nvidia的優勢

ChatGPT的AI Training有使用10,000塊Nvidia GPU晶片。（參考：CHATGPT 背後的科技 (1) 背後使用什麼晶片？）

上圖是拉濶時間線，宏觀一點看幾十年間電腦算力的演變，Y-Axis都是log scale，即表示以幾何級數型式增長。近5-6年，其中一個應用就是來自AI，增長驚人。

Nvidia利用GPU晶片作為AI，以大量Cores作為Parallel Processing，加大效率去縮短AI訓練時間。A100就有6912 Cores。

Nvidia有出產晶片、DGX Station、DGX POD、DGX Super POD、CUDA軟件，可以完全控制由軟件到硬件，做到Full Stack Solution的Optimization（同樣加上大量使用Parallel Processing的特性）。換代不單是晶片效能提升，還有加上各硬件層及軟件層效能提升，自然可以更大幅提升算力的效能。

以過去大概十年時間計，