2026年5月4日 星期一

本地跑LLM的算力需求

Prefill(預填充階段):運算性能。處理使用者輸入的提示詞,運算速度卡在GPU的性能。影響首字輸出時間(Time to First Token, TTFT),如果處理的的上下文很大,就需要花很長的時間才會開始輸出結果。比如說我的Radeon 780m能夠處理400t/s,處理32k的上下文大約得花80秒。

Decode(解碼階段):記憶體頻寬。逐一生成 Token 的過程,卡在GPU與VRAM之間的頻寬。每生成一個新 Token,模型都必須把所有的模型參數從顯示記憶體重新讀取到運算單元中一次,只為了計算「那一個」Token。以Radeon 780m為例,搭配雙通道DDR5-5600 SODIMM理論上有89.6GB/s的頻寬,跑Gemma 4 26B A4B Q5_K_M,因為量化加上只有啟動3.8B的參數,每次從記憶體讀取的量約為2.6GB。這樣可以估算生成速度約在34t/s,但實際上會有額外耗損,根據我的實測是在20~14t/s左右。不算快,但高於一般人的閱讀速度。我有試過跑Gemma 4 31B IQ4_XS的量化稠密模型,生成速度大約是2t/s,太慢了。

結論
如果要處理的文本很大,優先考慮GPU運算性能。
如果輸出的內容很大,優先考慮記憶體頻寬。

若是兩者都需要,RTX 6000 Blackwell 96GB在旁邊招手呢,一張約新台幣30萬左右,比買三張RTX 5090貴,但是配置較簡單。

沒有留言:

張貼留言