本地跑 AI 模型需要多少記憶體?

粗估公式:模型總參數 ÷ 2 GB = 模型壓縮後體積,再加 2-4 GB 系統開銷。例如 Gemma 3 27B 約需 18 GB 記憶體,32GB 桌機可用,16GB 筆電不夠。

MoE 模型的總參數和激活參數差在哪?

總參數決定要多少記憶體裝模型(整本書放進記憶體),激活參數決定每次思考的計算量(每次翻幾頁)。MoE 模型激活參數小所以跑得快,但總參數還是要全部載入記憶體,所以省的是速度不是記憶體。

一般人該選雲端 ChatGPT 還是自己架地端模型?

80% 的人應該選雲端。雲端 ChatGPT Plus 或 Claude Pro 月費 600-800 元,能力遠超你自己組機器跑的開源模型。地端只有在資料不能外流、想要客製化微調、或當興趣研究時才划算。

怎麼驗證一個模型擅長什麼領域?

兩步驟:第一步看第三方榜單(MMLU-Pro 看文字能力、LiveCodeBench 看寫程式、MMMU 看圖片理解、C-Eval 看中文)。第二步準備 20-30 題你實際工作會碰到的題目,蒙著比較不同模型的答案。榜單分數會作弊,自己跑題才準。

沒有獨立顯卡能跑本地大模型嗎?

技術上能,實用上不能。CPU 推理 30B 級模型每秒只吐 2-5 個字,等一封信要等三分鐘,用一次就放棄。要做地端 AI 的甜蜜點是一張 24GB VRAM 的顯卡(RTX 3090 / 4090),不然就走雲端。

為什麼 Ollama 用 GPU 跑 LLM 會輸出亂碼？

最常見原因是 GPU 的 f16 浮點計算精度不足，誤差在每一層累積放大。AMD Renoir iGPU 透過 Vulkan（RADV 驅動）跑 LLM 時，RADV shader compiler 會對矩陣運算做重排優化，破壞浮點運算的精度。超過 20-30 層後輸出開始出現亂碼甚至跳語言。

AMD iGPU 跑 LLM 為什麼需要大量系統 RAM？

AMD Renoir iGPU 沒有獨立 VRAM，使用 UMA（BIOS 預留，此台 2 GiB）加上 GTT（動態借用系統 RAM）兩層架構。GTT 頁面必須來自空閒系統 RAM，RAM 不足時 GPU runner 無法分配記憶體，會陷入不斷崩潰重試的循環，最終可能 OOM reboot。

如何診斷 LLM GPU 推論的精度問題？

逐步增加 num_gpu 層數（1、5、10、20、30...），用複雜問題（而非 1+1 這類極簡問題）測試，找到答案開始出錯的臨界點。若低層數正確、高層數亂碼，即為 GPU 精度累積誤差問題。

GGML_VK_DISABLE_F16 可以修復 Vulkan 精度問題嗎？

不行。這個環境變數只影響 llama.cpp 產生的 GLSL shader（管線第一層）。真正的精度 bug 在 RADV 的 ACO shader compiler（第三層），它在把 SPIR-V 編譯成 AMD GCN 機器碼時做了對遊戲安全但對 LLM 有害的精度優化，應用層的環境變數控制不到這個層級。

f16 是 IEEE 標準，為什麼不同 GPU 算出來不一樣？

IEEE 754 只規範單一運算的結果，但沒有規範：1) denormal 數的處理（AMD Vega 預設 flush to zero，NVIDIA 不會）；2) 運算順序（浮點不符合結合律，compiler 可以自由重排）；3) FMA 的使用時機（fusion 一步 vs 分兩步，精度不同）。這三點在 43 層模型中逐層累積，導致截然不同的輸出。

小丁的家

標籤: 本地LLM

我該選哪個 AI 模型?從硬體到能力的白話判斷指南

選 AI 模型不是看誰最厲害,而是看哪個「裝得進你的機器、會做你的工作、跟你脾氣合」。這篇用白話講清楚怎麼判斷,不需要工程背景就能讀懂。最後附上三種人的實際範例和一張機器等級對照表,讓你看完知道下一步該做什麼。

重點摘要

選 AI 模型有四關:可不可用、裝不裝得下、擅不擅長、合不合作
「總參數」決定要多少記憶體,「激活參數」決定跑多快 — 兩個不一樣
32GB 記憶體的家用電腦能跑 30B 級的本地模型(壓縮後),別被 700B 的數字嚇到
判斷模型擅長什麼,看 第三方榜單 + 自己跑題目,不要相信廠商海報
不會微調、不寫程式的一般人:雲端 ChatGPT/Claude 比地端模型實用 10 倍

為什麼這篇不是工程師專用

很多 AI 模型介紹一上來就講 Transformer、MoE、量化、KV cache,看不懂的人乾脆直接問 ChatGPT 算了。但這樣你永遠不會知道:為什麼有時候 ChatGPT 答得不如另一個工具好?為什麼有人在自己電腦上跑 AI?那台主機要花多少錢?

這篇用「買菜選菜」的角度切入。選模型就像選餐廳:有的店招牌大但你家附近沒有(雲端 vs 地端)、有的菜單大但你只吃其中三道(總參數 vs 激活參數)、有的師傅擅長熱炒但你想吃日料(文字強但圖片弱)。看懂這幾個對應,後面什麼術語都不會卡住你。

第一步:先問自己這四個問題

判斷一個模型「對你來說可不可用」,不是看它在排行榜第幾名,而是先答這四個問題:

我要它做什麼? — 寫文案、翻譯、寫程式、看 PDF、看圖,選的方向完全不同
我要在哪裡用? — 雲端服務 (ChatGPT 網站、Claude 網站) 還是裝在自己電腦 (地端)
我有多少預算? — 雲端是月費或按量計費,地端是一次性硬體投資
資料能不能上雲? — 病歷、客戶資料、未公開的營業資料,丟雲端要先看公司規範

這四題答完之後,80% 的人會發現:地端模型不是給你的。雲端 ChatGPT/Claude/Gemini 月費 600-800 台幣,你買得到的「能力」遠超過你自己組一台機器跑 Llama 3。地端只有在「資料不能外流」、「想要客製化微調」、「想當興趣研究」這三種情況才划算。

第二步:看模型「裝不裝得進」你的機器

如果你決定走地端,這一關是硬門檻。模型有兩個關鍵數字,廠商常常混在一起講,你要會分:

總參數 vs 激活參數

名詞	白話解釋	決定什麼
總參數	模型「整本書」有多厚	要多少記憶體裝它
激活參數	每次思考翻幾頁	跑得快不快

普通模型(像 Gemma 3、Llama 3)「整本翻完」才回答你 — 總參數 = 激活參數。MoE 模型(像 Mixtral、DeepSeek、Gemma 4)「只翻其中幾頁」 — 總參數遠大於激活參數,跑得快但還是要把整本書放進記憶體。

記憶體簡易公式

用「壓縮過」(技術上叫 Q4 量化) 的模型,大致這樣估:

模型體積 ≈ 總參數 ÷ 2 GB
實際記憶體需求 ≈ 模型體積 + 2~4 GB(系統開銷 + 上下文)

例子:Gemma 3 27B 模型 → 27 ÷ 2 ≈ 14 GB 模型 + 4 GB 開銷 = 18 GB 記憶體需求。一台 16GB 筆電裝不下,32GB 桌機剛好。

第三步:看模型擅長什麼

模型不是萬能。同樣 27B 大小,有的會寫程式但不會看圖,有的中文很爛但英文很強。怎麼判斷?

看第三方榜單(快速篩選)

你的需求	看哪個榜單分數	大概及格線
寫文案、知識問答	MMLU-Pro	>65 算強
寫程式	LiveCodeBench、HumanEval	LiveCodeBench >30 可用
中文能力	C-Eval、CMMLU	>70 算強
看圖、讀 PDF	MMMU、DocVQA	MMMU >60 算強
數學、邏輯	MATH、GPQA	MATH >70 算強
綜合(一般使用)	LMArena Leaderboard	看 Elo 排名

自己跑題目(最關鍵)

榜單分數會作弊,你必須跑「自己工作會碰到的題目」。流程:

準備 20-30 題你實際工作會碰到的問題(不是從網路抄題目)
同樣的題目餵給 2~3 個候選模型
蒙著看答案、給分(別看是誰寫的)
看「一次到位率」、「中文是否流暢」、「會不會瞎掰」

這比看任何排行榜都準。我之前在本地 AI 模型完整實測那篇就是用這個方法,五款模型結果完全不照 leaderboard 排名走。

第四步:確認模型「合作說明書」

同樣強的兩個模型,「會不會聽指令」差很多。這部分用戶最容易踩雷,要看四件事:

支不支援系統指令(System Prompt) — 例如 Gemma 系列不支援系統指令,你只能塞在第一句話。Llama、Qwen、Claude 都支援。不知道這點會發現「怎麼叫它扮演什麼角色都沒效」。
能不能呼叫工具(Function Calling / Tool Use) — 想做 AI Agent、自動查資料、操作 Excel,模型必須會「呼叫工具」。Claude、GPT、Qwen 強;Gemma 弱要靠土法煉鋼。
能不能吃圖、吃 PDF — 多模態能力。Gemma 3 / GPT-4o / Claude 都吃圖;純文字模型(像 Llama 3 base)看不到圖。
上下文(Context)能裝多少 — 4K 只能聊天、32K 可以吃一份合約、128K 可以吃一本書、1M 可以吃整個資料夾。看你的工作內容多長。

三種人的實例:看完直接套

實例一:上班族 Mary(行銷專員)

需求:寫社群貼文、改履歷、翻譯英文信、整理會議紀錄。一台 8GB 筆電,沒在管什麼資料外流。

判斷:

地端?不要,8GB 連最小可用模型都裝不下
能力需求:文字 + 中文,不需要寫程式
預算:能接受月費 600-800 元

建議:直接訂 ChatGPT Plus 或 Claude Pro。免費版偶爾用也夠,只是會在尖峰時段斷線。不要花一分錢買硬體,投資報酬率最差的選擇。

實例二:工程師阿志(後端開發者)

需求:寫程式、Code Review、技術文件查詢、自動化腳本。32GB 桌機,公司規定客戶資料不能上雲。

判斷:

分流:涉及客戶資料的問題用地端,公開資料用雲端
地端能力:寫程式 → Qwen2.5-Coder-32B(壓縮後 ~20GB,塞得進)
雲端:Claude Sonnet 寫程式最強,搭配 Cursor 或 Claude Code

建議:Ollama 裝 Qwen2.5-Coder-32B 跑地端,Claude Pro 月費跑雲端。兩邊加起來月支出 ~800 元 + 一次性 0 元(用現有電腦)。

實例三:創作者小凱(YouTuber + 部落客)

需求:腳本撰寫、字幕翻譯、看 PDF 整理重點、看圖寫敘述、長影片轉文字稿。16GB 筆電 + 一張 RTX 4060(8GB VRAM)。

判斷:

多模態(吃圖)是剛需 → 模型必須支援
16GB 筆電能跑 8B-12B 級的多模態小模型(像 Gemma 3 12B)
長影片字稿要長 context → 32K 起跳

建議:雲端為主(ChatGPT 或 Gemini 看圖最強),地端裝 Gemma 3 12B 當備援(網路斷或想離線時用)。腳本創意給雲端、批量字幕翻譯給地端省錢。

機器等級對照表:你的硬體能跑到哪

下表用 Q4 壓縮後的本地模型尺寸估算。「速度感受」是 CPU 推理(沒獨顯)的體感:

機器等級	能跑的最大模型	速度感受	適合
8GB RAM 筆電	放棄,直接走雲端	N/A	Mary(上班族)
16GB RAM 筆電	7B-12B 模型(Gemma 3 12B、Llama 3 8B)	CPU 跑會卡,有獨顯才順	輕度離線備援
32GB RAM 桌機	26B-32B 模型(Gemma 4 26B MoE、Qwen2.5-32B)	MoE 模型可用,Dense 慢但能跑	阿志(開發者)
64GB RAM 工作站	70B 模型(Llama 3.3 70B)	CPU 很慢,要獨顯才實用	研究、實驗
RTX 3090/4090 (24GB VRAM)	27B-32B 模型,速度飛起	流暢,接近 ChatGPT 體驗	認真做地端 AI 的甜蜜點
2x RTX 4090 / A100	70B 模型流暢、Mixtral 等大 MoE	商用級	公司部署、付費服務

關鍵原則:沒有獨立顯示卡的話,別買貴的桌機去跑大模型。CPU 推理 30B 級模型每秒只吐 2-5 個字,寫一封信要等三分鐘,用一次就會放棄。要嘛走雲端,要嘛投資一張二手 RTX 3090(約 2 萬台幣)。我之前測過 AMD 內顯 (iGPU) 跑 Gemma 4 也會踩坑,內顯不是省錢方案。

最後:我該問自己的 7 個問題

把這份清單存起來,下次有人推薦你「某某新模型超強」時,逐題核對一遍:

我用 AI 來解什麼具體問題?(模糊回答 = 還沒想清楚,先別買硬體)
這些問題,雲端的 ChatGPT/Claude 已經能解嗎?(能 → 直接訂閱,不要繞遠路)
我的資料能不能上雲?(不能 → 才考慮地端)
我的機器有多少記憶體和顯卡?(對照本文那張表)
這個模型在我關心的能力(寫程式 / 中文 / 看圖)分數怎樣?(看榜單再自己跑題)
這個模型的「合作說明書」有什麼坑?(系統指令、工具呼叫、上下文長度)
用一個月後,我真的有用嗎?(很多人裝完地端模型用三天就涼了,雲端訂閱反而沒浪費)

結論一句話:普通人選雲端、有資料安全顧慮的選地端、想當興趣研究的選地端 + 雲端混用。買硬體之前,先把第 1、2、7 題答清楚,就會省下七成不必要的開銷。

2026 年 4 月 29 日

gemma4:e4b 在 AMD Renoir iGPU Vulkan 輸出亂碼的完整排查

重點摘要

gemma4:e4b 在 AMD Renoir iGPU（Vulkan）超過 30 層就輸出亂碼，低層數正常
根本原因：RADV Vulkan shader compiler 的精度優化破壞 f16 運算順序，誤差隨層數滾雪球
iGPU 沒有獨立 VRAM，記憶體從系統 RAM 借，RAM 不足會讓模型載入循環崩潰
Mac Metal / 純 CPU 不受影響；GGML_VK_DISABLE_F16 等環境變數無法修復底層 compiler bug

在本地端跑大型語言模型時，GPU 加速聽起來理所當然——更快嘛。但如果 GPU 算出來的答案是錯的，快有什麼用？這篇文章記錄了一次真實的踩坑：gemma4:e4b 在 AMD Renoir iGPU 上透過 Vulkan 跑出亂碼的完整排查過程，以及背後一層比一層深的技術原因。

事件起因：模型跑得快，答案全錯

測試環境是一台搭載 AMD Renoir APU 的 mini PC，透過 Ollama 跑 gemma4:e4b 模型。Ollama 偵測到 iGPU 後自動啟用 Vulkan 加速，把 42/43 層 offload 到 GPU。

速度看起來不錯，約 8 tok/s。但仔細看輸出內容，發現問題大了：

問「什麼是 Kafka Consumer Group Rebalancing」→ 回答泰文的學習理論
問 Python 日期解析函數 → 回答 JavaScript offsetTop 的用法
問燈泡謎題 → 回答哲學框架

模型完全沒理解問題，像是跑在另一個平行宇宙一樣。

第一個坑：RAM 不足讓模型連載入都不穩定

在問為什麼答案亂之前，先碰到一個更早的問題：模型根本載入不起來。第一次啟動時，Ollama 日誌出現了這個循環：

16:35:53  offloaded 42/43 layers to GPU（模型開始載入）
16:38:53  llm server not responding
16:38:54  llm server loading model
16:39:02  llm server not responding
16:39:03  llm server loading model
...（反覆了將近 6 分鐘）
16:42:28  llama runner started in 410.58 seconds（終於啟動）
17:04:49  -- Boot --（機器直接重開機）

當時系統狀況：OMS 全套服務正在運行，RAM 只剩 1.7 GiB 可用。停掉 OMS 釋放記憶體後重跑：

llama runner started in 42.04 seconds

差了 10 倍。問題不在模型，在記憶體。

為什麼 iGPU 需要大量系統 RAM？

AMD Renoir iGPU 沒有獨立顯存，它的記憶體架構分兩層：

類型	來源	大小	特性
UMA（Unified Memory）	BIOS 開機時從系統 RAM 切出	2 GiB（此台設定）	固定預留，GPU 專用，穩定
GTT（Graphics Translation Table）	從剩餘系統 RAM 動態借用	最多 ~6.8 GiB	依可用 RAM 決定，借不到就崩

Ollama 顯示「8.8 GiB 可用 VRAM」= UMA（2 GiB）+ GTT 上限（~6.8 GiB）合計。

跑 gemma4:e4b 需要 2.8 GiB GPU weights + 224 MB KV cache + 289 MB compute graph ≈ 3.3 GiB。流程是：

先用完 2 GiB UMA
再向 GTT 借 ~1.3 GiB 的系統 RAM 頁面
GTT 的頁面必須來自空閒的系統 RAM

OMS 開著只剩 1.7 GB 可用，GPU 借不到足夠的 GTT 頁面，runner 一直崩潰重試，才出現那個 6 分鐘的死循環。最後機器因為 OOM 直接 reboot。

換句話說：iGPU 的「VRAM」是假的，它在跟你的程式搶同一塊系統 RAM。獨顯不會有這個問題，因為它有真正的 GDDR 記憶體。

GPU 與 GPU 的差異：不是每顆都一樣精準

解決了載入問題，答案還是亂的。這時才是 GPU 精度的核心問題。

GPU	API	f16 硬體支援	ML 成熟度
NVIDIA RTX	CUDA	原生 Tensor Core，為 ML 設計	高
Apple M 系列	Metal	Neural Engine + Metal 緊密整合	高
AMD RX 獨顯	ROCm / Vulkan	原生支援，ROCm 驗證過	中高
AMD Renoir iGPU	Vulkan（RADV）	Vega 架構，遊戲導向，未針對 ML 驗證	低

f16 規格一樣，為什麼結果不同？

很多人的疑問：IEEE 754 fp16 是標準規格，大家都遵守，為什麼不同 GPU 算出來不一樣？

因為規格只定義單一運算的結果，但沒有規定三件事：

Denormal 數的處理方式：非常接近 0 的浮點數（小於 6×10⁻⁸）稱為 denormal。IEEE 標準要求保留精度處理，但 AMD Vega 架構預設會把這些數 flush to zero（FTZ）——直接歸零——以換取效能。NVIDIA 不做 FTZ。這在遊戲中完全沒影響，但 LLM attention 的 softmax 運算大量出現這個範圍的數值。
運算順序：浮點數不符合結合律。(a + b) + c ≠ a + (b + c) 在 fp16 中是真的。Shader compiler 為了讓 GPU 並行效率最大化，會自由重排運算順序，這對遊戲結果沒有可見影響，但 LLM 的 attention 矩陣乘法有幾萬次浮點運算，順序一改，誤差模式就完全不同。
FMA（Fused Multiply-Add）的使用時機：a × b + c 可以分兩步算（兩次取整），也可以融合成一步（只取整一次，精度更高）。NVIDIA CUDA 強制所有路徑用 FMA。RADV 的 ACO shader compiler 根據優化情境決定，在某些 LLM 矩陣模式下選了非 FMA 路徑。

這三個問題疊在一起，每一層的誤差模式都不同，而且誤差會被下一層當成合法輸入繼續放大。

為什麼低層數正常、高層數亂碼？

什麼是 Transformer 的「層」

gemma4:e4b 是 Transformer 架構，共 43 層。每個 token 的生成，資料要依序流過全部 43 層，每一層的輸出是下一層的輸入：

Token 輸入
  → Layer 1（基礎語法、token 特徵）
  → Layer 2 ～ 10（語法結構、基礎語意）
  → Layer 10 ～ 25（上下文理解、語意推理）
  → Layer 25 ～ 42（高階抽象、輸出生成）
  → 下一個 token

當設定 num_gpu=N 時，前 N 層在 GPU 算，剩下的在 CPU 算。

誤差如何滾雪球

Layer  1：正確值 2.000，Vulkan 算出 2.001 → 誤差 0.001（無感）
Layer  5：誤差疊加，下層把這個「略偏的 2.005」當成正確輸入繼續算
Layer 10：誤差影響語意方向判斷
Layer 20：模型對問題的理解開始偏移
Layer 30：完全脫離正確答案空間
Layer 42：輸出隨機語言的 token，變成泰文或法文

這就像傳話遊戲：每個人傳話都有一點偏差，傳到第 43 個人時，內容已經面目全非。

為什麼簡單問題（1+1）還能過

「1+1 等於幾」的答案空間極小——就算誤差很大，最終 token 機率分布仍然在「2」附近。但「請用 Python 寫一個函數處理三種日期格式」的答案空間是整個程式語言的 token 集合，一旦偏移，就隨機落到任何地方。這也是為什麼診斷時不能只用簡單問題測試，必須用複雜 prompt 才能暴露問題。

診斷過程：二分法找臨界點

for layers in 1 5 10 20 30 40 42; do
  echo -n "=== num_gpu=$layers === "
  curl -s http://localhost:11434/api/chat \
    -d "{\"model\":\"gemma4:e4b\",
         \"messages\":[{\"role\":\"user\",\"content\":\"1+1等於幾？\"}],
         \"stream\":false,
         \"options\":{\"num_gpu\":$layers,\"num_predict\":30}}" \
    | python3 -c "import json,sys; print(json.load(sys.stdin)['message']['content'])"
done

num_gpu	結果	狀態
1	1+1 等於 2	✅ 正確
5	1+1 等於 2	✅ 正確
10	（空白）	⚠️ 不穩定
20	簡單問題偶爾正確	⚠️ 不穩定
30	法文回應	❌ 亂碼
42	隨機英文片段	❌ 亂碼

嘗試修復：三種方案全部失敗，以及為什麼

方案一：GGML_VK_DISABLE_F16=1

理論上這個環境變數應該告訴 llama.cpp 在 Vulkan 路徑使用 f32 計算，避開 f16 精度問題。但沒有效果。原因在於 Vulkan 推論的整個管線分四層：

1. llama.cpp         → 寫 GLSL compute shader 原始碼        ← 環境變數影響到這層
2. glslang           → 編譯成 SPIR-V bytecode
3. RADV / ACO        → 把 SPIR-V JIT 編譯成 AMD GCN 機器碼  ← 精度 bug 在這層
4. AMD Vega 硬體     → 執行機器碼

精度 bug 在第 3 層——RADV 的 ACO shader compiler 在把 SPIR-V 轉成 GCN ISA 時，對某些矩陣運算的指令做了重排或合併，這個行為由 RADV 自己決定，應用層的環境變數完全碰不到。就算第 1 層寫了 f32，RADV 也可能在編譯時把某些中間值降轉成 f16——這對遊戲是合法的效能優化，對 LLM 是致命的。

方案二：OLLAMA_KV_CACHE_TYPE=f32

只影響 KV cache 的儲存精度，不影響主要的矩陣乘法計算路徑。輸出直接變成旁遮普語。

方案三：num_gpu=20 折衷

1+1 這種極簡問題可以過，但稍微複雜的 prompt 仍然亂答。誤差臨界點比簡單測試顯示的還要低，不穩定。

最終結論

方案	速度	正確性	建議
純 CPU（num_gpu=0）	~1 tok/s	✅ 正確	唯一可用方案
Vulkan 全層（num_gpu=42）	~8 tok/s	❌ 亂碼	不可用
Mac Metal（同款模型）	~8 tok/s	✅ 正確	最佳選擇

快 8 倍但答案全錯，還不如 1 tok/s 的純 CPU。資料正確性永遠優先於速度。

如果你也遇到類似問題：排查步驟

先確認系統有足夠空閒 RAM（至少要比模型大小多 2 GiB），不然連載入都會失敗或 OOM reboot
用 num_gpu=0 跑純 CPU，確認模型本身答案正確
逐步增加 num_gpu（1 → 5 → 10 → 20 → …），用複雜問題測試（不要只用 1+1），找到亂碼的臨界層數
環境變數（GGML_VK_DISABLE_F16、OLLAMA_KV_CACHE_TYPE）對 RADV 底層 compiler bug 無效，不要在這裡浪費時間
若根本無法修，接受純 CPU 或換有 CUDA / Metal 支援的環境

這不是 Ollama 的 bug，也不是模型的問題。是 AMD Renoir Vega iGPU + RADV Vulkan shader compiler 在 LLM 工作負載下的精度限制，加上 iGPU 共享系統 RAM 的架構特性，兩個問題同時踩到。

2026 年 4 月 5 日