本地跑 AI 模型需要多少記憶體?

粗估公式:模型總參數 ÷ 2 GB = 模型壓縮後體積,再加 2-4 GB 系統開銷。例如 Gemma 3 27B 約需 18 GB 記憶體,32GB 桌機可用,16GB 筆電不夠。

MoE 模型的總參數和激活參數差在哪?

總參數決定要多少記憶體裝模型(整本書放進記憶體),激活參數決定每次思考的計算量(每次翻幾頁)。MoE 模型激活參數小所以跑得快,但總參數還是要全部載入記憶體,所以省的是速度不是記憶體。

一般人該選雲端 ChatGPT 還是自己架地端模型?

80% 的人應該選雲端。雲端 ChatGPT Plus 或 Claude Pro 月費 600-800 元,能力遠超你自己組機器跑的開源模型。地端只有在資料不能外流、想要客製化微調、或當興趣研究時才划算。

怎麼驗證一個模型擅長什麼領域?

兩步驟:第一步看第三方榜單(MMLU-Pro 看文字能力、LiveCodeBench 看寫程式、MMMU 看圖片理解、C-Eval 看中文)。第二步準備 20-30 題你實際工作會碰到的題目,蒙著比較不同模型的答案。榜單分數會作弊,自己跑題才準。

沒有獨立顯卡能跑本地大模型嗎?

技術上能,實用上不能。CPU 推理 30B 級模型每秒只吐 2-5 個字,等一封信要等三分鐘,用一次就放棄。要做地端 AI 的甜蜜點是一張 24GB VRAM 的顯卡(RTX 3090 / 4090),不然就走雲端。

我該選哪個 AI 模型?從硬體到能力的白話判斷指南

選 AI 模型不是看誰最厲害,而是看哪個「裝得進你的機器、會做你的工作、跟你脾氣合」。這篇用白話講清楚怎麼判斷,不需要工程背景就能讀懂。最後附上三種人的實際範例和一張機器等級對照表,讓你看完知道下一步該做什麼。

重點摘要

選 AI 模型有四關:可不可用、裝不裝得下、擅不擅長、合不合作
「總參數」決定要多少記憶體,「激活參數」決定跑多快 — 兩個不一樣
32GB 記憶體的家用電腦能跑 30B 級的本地模型(壓縮後),別被 700B 的數字嚇到
判斷模型擅長什麼,看 第三方榜單 + 自己跑題目,不要相信廠商海報
不會微調、不寫程式的一般人:雲端 ChatGPT/Claude 比地端模型實用 10 倍

為什麼這篇不是工程師專用

很多 AI 模型介紹一上來就講 Transformer、MoE、量化、KV cache,看不懂的人乾脆直接問 ChatGPT 算了。但這樣你永遠不會知道:為什麼有時候 ChatGPT 答得不如另一個工具好?為什麼有人在自己電腦上跑 AI?那台主機要花多少錢?

這篇用「買菜選菜」的角度切入。選模型就像選餐廳:有的店招牌大但你家附近沒有(雲端 vs 地端)、有的菜單大但你只吃其中三道(總參數 vs 激活參數)、有的師傅擅長熱炒但你想吃日料(文字強但圖片弱)。看懂這幾個對應,後面什麼術語都不會卡住你。

第一步:先問自己這四個問題

判斷一個模型「對你來說可不可用」,不是看它在排行榜第幾名,而是先答這四個問題:

我要它做什麼? — 寫文案、翻譯、寫程式、看 PDF、看圖,選的方向完全不同
我要在哪裡用? — 雲端服務 (ChatGPT 網站、Claude 網站) 還是裝在自己電腦 (地端)
我有多少預算? — 雲端是月費或按量計費,地端是一次性硬體投資
資料能不能上雲? — 病歷、客戶資料、未公開的營業資料,丟雲端要先看公司規範

這四題答完之後,80% 的人會發現:地端模型不是給你的。雲端 ChatGPT/Claude/Gemini 月費 600-800 台幣,你買得到的「能力」遠超過你自己組一台機器跑 Llama 3。地端只有在「資料不能外流」、「想要客製化微調」、「想當興趣研究」這三種情況才划算。

第二步:看模型「裝不裝得進」你的機器

如果你決定走地端,這一關是硬門檻。模型有兩個關鍵數字,廠商常常混在一起講,你要會分:

總參數 vs 激活參數

名詞	白話解釋	決定什麼
總參數	模型「整本書」有多厚	要多少記憶體裝它
激活參數	每次思考翻幾頁	跑得快不快

普通模型(像 Gemma 3、Llama 3)「整本翻完」才回答你 — 總參數 = 激活參數。MoE 模型(像 Mixtral、DeepSeek、Gemma 4)「只翻其中幾頁」 — 總參數遠大於激活參數,跑得快但還是要把整本書放進記憶體。

記憶體簡易公式

用「壓縮過」(技術上叫 Q4 量化) 的模型,大致這樣估:

模型體積 ≈ 總參數 ÷ 2 GB
實際記憶體需求 ≈ 模型體積 + 2~4 GB(系統開銷 + 上下文)

例子:Gemma 3 27B 模型 → 27 ÷ 2 ≈ 14 GB 模型 + 4 GB 開銷 = 18 GB 記憶體需求。一台 16GB 筆電裝不下,32GB 桌機剛好。

第三步:看模型擅長什麼

模型不是萬能。同樣 27B 大小,有的會寫程式但不會看圖,有的中文很爛但英文很強。怎麼判斷?

看第三方榜單(快速篩選)

你的需求	看哪個榜單分數	大概及格線
寫文案、知識問答	MMLU-Pro	>65 算強
寫程式	LiveCodeBench、HumanEval	LiveCodeBench >30 可用
中文能力	C-Eval、CMMLU	>70 算強
看圖、讀 PDF	MMMU、DocVQA	MMMU >60 算強
數學、邏輯	MATH、GPQA	MATH >70 算強
綜合(一般使用)	LMArena Leaderboard	看 Elo 排名

自己跑題目(最關鍵)

榜單分數會作弊,你必須跑「自己工作會碰到的題目」。流程:

準備 20-30 題你實際工作會碰到的問題(不是從網路抄題目)
同樣的題目餵給 2~3 個候選模型
蒙著看答案、給分(別看是誰寫的)
看「一次到位率」、「中文是否流暢」、「會不會瞎掰」

這比看任何排行榜都準。我之前在本地 AI 模型完整實測那篇就是用這個方法,五款模型結果完全不照 leaderboard 排名走。

第四步:確認模型「合作說明書」

同樣強的兩個模型,「會不會聽指令」差很多。這部分用戶最容易踩雷,要看四件事:

支不支援系統指令(System Prompt) — 例如 Gemma 系列不支援系統指令,你只能塞在第一句話。Llama、Qwen、Claude 都支援。不知道這點會發現「怎麼叫它扮演什麼角色都沒效」。
能不能呼叫工具(Function Calling / Tool Use) — 想做 AI Agent、自動查資料、操作 Excel,模型必須會「呼叫工具」。Claude、GPT、Qwen 強;Gemma 弱要靠土法煉鋼。
能不能吃圖、吃 PDF — 多模態能力。Gemma 3 / GPT-4o / Claude 都吃圖;純文字模型(像 Llama 3 base)看不到圖。
上下文(Context)能裝多少 — 4K 只能聊天、32K 可以吃一份合約、128K 可以吃一本書、1M 可以吃整個資料夾。看你的工作內容多長。

三種人的實例:看完直接套

實例一:上班族 Mary(行銷專員)

需求:寫社群貼文、改履歷、翻譯英文信、整理會議紀錄。一台 8GB 筆電,沒在管什麼資料外流。

判斷:

地端?不要,8GB 連最小可用模型都裝不下
能力需求:文字 + 中文,不需要寫程式
預算:能接受月費 600-800 元

建議:直接訂 ChatGPT Plus 或 Claude Pro。免費版偶爾用也夠,只是會在尖峰時段斷線。不要花一分錢買硬體,投資報酬率最差的選擇。

實例二:工程師阿志(後端開發者)

需求:寫程式、Code Review、技術文件查詢、自動化腳本。32GB 桌機,公司規定客戶資料不能上雲。

判斷:

分流:涉及客戶資料的問題用地端,公開資料用雲端
地端能力:寫程式 → Qwen2.5-Coder-32B(壓縮後 ~20GB,塞得進)
雲端:Claude Sonnet 寫程式最強,搭配 Cursor 或 Claude Code

建議:Ollama 裝 Qwen2.5-Coder-32B 跑地端,Claude Pro 月費跑雲端。兩邊加起來月支出 ~800 元 + 一次性 0 元(用現有電腦)。

實例三:創作者小凱(YouTuber + 部落客)

需求:腳本撰寫、字幕翻譯、看 PDF 整理重點、看圖寫敘述、長影片轉文字稿。16GB 筆電 + 一張 RTX 4060(8GB VRAM)。

判斷:

多模態(吃圖)是剛需 → 模型必須支援
16GB 筆電能跑 8B-12B 級的多模態小模型(像 Gemma 3 12B)
長影片字稿要長 context → 32K 起跳

建議:雲端為主(ChatGPT 或 Gemini 看圖最強),地端裝 Gemma 3 12B 當備援(網路斷或想離線時用)。腳本創意給雲端、批量字幕翻譯給地端省錢。

機器等級對照表:你的硬體能跑到哪

下表用 Q4 壓縮後的本地模型尺寸估算。「速度感受」是 CPU 推理(沒獨顯)的體感:

機器等級	能跑的最大模型	速度感受	適合
8GB RAM 筆電	放棄,直接走雲端	N/A	Mary(上班族)
16GB RAM 筆電	7B-12B 模型(Gemma 3 12B、Llama 3 8B)	CPU 跑會卡,有獨顯才順	輕度離線備援
32GB RAM 桌機	26B-32B 模型(Gemma 4 26B MoE、Qwen2.5-32B)	MoE 模型可用,Dense 慢但能跑	阿志(開發者)
64GB RAM 工作站	70B 模型(Llama 3.3 70B)	CPU 很慢,要獨顯才實用	研究、實驗
RTX 3090/4090 (24GB VRAM)	27B-32B 模型,速度飛起	流暢,接近 ChatGPT 體驗	認真做地端 AI 的甜蜜點
2x RTX 4090 / A100	70B 模型流暢、Mixtral 等大 MoE	商用級	公司部署、付費服務

關鍵原則:沒有獨立顯示卡的話,別買貴的桌機去跑大模型。CPU 推理 30B 級模型每秒只吐 2-5 個字,寫一封信要等三分鐘,用一次就會放棄。要嘛走雲端,要嘛投資一張二手 RTX 3090(約 2 萬台幣)。我之前測過 AMD 內顯 (iGPU) 跑 Gemma 4 也會踩坑,內顯不是省錢方案。

最後:我該問自己的 7 個問題

把這份清單存起來,下次有人推薦你「某某新模型超強」時,逐題核對一遍:

我用 AI 來解什麼具體問題?(模糊回答 = 還沒想清楚,先別買硬體)
這些問題,雲端的 ChatGPT/Claude 已經能解嗎?(能 → 直接訂閱,不要繞遠路)
我的資料能不能上雲?(不能 → 才考慮地端)
我的機器有多少記憶體和顯卡?(對照本文那張表)
這個模型在我關心的能力(寫程式 / 中文 / 看圖)分數怎樣?(看榜單再自己跑題)
這個模型的「合作說明書」有什麼坑?(系統指令、工具呼叫、上下文長度)
用一個月後,我真的有用嗎?(很多人裝完地端模型用三天就涼了,雲端訂閱反而沒浪費)

結論一句話:普通人選雲端、有資料安全顧慮的選地端、想當興趣研究的選地端 + 雲端混用。買硬體之前,先把第 1、2、7 題答清楚,就會省下七成不必要的開銷。

我該選哪個 AI 模型?從硬體到能力的白話判斷指南

重點摘要

為什麼這篇不是工程師專用

第一步:先問自己這四個問題

第二步:看模型「裝不裝得進」你的機器

總參數 vs 激活參數

記憶體簡易公式

第三步:看模型擅長什麼

看第三方榜單(快速篩選)

自己跑題目(最關鍵)

第四步:確認模型「合作說明書」

三種人的實例:看完直接套

實例一:上班族 Mary(行銷專員)

實例二:工程師阿志(後端開發者)

實例三:創作者小凱(YouTuber + 部落客)

機器等級對照表:你的硬體能跑到哪

最後:我該問自己的 7 個問題

留言

發佈留言取消回覆

更多文章

Hacker News 每日精選 – 2026-05-09

Hacker News 每日精選 – 2026-05-08

Hacker News 每日精選 – 2026-05-06

Hacker News 每日精選 – 2026-05-05

我該選哪個 AI 模型?從硬體到能力的白話判斷指南

重點摘要

為什麼這篇不是工程師專用

第一步:先問自己這四個問題

第二步:看模型「裝不裝得進」你的機器

總參數 vs 激活參數

記憶體簡易公式

第三步:看模型擅長什麼

看第三方榜單(快速篩選)

自己跑題目(最關鍵)

第四步:確認模型「合作說明書」

三種人的實例:看完直接套

實例一:上班族 Mary(行銷專員)

實例二:工程師阿志(後端開發者)

實例三:創作者小凱(YouTuber + 部落客)

機器等級對照表:你的硬體能跑到哪

最後:我該問自己的 7 個問題

留言

發佈留言 取消回覆

更多文章

Hacker News 每日精選 – 2026-05-09

Hacker News 每日精選 – 2026-05-08

Hacker News 每日精選 – 2026-05-06

Hacker News 每日精選 – 2026-05-05

發佈留言取消回覆