選 AI 模型不是看誰最厲害,而是看哪個「裝得進你的機器、會做你的工作、跟你脾氣合」。這篇用白話講清楚怎麼判斷,不需要工程背景就能讀懂。最後附上三種人的實際範例和一張機器等級對照表,讓你看完知道下一步該做什麼。
重點摘要
- 選 AI 模型有四關:可不可用、裝不裝得下、擅不擅長、合不合作
- 「總參數」決定要多少記憶體,「激活參數」決定跑多快 — 兩個不一樣
- 32GB 記憶體的家用電腦能跑 30B 級的本地模型(壓縮後),別被 700B 的數字嚇到
- 判斷模型擅長什麼,看 第三方榜單 + 自己跑題目,不要相信廠商海報
- 不會微調、不寫程式的一般人:雲端 ChatGPT/Claude 比地端模型實用 10 倍
為什麼這篇不是工程師專用
很多 AI 模型介紹一上來就講 Transformer、MoE、量化、KV cache,看不懂的人乾脆直接問 ChatGPT 算了。但這樣你永遠不會知道:為什麼有時候 ChatGPT 答得不如另一個工具好?為什麼有人在自己電腦上跑 AI?那台主機要花多少錢?
這篇用「買菜選菜」的角度切入。選模型就像選餐廳:有的店招牌大但你家附近沒有(雲端 vs 地端)、有的菜單大但你只吃其中三道(總參數 vs 激活參數)、有的師傅擅長熱炒但你想吃日料(文字強但圖片弱)。看懂這幾個對應,後面什麼術語都不會卡住你。
第一步:先問自己這四個問題
判斷一個模型「對你來說可不可用」,不是看它在排行榜第幾名,而是先答這四個問題:
- 我要它做什麼? — 寫文案、翻譯、寫程式、看 PDF、看圖,選的方向完全不同
- 我要在哪裡用? — 雲端服務 (ChatGPT 網站、Claude 網站) 還是裝在自己電腦 (地端)
- 我有多少預算? — 雲端是月費或按量計費,地端是一次性硬體投資
- 資料能不能上雲? — 病歷、客戶資料、未公開的營業資料,丟雲端要先看公司規範
這四題答完之後,80% 的人會發現:地端模型不是給你的。雲端 ChatGPT/Claude/Gemini 月費 600-800 台幣,你買得到的「能力」遠超過你自己組一台機器跑 Llama 3。地端只有在「資料不能外流」、「想要客製化微調」、「想當興趣研究」這三種情況才划算。
第二步:看模型「裝不裝得進」你的機器
如果你決定走地端,這一關是硬門檻。模型有兩個關鍵數字,廠商常常混在一起講,你要會分:
總參數 vs 激活參數
| 名詞 | 白話解釋 | 決定什麼 |
|---|---|---|
| 總參數 | 模型「整本書」有多厚 | 要多少記憶體裝它 |
| 激活參數 | 每次思考翻幾頁 | 跑得快不快 |
普通模型(像 Gemma 3、Llama 3)「整本翻完」才回答你 — 總參數 = 激活參數。MoE 模型(像 Mixtral、DeepSeek、Gemma 4)「只翻其中幾頁」 — 總參數遠大於激活參數,跑得快但還是要把整本書放進記憶體。
記憶體簡易公式
用「壓縮過」(技術上叫 Q4 量化) 的模型,大致這樣估:
- 模型體積 ≈ 總參數 ÷ 2 GB
- 實際記憶體需求 ≈ 模型體積 + 2~4 GB(系統開銷 + 上下文)
例子:Gemma 3 27B 模型 → 27 ÷ 2 ≈ 14 GB 模型 + 4 GB 開銷 = 18 GB 記憶體需求。一台 16GB 筆電裝不下,32GB 桌機剛好。
第三步:看模型擅長什麼
模型不是萬能。同樣 27B 大小,有的會寫程式但不會看圖,有的中文很爛但英文很強。怎麼判斷?
看第三方榜單(快速篩選)
| 你的需求 | 看哪個榜單分數 | 大概及格線 |
|---|---|---|
| 寫文案、知識問答 | MMLU-Pro | >65 算強 |
| 寫程式 | LiveCodeBench、HumanEval | LiveCodeBench >30 可用 |
| 中文能力 | C-Eval、CMMLU | >70 算強 |
| 看圖、讀 PDF | MMMU、DocVQA | MMMU >60 算強 |
| 數學、邏輯 | MATH、GPQA | MATH >70 算強 |
| 綜合(一般使用) | LMArena Leaderboard | 看 Elo 排名 |
自己跑題目(最關鍵)
榜單分數會作弊,你必須跑「自己工作會碰到的題目」。流程:
- 準備 20-30 題你實際工作會碰到的問題(不是從網路抄題目)
- 同樣的題目餵給 2~3 個候選模型
- 蒙著看答案、給分(別看是誰寫的)
- 看「一次到位率」、「中文是否流暢」、「會不會瞎掰」
這比看任何排行榜都準。我之前在本地 AI 模型完整實測那篇就是用這個方法,五款模型結果完全不照 leaderboard 排名走。
第四步:確認模型「合作說明書」
同樣強的兩個模型,「會不會聽指令」差很多。這部分用戶最容易踩雷,要看四件事:
- 支不支援系統指令(System Prompt) — 例如 Gemma 系列不支援系統指令,你只能塞在第一句話。Llama、Qwen、Claude 都支援。不知道這點會發現「怎麼叫它扮演什麼角色都沒效」。
- 能不能呼叫工具(Function Calling / Tool Use) — 想做 AI Agent、自動查資料、操作 Excel,模型必須會「呼叫工具」。Claude、GPT、Qwen 強;Gemma 弱要靠土法煉鋼。
- 能不能吃圖、吃 PDF — 多模態能力。Gemma 3 / GPT-4o / Claude 都吃圖;純文字模型(像 Llama 3 base)看不到圖。
- 上下文(Context)能裝多少 — 4K 只能聊天、32K 可以吃一份合約、128K 可以吃一本書、1M 可以吃整個資料夾。看你的工作內容多長。
三種人的實例:看完直接套
實例一:上班族 Mary(行銷專員)
需求:寫社群貼文、改履歷、翻譯英文信、整理會議紀錄。一台 8GB 筆電,沒在管什麼資料外流。
判斷:
- 地端?不要,8GB 連最小可用模型都裝不下
- 能力需求:文字 + 中文,不需要寫程式
- 預算:能接受月費 600-800 元
建議:直接訂 ChatGPT Plus 或 Claude Pro。免費版偶爾用也夠,只是會在尖峰時段斷線。不要花一分錢買硬體,投資報酬率最差的選擇。
實例二:工程師阿志(後端開發者)
需求:寫程式、Code Review、技術文件查詢、自動化腳本。32GB 桌機,公司規定客戶資料不能上雲。
判斷:
- 分流:涉及客戶資料的問題用地端,公開資料用雲端
- 地端能力:寫程式 → Qwen2.5-Coder-32B(壓縮後 ~20GB,塞得進)
- 雲端:Claude Sonnet 寫程式最強,搭配 Cursor 或 Claude Code
建議:Ollama 裝 Qwen2.5-Coder-32B 跑地端,Claude Pro 月費跑雲端。兩邊加起來月支出 ~800 元 + 一次性 0 元(用現有電腦)。
實例三:創作者小凱(YouTuber + 部落客)
需求:腳本撰寫、字幕翻譯、看 PDF 整理重點、看圖寫敘述、長影片轉文字稿。16GB 筆電 + 一張 RTX 4060(8GB VRAM)。
判斷:
- 多模態(吃圖)是剛需 → 模型必須支援
- 16GB 筆電能跑 8B-12B 級的多模態小模型(像 Gemma 3 12B)
- 長影片字稿要長 context → 32K 起跳
建議:雲端為主(ChatGPT 或 Gemini 看圖最強),地端裝 Gemma 3 12B 當備援(網路斷或想離線時用)。腳本創意給雲端、批量字幕翻譯給地端省錢。
機器等級對照表:你的硬體能跑到哪
下表用 Q4 壓縮後的本地模型尺寸估算。「速度感受」是 CPU 推理(沒獨顯)的體感:
| 機器等級 | 能跑的最大模型 | 速度感受 | 適合 |
|---|---|---|---|
| 8GB RAM 筆電 | 放棄,直接走雲端 | N/A | Mary(上班族) |
| 16GB RAM 筆電 | 7B-12B 模型(Gemma 3 12B、Llama 3 8B) | CPU 跑會卡,有獨顯才順 | 輕度離線備援 |
| 32GB RAM 桌機 | 26B-32B 模型(Gemma 4 26B MoE、Qwen2.5-32B) | MoE 模型可用,Dense 慢但能跑 | 阿志(開發者) |
| 64GB RAM 工作站 | 70B 模型(Llama 3.3 70B) | CPU 很慢,要獨顯才實用 | 研究、實驗 |
| RTX 3090/4090 (24GB VRAM) | 27B-32B 模型,速度飛起 | 流暢,接近 ChatGPT 體驗 | 認真做地端 AI 的甜蜜點 |
| 2x RTX 4090 / A100 | 70B 模型流暢、Mixtral 等大 MoE | 商用級 | 公司部署、付費服務 |
關鍵原則:沒有獨立顯示卡的話,別買貴的桌機去跑大模型。CPU 推理 30B 級模型每秒只吐 2-5 個字,寫一封信要等三分鐘,用一次就會放棄。要嘛走雲端,要嘛投資一張二手 RTX 3090(約 2 萬台幣)。我之前測過 AMD 內顯 (iGPU) 跑 Gemma 4 也會踩坑,內顯不是省錢方案。
最後:我該問自己的 7 個問題
把這份清單存起來,下次有人推薦你「某某新模型超強」時,逐題核對一遍:
- 我用 AI 來解什麼具體問題?(模糊回答 = 還沒想清楚,先別買硬體)
- 這些問題,雲端的 ChatGPT/Claude 已經能解嗎?(能 → 直接訂閱,不要繞遠路)
- 我的資料能不能上雲?(不能 → 才考慮地端)
- 我的機器有多少記憶體和顯卡?(對照本文那張表)
- 這個模型在我關心的能力(寫程式 / 中文 / 看圖)分數怎樣?(看榜單再自己跑題)
- 這個模型的「合作說明書」有什麼坑?(系統指令、工具呼叫、上下文長度)
- 用一個月後,我真的有用嗎?(很多人裝完地端模型用三天就涼了,雲端訂閱反而沒浪費)
結論一句話:普通人選雲端、有資料安全顧慮的選地端、想當興趣研究的選地端 + 雲端混用。買硬體之前,先把第 1、2、7 題答清楚,就會省下七成不必要的開銷。
發佈留言