為什麼要做本地 LLM 的 prompt 分級驗證 harness?

企業導入 LLM 第一個踩到的雷是資料治理:客戶資料不能上雲、員工資料要脫敏才能上雲、純技術問題可以直接上雲。沒有分級機制就只能全本地(成本爆 + 質量差)或全雲端(資料外洩 + 法遵爆)。harness 的目標是每條 prompt 進來自動分 ABC 三級,並驗證分級正確、後續處理也對。

為什麼 judge 必須用本地 LLM,不能用雲端 LLM?

因為 A 級資料連『請判斷這條算什麼級』這個動作都不能上雲——光問就洩了。judge 是 defense in depth 的第一層門禁,必須在本機跑。

本地 LLM 哪個適合做 routing judge?

qwen3-nothink:latest(2.5GB, 12/12, 7.4s)是 PRIMARY,qwen2.5:7b(4.7GB, 12/12, 11.8s)是 fallback。size 不是 axis,prompt-stability 才是。所有 thinking model(qwen3:4b/14b、qwen3.5:4b/9b、gemma4:e4b)都跟 Ollama format=json 架構級不相容,全 0/12。-nothink 後綴只是 tag 不保證關 thinking。

為什麼 routing 12/12 滿分不等於系統可上線?

routing 是 defense in depth 第一層,worker 還要真做事。v3-v6 routing 滿分但 worker 全是 stub('OK 收到'),v7 加 expected_keywords 比對 reasoning 質量才看到 9/12 真實水準。production 要 routing 100% 不漏 A 級 + reasoning 過 SLA。

在 ccbot 內叫 CC 跑驗證,為什麼 PostgreSQL 內容會漏進對話視窗?

父 ccbot session 跟子 claude -p 共用 stdio 鏈,加上 worker output 會被 orchestrator 拼進 final result,父 CC 又把 final result 報告給用戶。tmpfile + start_new_session 只擋 stdio 競爭,沒擋 output 內容被 relay。要加環境偵測(MEMORY_PRESSURE_WATCH 含 ccbot.service)直接 short-circuit 不 fork claude -p 才修得乾淨,需要雙保險(L1 stdio 隔離 + L2 環境偵測)。

新本地 model 要怎麼判斷能不能進候選池?

5 步驟流程:Stage 0 30 秒 smoke(輸出 {ok:true} 才往下)→ 看 model card(要 instruct/chat 標籤,不要 base)→ Stage 2 12-prompt full suite(<7/12 reject、7-11 marginal、12/12 production candidate)→ Stage 3 n=3 一致性 → Stage 4 PII adversarial 100% 抓 A。tools/check_new_model.py 已實作 Stage 0+2+3。

本地跑 AI 模型需要多少記憶體?

粗估公式:模型總參數 ÷ 2 GB = 模型壓縮後體積,再加 2-4 GB 系統開銷。例如 Gemma 3 27B 約需 18 GB 記憶體,32GB 桌機可用,16GB 筆電不夠。

MoE 模型的總參數和激活參數差在哪?

總參數決定要多少記憶體裝模型(整本書放進記憶體),激活參數決定每次思考的計算量(每次翻幾頁)。MoE 模型激活參數小所以跑得快,但總參數還是要全部載入記憶體,所以省的是速度不是記憶體。

一般人該選雲端 ChatGPT 還是自己架地端模型?

80% 的人應該選雲端。雲端 ChatGPT Plus 或 Claude Pro 月費 600-800 元,能力遠超你自己組機器跑的開源模型。地端只有在資料不能外流、想要客製化微調、或當興趣研究時才划算。

怎麼驗證一個模型擅長什麼領域?

兩步驟:第一步看第三方榜單(MMLU-Pro 看文字能力、LiveCodeBench 看寫程式、MMMU 看圖片理解、C-Eval 看中文)。第二步準備 20-30 題你實際工作會碰到的題目,蒙著比較不同模型的答案。榜單分數會作弊,自己跑題才準。

沒有獨立顯卡能跑本地大模型嗎?

技術上能,實用上不能。CPU 推理 30B 級模型每秒只吐 2-5 個字,等一封信要等三分鐘,用一次就放棄。要做地端 AI 的甜蜜點是一張 24GB VRAM 的顯卡(RTX 3090 / 4090),不然就走雲端。

本地 AI 模型跑在 CPU 上速度夠用嗎？

取決於模型大小和任務類型。在 Ryzen 7 4700U 上，gemma4:e4b 可達 1.45 tok/s，qwen3:14b 約 0.58 tok/s。短問短答可以接受，但長程式碼生成（500 tokens 以上）需要等待數分鐘。Apple Silicon 的速度約是 x86 CPU 的 6-7 倍。

qwen3:4b 和 qwen3:14b 差在哪裡？

速度接近（0.78 vs 0.58 tok/s），但完成度差異明顯。qwen3:4b 在程式碼生成等長輸出任務容易截斷或混入不相關文字；qwen3:14b 在測試的 7 道題目中全部完整作答。記憶體需求上，14B 模型在 16GB 機器上需要控制 num_ctx 不超過 4096。

Thinking 模式值得開嗎？

對技術類任務值得。在 MacBook Air M3 上，開啟 Thinking 後速度只慢 6%（9.75 → 9.16 tok/s），但 Q2 程式碼輸出增加 65%、Q7 技術解釋增加 124%。適合複雜推理、程式碼解釋、技術問答；不適合快速查詢或創意寫作。

MacBook Air M3 跑本地 LLM 夠用嗎？

24GB 版本非常夠用。gemma4:e4b 跑出 9.75 tok/s，可設 num_ctx=65536 處理長文件，輸出完整不截斷。品質接近 GPT-3.5 等級，適合開發者日常使用。8GB 版本記憶體較緊，14B 以上的模型可能有限制。

為什麼 Bonsai 8B 在 Mini PC 上跑不動？

Bonsai 8B 的量化版本需要 AVX-512 指令集，而 AMD Ryzen 7 4700U（Zen 2 架構）只支援 AVX2，不支援 AVX-512。llama.cpp 退回軟體模擬後速度接近 0.001 tok/s，完全不可用。需要 Intel 第 11 代以後或 AMD Zen 4 以後的 CPU 才能執行。

標籤: qwen3

腦子系統 7-prompt 驗證篇:routing 跟 sanitize 真的會做事嗎

這篇要解決一個很具體的問題:企業要把 LLM 接進工作流,但客戶資料不能上雲、員工資料要脫敏後才能上雲、純技術問題可以直接上雲——誰來判斷哪條 prompt 屬於哪一級,以及這套判斷可不可信。本文記錄了從 v1 到 v8 兩天 8 個 commit 的完整驗證過程:做一個本地 LLM 驗證 harness,12 條 prompt 跑 routing + sanitize + worker 三階段,驗到 routing 12/12、worker reasoning 9/12,順手抓到兩個沒人警告過的漏洞——ccbot 反客為主、以及本地 LLM 在 response 裡 verbatim 複述原 PII / API key 的二次洩漏。

重點摘要

做什麼:本地 LLM 驗證 harness,把 prompt 分 ABC 三級(A 客戶/PII → 本地、B 內部代號 → 脫敏後上雲、C 純技術 → 直接上雲),12 條 prompt 跑完整 pipeline 驗證
怎麼做:三階段 pipeline——judge 用本地 LLM 分級 → sanitize regex 替換敏感詞 → worker 真做事;每條 prompt 加 expected_keywords,response 比對 ≥30% hit 算過關
為什麼:routing 是 defense in depth 第一層門禁,沒人擋的話客戶名直接被當技術問題上雲;本地 judge 必要,因為 A 級資料連「分類」這個動作都不能上雲
Prompt vs 本地 model:15 顆 model × 12 prompt 跑出來——size 不是 axis,prompt-stability 才是;thinking model + Ollama JSON 架構級不相容,全 0/12;-nothink 後綴騙人;qwen3-nothink + qwen2.5:7b 兩顆滿分
ccbot 意外:在 ccbot Telegram session 內叫 CC 跑驗證,子 claude -p 寫的 PostgreSQL 健檢稿漏進父 ccbot 視窗,反客為主蓋掉用戶的方法論討論。修法是雙保險:stdio 隔離 + 環境偵測 short-circuit
v8 補洞 + 新發現:4 個 hole 全修(routing 11/12 → 12/12、cross_team CLI baseline 建立、judge 改 qwen2.5:7b 跟 worker 交叉、forbidden_keywords 抓反向洩漏);新發現「routing 對 ≠ worker 不洩漏」——qwen3-nothink 本地 worker 會在 response 裡 verbatim 寫回原 PII / API key,留 v9 用「output 也跑 sanitize」對稱性原則修

一、在做什麼:給 LLM 工作流加一道「資料分級」前門

企業導入 LLM 第一個踩到的雷是資料治理。同樣是「請幫忙處理一下」,客戶投訴不能跟 OpenAI 講、員工 review 可以脫敏後問,但純技術問題(Kafka rebalance 怎麼解)直接打雲端 API 最快。沒有分級機制,要嘛全本地(成本爆炸 + 質量差)、要嘛全雲端(資料外洩 + 法遵爆炸)。

所以這套 harness 的工作目標只有一個:每條 prompt 進來自動分級,並驗證這個分級正確、後續處理也對。三層定義:

級別	特徵	處理方式	範例
A	真實客戶名 / PII / credentials	本地 LLM 處理,連分類都不上雲	「客戶 A123456789 反映…」
B	內部代號 / 員工名	sanitize 替換成 placeholder 再上雲	「[employee_alice] 寫的 5 個模組…」
C	純技術 / 公開知識	直接上雲,可派 Kiro / Claude Code 並行	「Kafka consumer rebalance 怎麼解?」

驗證集 12 條 prompt(prompts.py:PROMPTS_V7_ABC):7 條 happy path 覆蓋 A/B/C × team/cross 笛卡兒角落,5 條 adversarial 壓邊界(PII override、ambiguous team、camouflage api key、隱式 cross_tool、嵌套客戶名)。

二、怎麼做:三階段 pipeline + keyword eval

2.1 三階段 pipeline

prompt → [Stage 1: Judge]    分 ABC 級 + need_team + cross_tool
       → [Stage 2: Sanitize] B 級替換內部代號為 placeholder
       → [Stage 3: Worker]   按級別分派
                              A → worker_local_real (Ollama 本地推理)
                              B → kiro CLI (sanitize 後)
                              C → kiro CLI 直接打
                              C+team → ThreadPoolExecutor 並行
                              C+team+cross → Kiro × N + Claude × M 混編

2.2 Judge 用本地 LLM(Ollama)

Judge 是整個 harness 最關鍵的一層——它判斷一條 prompt 屬於哪一級,只要它判錯,defense 整個垮。所以 judge 必須:

本地跑:不能把 prompt 送雲端去問「這條 prompt 含 PII 嗎」——因為光送過去就洩了
強制 JSON 輸出:Ollama format=json,規範回傳 {"level": "A", "need_team": false, "cross_tool": false}
System prompt 含 few-shot:純規則對小模型沒用,要附 4 個 input/output 對偶範例(覆蓋 A/B/C × team/cross 角落),模型才會把規則當回事

2.3 Sanitize 用 regex(6 類 pattern)

# sanitize.py 簡化示意
PATTERNS = [
    (r'\[client_\w+\]',     '[CLIENT_REDACTED]'),    # 客戶代號
    (r'\[employee_\w+\]',   '[EMPLOYEE_REDACTED]'),  # 員工名
    (r'\[internal_\w+\]',   '[INTERNAL_REDACTED]'),  # 內部代號
    (r'sk-[A-Za-z0-9_-]+',  '[api_key]'),            # API key
    (r'\b\d{3}-\d{3,4}-\d{4}\b', '[phone]'),         # 台灣手機
    (r'\b[A-Z]\d{9}\b',     '[tw_id]'),              # 台灣身分證
]

sanitize 是 B 級的本分,但也是 A 級的補強——judge 萬一漏判 A 級成 C 級,sanitize 還能擋一刀(token 不會流出去)。defense in depth 兩層獨立。

2.4 Worker 真做事 + keyword eval

v3-v6 的 worker 全是 stub:worker_local_skip() 回字面字串「[A 級本地處理] 會 spawn…」、worker_kiro() 回「OK 收到」。意思是滿分等於通過 routing 考卷,不等於這個系統會幹活。v7 把 worker 改真:

worker_local_real:HTTP 打 http://localhost:11434/api/chat,用 qwen3-nothink 真推理
worker_kiro:subprocess kiro-cli chat,抓最後 3000 字當 response
worker_cross_team:ThreadPoolExecutor 真並行,3 facet 派 Kiro + 1 facet 派 Claude,結果合併

每條 prompt 加 expected_keywords 列表,response 比對 ≥30% hit 才算 reasoning_passed。all_correct = routing_correct AND reasoning_passed——兩條軸都對才算這條 prompt 真的成功。

三、為什麼用這個方法

四個設計選擇,每個都有對應的失敗情境:

設計	替代方案	為什麼選這個
本地 LLM 當 judge	雲端 LLM 判定 + 留 audit log	A 級資料連「請判斷這條算什麼級」這個動作都不能傳出去——光問就洩
judge + sanitize 兩層	只用 LLM judge,信任它分對	defense in depth:judge 失誤時 sanitize 兜底,兩層獨立失誤率相乘
expected_keywords ≥30% hit	人工標 ground-truth + 拿 LLM 評分	v3-v6 沒有自動評分,worker 全是 stub 也驗不出來;30% 拍腦袋,但有比沒有強
12 條 prompt(7 + 5 adv)	100 條 ground-truth 大集	驗證集大不一定強——關鍵是覆蓋角落 case + 30% adversarial。沒 adversarial 的 benchmark 會給你錯覺,gemma2:2b 看 happy path 5/5 完美,加 adversarial 立刻崩到 0/7

四、Prompt 跟本地模型的測試情況

這節是整篇技術重點——15 顆本地 model × 12 prompt 跑出來的對照,直接決定 production 配置。

4.1 完整對照表

Tier	Model	Size	All correct	Avg latency	用途
1 滿分	`qwen3-nothink:latest`	2.5GB	12/12	7.4s	PRIMARY
1 滿分	`qwen2.5:7b`	4.7GB	12/12	11.8s	FALLBACK
2	`qwen2.5:3b`	1.9GB	9/12	7.4s	LATENCY
3	`qwen2.5:0.5b`	397MB	7/12	4.9s ⚡	EXTREME
4 跨家族	phi3.5、llama3.2:3b、gemma2:2b	1.6-3.8GB	6/12	5.7-9.6s	marginal
5 全死	qwen3:4b/14b、qwen3.5:4b/9b、qwen35-9b-nothink、gemma4:e4b	2.5-9.6GB	0/12	14-104s	REJECT
5 OOM	llama3.3:latest	42GB	0/12	HTTP 500	REJECT

4.2 四條歸納

Size 不是 axis,prompt-stability 才是。0.5b → 3b → 7b 一條乾淨單調曲線(7→9→12),但 7b vs 14b thinking 完全反向(12 vs 0)。size 跟 accuracy 沒有單調關係,真正分水嶺是「對 prompt 變動穩不穩」。
Thinking model + Ollama JSON 架構級不相容。6 顆 thinking model 加 few-shot 仍然 0/12 → 不是調 prompt 能救,是模型走 reasoning chain 時把 num_predict budget 燒在 <think> tag,還沒輸出 JSON 就被截斷。
-nothink 後綴騙人。qwen35-9b-nothink:latest 仍然 0/12,跟其他 thinking model 同表現,後綴只是 Ollama tag 名稱不是真正關了 thinking。新 model 必須跑 30 秒 smoke test 才知道。
VRAM 跌出 → 災難。size > ~7GB 在 16GB RAM 機器上會丟出 GPU,qwen3:14b 41s/call、gemma4:e4b 104s/call。可用上限約等於「VRAM – 1.5GB」。

4.3 Few-shot 是怎麼救活跨家族 small instruct 的

v3 一開始觀察到 phi3.5 / llama3.2:3b / gemma2:2b 全死在 level——3 個不同家族同時死在同一個地方,本能歸因到「small instruct safety bias」。後來重新驗,把 system prompt 從純規則改成「規則 + 4 個範例」(few-shot in system prompt),結果:

Model	純規則	+ few-shot	Δ
qwen3-nothink:latest	10/12	12/12	+2
qwen2.5:7b	5/12	12/12	+7
phi3.5:latest	1/12	6/12	+5
llama3.2:3b	2/12	6/12	+4
gemma2:2b	5/12	6/12	+1

真實結論:純規則對小模型是可忽略的 boilerplate;規則 + 範例才會被當成必須對齊的 anchor。所以 size 不是 axis 這件事的另一半是:prompt 工程裡「有沒有 grounding example」才是真 axis。

4.4 新模型來時怎麼判斷能不能用

不要每顆都跑全套 30 分鐘。把 trait 抽出來變 5 步驟 checklist(tools/check_new_model.py):

Stage 0 30 秒 smoke:輸出 {"ok":true} → 失敗直接淘汰,不跑下去
Stage 1 看 model card:base/pretrained 跳過,要 instruct/chat 標籤
Stage 2 12-prompt full suite:< 7/12 reject、7-11 marginal、12/12 production candidate
Stage 3 n=3 一致性:同一條 prompt 跑三次 level 都一致才算穩
Stage 4 PII adversarial:5 條藏 PII 進技術句,要 100% 抓 A 級

五、結論被推翻三次:差異在哪

整個工作從 v1 到 v8 兩天 8 commits 推翻三次結論又補了一輪洞。差異:

版本	當時主張	後來被翻成
v3(overnight benchmark)	「只有 qwen3-nothink 唯一可用,7B+ qwen2.5 危險會洩客戶資料,size 不是 axis」	v4 翻盤:7B+ qwen 都行,危險是 prompt 沒範例造成,fallback 三層全有
v4(few-shot breakthrough)	「qwen3-nothink 12/12 滿分,prompt-stability 是真 axis」	v5 戳破:12/12 是 routing 滿分,worker 一次都沒真做事
v7(end-to-end + ccbot fix)	「routing 對不等於 worker 對等,worker reasoning 9/12 才是真實水準」	v8 部分修正:routing 12/12 完成,但又翻出新軸——worker output 自己會 echo PII
v8(holes fixed + PII echo)	「sanitize 前置 + judge 交叉 + forbidden_keywords + cross_team baseline 4 個 hole 補完」	新發現:routing 對不等於不洩漏——本地 LLM 自己會 verbatim 複述 PII,留 v9 補 worker output sanitize

四次推翻的共同 pattern:結論被翻不是因為跑得不夠,是因為跑的東西不夠多軸。v3 只看 routing,v4 只看 routing+prompt 變動,v7 把 worker reasoning 拉進來,v8 加 forbidden_keywords 才看到 worker 自己會洩漏。每多一個軸就翻一次,翻到沒得翻為止。

六、ccbot 反客為主意外

6.1 症狀

用戶在 ccbot Telegram session 跟 CC(Claude Code)討論 v7 方法論,中途叫 CC 跑驗證。下一秒 ccbot 視窗開始印一篇完整的 PostgreSQL 健檢文:pg_dump --schema-only、SchemaSpy、postgres_autodoc、obj_description(attrelid, attnum)、pg_settings WHERE source <> 'default'、pgbackrest info + patronictl list、SchemaSpy + dbdocs.io + Atlas…

用戶看了打字框問:「明明在討論方法論,結果你突然 PRINT 一篇 PGSQL,反客為主?」

6.2 追根因

對照前一次 v7 跑(run_v7_20260504_123811)的 02_pipeline_v7.json,prompt 07 cross_team 的 documentation facet 輸出**字面跟用戶 ccbot 看到的內容一字不差**。所以那段 PGSQL 不是父 CC 自己生成,是子 claude -p 為驗證集 prompt 07 documentation facet 寫的稿——但它怎麼漏到父 ccbot TG 訊息流?

v7 既有 workers.py 的 tmpfile + start_new_session + stdin=DEVNULL fix 註解寫:「avoids deadlocking parent session’s stdin/stdout」。但這只擋了「子進程跟父 CC 之間的 stdio 競爭」(deadlock 來源),沒擋住:

子 claude -p 寫的 PG 稿 → tmpfile
父 orchestrator 讀 tmpfile,塞進 worker_cross_team result 的 response 欄位
父 orchestrator 把整個 result 印到 stdout / 回給呼叫端
父 CC 看到 stdout,覺得「我跑完了,把結果報告給用戶」→ 印到 ccbot TG
用戶眼睛裡:剛剛還在討論方法論,下一秒視窗變成 PG 健檢手冊

L1 防線(stdio 隔離)解的是 stdio 競爭,沒解 output 內容被 relay。要加 L2 防線。

6.3 修法雙保險

先找 ccbot session 的可靠 marker:

$ env | grep -i ccbot
MEMORY_PRESSURE_WATCH=/sys/fs/cgroup/user.slice/user-1000.slice/
  [email protected]/app.slice/ccbot.service/memory.pressure

ccbot.service systemd cgroup 會 set MEMORY_PRESSURE_WATCH,任何子進程都繼承——包括 ccbot fork 出來的 CC、CC fork 出來的 orchestrator、orchestrator fork 出來的 claude -p。完美 marker。修法:

def _running_inside_ccbot() -> bool:
    """Override:
      WALSIN_FORCE_CC_WORKER=1  -> force enable
      WALSIN_FORCE_CC_WORKER=0  -> force disable
    """
    override = os.environ.get("WALSIN_FORCE_CC_WORKER")
    if override == "1": return False
    if override == "0": return True
    return "ccbot" in os.environ.get("MEMORY_PRESSURE_WATCH", "")


def worker_claude(prompt, timeout=120):
    if _running_inside_ccbot():
        return {"tool": "claude",
                "response": "[SKIPPED: running inside ccbot — "
                            "`claude -p` output would leak into parent TG. "
                            "Set WALSIN_FORCE_CC_WORKER=1 to override.]",
                "latency_ms": 0, "exit_code": 0, "skipped": True}
    # ... 原本的 Popen + tmpfile 邏輯

6.4 驗證:fix 有用且沒破壞 cross_team 可驗證性

修完跑 prompt 07 cross_team 的 4 個 facet:

facet	tool	skipped	latency	證據
security	kiro	False	12911ms	真 PG security 答案
testing	kiro	False	8466ms	真 PG testing 答案
performance	claude	True	0ms	`[SKIPPED: ...]`
documentation	claude	True	0ms	`[SKIPPED: ...]`

沒漏 PG 內容。reasoning_passed=True(62.5% hit)——kiro 兩個 facet 已經自然涵蓋足夠 PostgreSQL 關鍵字(pg_stat、replica、backup、WAL、index),L2 防線 short-circuit 沒破壞 cross_team 可驗證性。

注意這個 trade-off:L2 防線只在 ccbot 內生效。獨立 CLI 跑 WALSIN_FORCE_CC_WORKER=1 python3 orchestrator_v7.py 會放行 claude -p,完整 4 facet 都實跑——這才是「真要驗 cross_team 跨工具質量」的 baseline。本次跑因為在 ccbot 內,只算「ccbot 安全模式驗證」,完整 cross_team 留 v8 在獨立環境補。

七、v8 補洞 + 抓到 v7 看不到的新漏洞

v7 結尾留了 5 個洞,本輪一次解 4 個,順手抓到一個 v7 完全看不到的新類別漏洞。

7.1 4 個 hole 修法

#	Hole	修法	驗證
1 🔴	#12 API key routing fail	`sanitize.has_a_level_pii()` 前置 gate,regex 命中強制 level=A	routing 11/12 → 12/12 ✅
2 🔴	cross_team CLI baseline 沒驗	`WALSIN_FORCE_CC_WORKER=1` 讓 claude facet 真 fork(L1 stdio fix 還在兜底)	#07 reasoning 62% → 88% ✅
3 🟡	judge / PRIMARY 同一顆 qwen3-nothink	`JUDGE_MODEL = "qwen2.5:7b"`,跟 worker 兩個世代交叉	獨立性建立 ✅
4 🟡	30% 閾值沒抓反向洩漏	每條 prompt 加 `forbidden_keywords` + per-prompt `pass_threshold`	立刻紅了 #11 + #12 ⚠️

7.2 v7 vs v8 跑分對比

指標	v7	v8
Routing correct	11/12	12/12 ✅
Reasoning passed	9/12	9/12
ALL correct	9/12	9/12

ALL 沒變的原因:routing 多修對 1 條(#12)、reasoning 多失敗 1 條(#11 被 forbidden_keywords 抓到 PII leak)→ 互相抵消。但這個抵消是好事:v8 多抓的那個 fail 是真實 production 問題,v7 的「pass」是因為沒檢查所以沒看到。

7.3 新發現:worker PII echo(routing 對 ≠ 不洩漏)

加 forbidden_keywords 後,#11 + #12 立刻紅:

[11_adv_tw_pii] level=A -> local_real (111691ms) reasoning=0.375
  hits=['log', 'session', '排查']
  LEAK=['A123456789', '0912-345-678'] x

[12_adv_api_key] level=A -> local_real (115094ms) reasoning=0.125
  hits=['401']
  LEAK=['sk-test-abc123def456ghi789jkl'] x

兩條都是 routing 對(level=A,本地處理),worker 也走對,但 worker 寫的 200 字 response 整段把原 PII / API key verbatim 重複出來。qwen3-nothink 在排查方向裡寫了類似「客戶 A123456789 反映…」「token sk-test-… 看起來像…」這種句子。

意義:routing 的 A 級保護是「prompt 不上雲」,但 worker 寫出來的 response 還是會被印 log、塞 ccbot relay、走 webhook 給下游 → 從第二條路洩出去。Defense in depth 的第三層(worker 自我審查)還沒做。

v7 為什麼看不到:v7 reasoning eval 只看正向 expected_keywords(該寫什麼),沒有反向 forbidden_keywords(絕對不能寫什麼)。回應只要寫對技術方向就 pass,模型有沒有複述 PII 完全不檢查。

修法路徑(留 v9):defense in depth 第三層——對稱性原則,input 過 sanitize,output 也要過 sanitize。實作:worker_local_real() 在 return 前把 response 也送進 sanitize(),有 PII pattern 命中就替換成 placeholder。即使 LLM 複述 PII,輸出層也會擋。

7.4 v9 還沒補完的 5 個洞(誠實清單)

🔴 worker PII echo(本輪新發現,留 v9 用「output sanitize」對稱性原則修)
🟡 #04 5 模組 review reasoning fail(kiro 沒程式碼可看就拒答,是 prompt 設計問題不是 worker)
🟡 30% threshold 仍未個別 calibrate(per-prompt 機制已支援,但實際每條的 threshold 沒個別調過)
🟢 跨家族 12/12 樣本不足(mistral-7b / yi-1.5 沒下載)
🟢 judge p99 latency(qwen2.5:7b 平均 8s,#01 偶發 56s,看是不是 cold start)

給跟著做的人三條提醒

Routing 滿分不要爽到忘了驗 worker。v3-v6 routing 滿分但 worker 全是 stub,直到 v7 加 expected_keywords 才看到 9/12 真實水準。reasoning eval 不必很完美(30% 閾值就有用),但有比沒有強得多。
在 LLM agent 內 fork 同類 LLM,環境隔離不能只靠 stdio。要 env-marker double-gate(L1 stdio + L2 環境偵測 short-circuit),否則子寫的稿會回流到父的對話視窗。任何「Claude Code fork Claude Code」「ChatGPT plugin call ChatGPT」這種設計都要警惕。
-nothink 後綴騙人,size 不是 axis。qwen35-9b-nothink:latest 跟其他 thinking model 同樣 0/12。新 model 來請跑 tools/check_new_model.py 30 秒 smoke + 12-prompt full,不要看 model card 標籤就決定收進候選池。
對稱性原則:input 過 sanitize,output 也要過 sanitize。即使 routing 100% 對、prompt 沒上雲,本地 LLM 自己會 verbatim 複述 PII / API key 在 response 裡——response 一旦被印 log、寄 ticket、走 webhook 就二次洩漏。Reasoning eval 必須加 forbidden_keywords 反向檢查,worker return 前也要再過一次 sanitize。

原始素材

Repo:tm731531/walsin-teams-validation
v3 overnight benchmark:docs/v3_overnight_benchmark.md
v4 few-shot breakthrough:docs/v4_few_shot_breakthrough.md
v5 五視角整合:docs/v5_external_review.md
v6 model trait checklist:docs/v6_model_trait_checklist.md
v7 全程回顧 + 自考卷:docs/v7_endtoend_and_summary.md

更新時間:2026-05-04 14:30(整合 v1 → v7 兩天 7 commits 重新編排)

2026 年 5 月 3 日

我該選哪個 AI 模型?從硬體到能力的白話判斷指南

選 AI 模型不是看誰最厲害,而是看哪個「裝得進你的機器、會做你的工作、跟你脾氣合」。這篇用白話講清楚怎麼判斷,不需要工程背景就能讀懂。最後附上三種人的實際範例和一張機器等級對照表,讓你看完知道下一步該做什麼。

重點摘要

選 AI 模型有四關:可不可用、裝不裝得下、擅不擅長、合不合作
「總參數」決定要多少記憶體,「激活參數」決定跑多快 — 兩個不一樣
32GB 記憶體的家用電腦能跑 30B 級的本地模型(壓縮後),別被 700B 的數字嚇到
判斷模型擅長什麼,看 第三方榜單 + 自己跑題目,不要相信廠商海報
不會微調、不寫程式的一般人:雲端 ChatGPT/Claude 比地端模型實用 10 倍

為什麼這篇不是工程師專用

很多 AI 模型介紹一上來就講 Transformer、MoE、量化、KV cache,看不懂的人乾脆直接問 ChatGPT 算了。但這樣你永遠不會知道:為什麼有時候 ChatGPT 答得不如另一個工具好?為什麼有人在自己電腦上跑 AI?那台主機要花多少錢?

這篇用「買菜選菜」的角度切入。選模型就像選餐廳:有的店招牌大但你家附近沒有(雲端 vs 地端)、有的菜單大但你只吃其中三道(總參數 vs 激活參數)、有的師傅擅長熱炒但你想吃日料(文字強但圖片弱)。看懂這幾個對應,後面什麼術語都不會卡住你。

第一步:先問自己這四個問題

判斷一個模型「對你來說可不可用」,不是看它在排行榜第幾名,而是先答這四個問題:

我要它做什麼? — 寫文案、翻譯、寫程式、看 PDF、看圖,選的方向完全不同
我要在哪裡用? — 雲端服務 (ChatGPT 網站、Claude 網站) 還是裝在自己電腦 (地端)
我有多少預算? — 雲端是月費或按量計費,地端是一次性硬體投資
資料能不能上雲? — 病歷、客戶資料、未公開的營業資料,丟雲端要先看公司規範

這四題答完之後,80% 的人會發現:地端模型不是給你的。雲端 ChatGPT/Claude/Gemini 月費 600-800 台幣,你買得到的「能力」遠超過你自己組一台機器跑 Llama 3。地端只有在「資料不能外流」、「想要客製化微調」、「想當興趣研究」這三種情況才划算。

第二步:看模型「裝不裝得進」你的機器

如果你決定走地端,這一關是硬門檻。模型有兩個關鍵數字,廠商常常混在一起講,你要會分:

總參數 vs 激活參數

名詞	白話解釋	決定什麼
總參數	模型「整本書」有多厚	要多少記憶體裝它
激活參數	每次思考翻幾頁	跑得快不快

普通模型(像 Gemma 3、Llama 3)「整本翻完」才回答你 — 總參數 = 激活參數。MoE 模型(像 Mixtral、DeepSeek、Gemma 4)「只翻其中幾頁」 — 總參數遠大於激活參數,跑得快但還是要把整本書放進記憶體。

記憶體簡易公式

用「壓縮過」(技術上叫 Q4 量化) 的模型,大致這樣估:

模型體積 ≈ 總參數 ÷ 2 GB
實際記憶體需求 ≈ 模型體積 + 2~4 GB(系統開銷 + 上下文)

例子:Gemma 3 27B 模型 → 27 ÷ 2 ≈ 14 GB 模型 + 4 GB 開銷 = 18 GB 記憶體需求。一台 16GB 筆電裝不下,32GB 桌機剛好。

第三步:看模型擅長什麼

模型不是萬能。同樣 27B 大小,有的會寫程式但不會看圖,有的中文很爛但英文很強。怎麼判斷?

看第三方榜單(快速篩選)

你的需求	看哪個榜單分數	大概及格線
寫文案、知識問答	MMLU-Pro	>65 算強
寫程式	LiveCodeBench、HumanEval	LiveCodeBench >30 可用
中文能力	C-Eval、CMMLU	>70 算強
看圖、讀 PDF	MMMU、DocVQA	MMMU >60 算強
數學、邏輯	MATH、GPQA	MATH >70 算強
綜合(一般使用)	LMArena Leaderboard	看 Elo 排名

自己跑題目(最關鍵)

榜單分數會作弊,你必須跑「自己工作會碰到的題目」。流程:

準備 20-30 題你實際工作會碰到的問題(不是從網路抄題目)
同樣的題目餵給 2~3 個候選模型
蒙著看答案、給分(別看是誰寫的)
看「一次到位率」、「中文是否流暢」、「會不會瞎掰」

這比看任何排行榜都準。我之前在本地 AI 模型完整實測那篇就是用這個方法,五款模型結果完全不照 leaderboard 排名走。

第四步:確認模型「合作說明書」

同樣強的兩個模型,「會不會聽指令」差很多。這部分用戶最容易踩雷,要看四件事:

支不支援系統指令(System Prompt) — 例如 Gemma 系列不支援系統指令,你只能塞在第一句話。Llama、Qwen、Claude 都支援。不知道這點會發現「怎麼叫它扮演什麼角色都沒效」。
能不能呼叫工具(Function Calling / Tool Use) — 想做 AI Agent、自動查資料、操作 Excel,模型必須會「呼叫工具」。Claude、GPT、Qwen 強;Gemma 弱要靠土法煉鋼。
能不能吃圖、吃 PDF — 多模態能力。Gemma 3 / GPT-4o / Claude 都吃圖;純文字模型(像 Llama 3 base)看不到圖。
上下文(Context)能裝多少 — 4K 只能聊天、32K 可以吃一份合約、128K 可以吃一本書、1M 可以吃整個資料夾。看你的工作內容多長。

三種人的實例:看完直接套

實例一:上班族 Mary(行銷專員)

需求:寫社群貼文、改履歷、翻譯英文信、整理會議紀錄。一台 8GB 筆電,沒在管什麼資料外流。

判斷:

地端?不要,8GB 連最小可用模型都裝不下
能力需求:文字 + 中文,不需要寫程式
預算:能接受月費 600-800 元

建議:直接訂 ChatGPT Plus 或 Claude Pro。免費版偶爾用也夠,只是會在尖峰時段斷線。不要花一分錢買硬體,投資報酬率最差的選擇。

實例二:工程師阿志(後端開發者)

需求:寫程式、Code Review、技術文件查詢、自動化腳本。32GB 桌機,公司規定客戶資料不能上雲。

判斷:

分流:涉及客戶資料的問題用地端,公開資料用雲端
地端能力:寫程式 → Qwen2.5-Coder-32B(壓縮後 ~20GB,塞得進)
雲端:Claude Sonnet 寫程式最強,搭配 Cursor 或 Claude Code

建議:Ollama 裝 Qwen2.5-Coder-32B 跑地端,Claude Pro 月費跑雲端。兩邊加起來月支出 ~800 元 + 一次性 0 元(用現有電腦)。

實例三:創作者小凱(YouTuber + 部落客)

需求:腳本撰寫、字幕翻譯、看 PDF 整理重點、看圖寫敘述、長影片轉文字稿。16GB 筆電 + 一張 RTX 4060(8GB VRAM)。

判斷:

多模態(吃圖)是剛需 → 模型必須支援
16GB 筆電能跑 8B-12B 級的多模態小模型(像 Gemma 3 12B)
長影片字稿要長 context → 32K 起跳

建議:雲端為主(ChatGPT 或 Gemini 看圖最強),地端裝 Gemma 3 12B 當備援(網路斷或想離線時用)。腳本創意給雲端、批量字幕翻譯給地端省錢。

機器等級對照表:你的硬體能跑到哪

下表用 Q4 壓縮後的本地模型尺寸估算。「速度感受」是 CPU 推理(沒獨顯)的體感:

機器等級	能跑的最大模型	速度感受	適合
8GB RAM 筆電	放棄,直接走雲端	N/A	Mary(上班族)
16GB RAM 筆電	7B-12B 模型(Gemma 3 12B、Llama 3 8B)	CPU 跑會卡,有獨顯才順	輕度離線備援
32GB RAM 桌機	26B-32B 模型(Gemma 4 26B MoE、Qwen2.5-32B)	MoE 模型可用,Dense 慢但能跑	阿志(開發者)
64GB RAM 工作站	70B 模型(Llama 3.3 70B)	CPU 很慢,要獨顯才實用	研究、實驗
RTX 3090/4090 (24GB VRAM)	27B-32B 模型,速度飛起	流暢,接近 ChatGPT 體驗	認真做地端 AI 的甜蜜點
2x RTX 4090 / A100	70B 模型流暢、Mixtral 等大 MoE	商用級	公司部署、付費服務

關鍵原則:沒有獨立顯示卡的話,別買貴的桌機去跑大模型。CPU 推理 30B 級模型每秒只吐 2-5 個字,寫一封信要等三分鐘,用一次就會放棄。要嘛走雲端,要嘛投資一張二手 RTX 3090(約 2 萬台幣)。我之前測過 AMD 內顯 (iGPU) 跑 Gemma 4 也會踩坑,內顯不是省錢方案。

最後:我該問自己的 7 個問題

把這份清單存起來,下次有人推薦你「某某新模型超強」時,逐題核對一遍:

我用 AI 來解什麼具體問題?(模糊回答 = 還沒想清楚,先別買硬體)
這些問題,雲端的 ChatGPT/Claude 已經能解嗎?(能 → 直接訂閱,不要繞遠路)
我的資料能不能上雲?(不能 → 才考慮地端)
我的機器有多少記憶體和顯卡?(對照本文那張表)
這個模型在我關心的能力(寫程式 / 中文 / 看圖)分數怎樣?(看榜單再自己跑題)
這個模型的「合作說明書」有什麼坑?(系統指令、工具呼叫、上下文長度)
用一個月後,我真的有用嗎?(很多人裝完地端模型用三天就涼了,雲端訂閱反而沒浪費)

結論一句話:普通人選雲端、有資料安全顧慮的選地端、想當興趣研究的選地端 + 雲端混用。買硬體之前,先把第 1、2、7 題答清楚,就會省下七成不必要的開銷。

2026 年 4 月 29 日

本地 AI 模型完整實測：五款模型 × 兩台機器 × 三種設定，找出真正的上限

重點摘要

Mini PC（Ryzen 7 4700U）：gemma4:e4b 最快（1.45 tok/s），qwen3:14b 最完整（7/7 題全答）；Bonsai 8B 因 AVX-512 需求完全無法使用
換一台機器差多少？：同款 gemma4:e4b，MacBook Air M3 跑出 9.75 tok/s，是 Mini PC 的 6.7 倍；Q2 輸出從截斷 300 tokens 變成完整 2218 tokens
開 Thinking 差多少？：速度幾乎不變（-6%），但 Q2 程式碼輸出 +65%，Q7 技術解釋 +124%，品質接近 GPT-3.5

你想在本地跑 AI 模型，但不知道哪款模型值得裝？硬體夠不夠？開 Thinking 模式到底有沒有差？這篇文章用實際跑出來的數據回答這三個問題——五款模型 × 兩台機器 × 三種設定，全部實測，沒有廣告。

測試環境分別是一台平價 Mini PC（Ryzen 7 4700U，16GB RAM，CPU-only）和 MacBook Air M3（24GB 統一記憶體）。七道測試題涵蓋：文字理解、Python 程式碼生成、SQL 查詢、TCP 技術解釋等真實使用情境。

測試環境規格

項目	Mini PC	MacBook Air M3
處理器	AMD Ryzen 7 4700U	Apple M3
記憶體	16GB DDR4（CPU-only）	24GB 統一記憶體
顯示卡	AMD Vega 7 iGPU，僅 128MB VRAM（不可用）	Apple GPU（共享統一記憶體）
推論框架	Ollama + llama.cpp（CPU 模式）	Ollama + llama.cpp（Metal）
特殊限制	無 AVX-512，部分模型無法執行	無限制

重點摘要表（先看這三張表）

表 1：Mini PC 五款模型速度與完成度對比

模型	平均速度	完成度	主要問題
Bonsai 8B	0.001 tok/s	完全不可用	需要 AVX-512，CPU 不支援
qwen3:4b	0.78 tok/s	5/7（部分截斷）	Q2/Q5 在 300 token 限制下截斷或夾雜文字
qwen3.5:9b	0.57 tok/s	5/7	Q6/Q7 需延長 timeout 至 1800s
qwen3:14b	0.58 tok/s	7/7 全答	無截斷問題，但速度慢
gemma4:e4b	1.45 tok/s	5/7（舊測試 600 上限）	Q2/Q4 在 600 token 舊限制下截斷

表 2：同款 gemma4:e4b，硬體差距

指標	Mini PC（CPU）	MacBook Air M3	差距
平均速度	1.45 tok/s	9.75 tok/s	6.7×
Q2 輸出長度	600 tokens（截斷）	2218 tokens（完整）	記憶體夠，才不截斷
Q4 輸出長度	600 tokens（截斷）	1043 tokens（完整）	SQL 查詢完整輸出
最大 num_ctx	受 16GB 限制	65536+	長文件處理能力天差地別

表 3：Mac 上同款模型，三種設定對比

設定	平均速度	Q2 輸出	Q7 輸出	適合場景
Mini PC 舊測試（600 limit）	1.45 tok/s	截斷	309 tokens	快速查詢
Mac think:false，無限制	9.75 tok/s	2218 tokens ✅	442 tokens	日常程式碼
Mac Thinking 開啟，無限制	9.16 tok/s（-6%）	3670 tokens ✅	990 tokens	複雜推理、技術解釋

第一層：Mini PC 上，哪個模型值得跑？

在只有 CPU 推論的環境下，選模型就是在「速度」與「品質」之間做取捨。以下是完整的三維評估。

Bonsai 8B：直接淘汰

Bonsai 8B 的速度是 0.001 tok/s——不是很慢，是根本無法執行。原因是它的量化版本依賴 AVX-512 指令集，而 Ryzen 7 4700U 不支援 AVX-512（只有 AVX2）。llama.cpp 在這種情況下會退回軟體模擬，速度接近零。如果你的機器是 Intel 第 11 代以後或 AMD Zen 4 以後，才有機會跑 Bonsai 8B。

qwen3:4b：最快但有截斷風險

qwen3:4b 在 Q1～Q7 七個量化等級測試中，平均跑出 0.78 tok/s，是 CPU 上可用模型裡的最高速。但在 num_predict=300 的限制下，Q2（程式碼生成）和 Q5（格式輸出）出現截斷或夾雜不相關文字的問題。如果你只需要短問短答，qwen3:4b Q6 量化（約 21 元台幣月費 API 等級）是最划算的選擇。

qwen3.5:9b vs qwen3:14b：9B 更快但 14B 更可靠

qwen3.5:9b 平均 0.57 tok/s，但 Q6/Q7 題遇到了 timeout 問題——需要將請求超時設定延長到 1800 秒才能完成。原因是 9B 模型在複雜任務上思考時間較長，但預設 timeout 不夠。

qwen3:14b 同樣 0.58 tok/s，卻跑出 7/7 完整答題率。它的 Q2 完整輸出 500 tokens、Q4 完整輸出 500 tokens，沒有截斷。代價是記憶體佔用更高，在 16GB 機器上跑 14B 模型時需要注意 KV Cache 可能 OOM（記憶體不足），建議設定 num_ctx 不超過 4096。

gemma4:e4b：速度最快的完整模型

gemma4:e4b 平均 1.45 tok/s，是所有可用模型中最快的，幾乎是 qwen3:14b 的 2.5 倍。在舊測試的 600 token 限制下，Q2 和 Q4 被截斷。但如果移除限制（num_predict=-1），這個問題就不存在——這正是下一層要說的。

Mini PC 選模型建議：

追求速度 → gemma4:e4b（1.45 tok/s，移除 token 限制）
追求品質 → qwen3:14b（7/7 完整，0.58 tok/s）
省記憶體 → qwen3:4b Q3/Q4（短任務夠用）
不建議 → Bonsai 8B（AVX-512 門檻）、qwen3.5:9b（需調 timeout）

第二層：同款模型，換台機器差多少？

用同款 gemma4:e4b，在 Mini PC 和 MacBook Air M3 上各跑一輪，看看換硬體能得到什麼。

速度差 6.7 倍，不只是快慢的問題

Mini PC 平均 1.45 tok/s，Mac 平均 9.75 tok/s。這個差距背後的原因是架構：Mini PC 用 x86 CPU 做矩陣運算，效率遠低於 Apple Silicon 的 Neural Engine + 統一記憶體架構。M3 的統一記憶體讓 CPU 和 GPU 共享同一塊 24GB，模型權重可以直接放在 GPU 能讀取的記憶體，不需要搬移。

記憶體夠，輸出才完整

這是硬體差距最直接的體現：Q2 要求生成一個能解析多種日期格式的 Python 函式，Mini PC 在 600 token 限制下就截斷了（回答還在中途），而 Mac 無限制跑出 2218 tokens 的完整函式。

Q4 要求生成帶有 CTE 和 Window Function 的複雜 SQL，Mini PC 截斷，Mac 輸出完整 1043 tokens 含說明。這不是模型能力的差異，是記憶體和 KV Cache 空間的差異。

24GB 統一記憶體的隱藏優勢：num_ctx 可拉到 65536+

num_ctx 決定模型能「看到」的上下文長度。Mini PC 的 16GB RAM 在跑 gemma4:e4b 時，實際可用的 KV Cache 空間有限，num_ctx 設太高就 OOM。Mac 的 24GB 統一記憶體可以輕鬆設定 num_ctx=65536，意味著可以貼入整個程式碼檔案、長文件、對話紀錄，模型不會「忘記」前面說了什麼。這個差距在實際工作流中比速度差距更重要。

第三層：同台機器，調設定差多少？

在 MacBook Air M3 上，用同款 gemma4:e4b 比較三種設定：舊測試的 600 token 限制、無限制（think:false）、開啟 Thinking 模式。

速度幾乎不變，但輸出長度和品質大幅提升

think:false 無限制：平均 9.75 tok/s。Thinking 開啟無限制：平均 9.16 tok/s。速度只差 6%，但輸出品質差距大：

Q2（Python 程式碼）：2218 tokens → 3670 tokens（+65%），Thinking 版本多了完整的邊界條件處理和說明文字
Q4（SQL 查詢）：1043 tokens → 1413 tokens（+35%），多了欄位說明和效能備注
Q7（TCP 三次握手）：442 tokens → 990 tokens（+124%），Thinking 版本多了為何需要三次的深層解釋

Thinking 模式讓模型在回答前先「想」一遍，輸出的答案更完整、更有條理。對於技術問題、程式碼生成、複雜推理，這個設定幾乎是免費的品質提升。

gemma4:e4b 全力展開：這就是本地 LLM 的真實上限

以下展示 Thinking 模式在 Mac 上的實際輸出，讓你判斷品質是否符合你的需求。

Q2 Thinking：完整的多格式日期解析函式

問題：「寫一個 Python 函式，能解析 YYYY-MM-DD、YYY/MM/DD（民國年）、YYYYMMDD（8位）、YYYMMDD（7位民國年）四種格式。」

Thinking 模式輸出 3670 tokens，以下是完整的函式程式碼：

from datetime import datetime
import re

def parse_mixed_date_string(date_str: str) -> datetime:
    if not isinstance(date_str, str):
        raise TypeError("輸入必須是字串 (string) 格式。")
    date_str = date_str.strip()

    # 模式 A: YYYY-MM-DD
    if re.fullmatch(r'\d{4}-\d{2}-\d{2}', date_str):
        try:
            return datetime.strptime(date_str, "%Y-%m-%d")
        except ValueError:
            pass

    # 模式 B: YYY/MM/DD（含民國年）
    if re.search(r'[/]', date_str):
        parts = date_str.split('/')
        if len(parts) == 3:
            year, month, day = parts[0], parts[1], parts[2]
            try:
                temp_date_str = f"{year.zfill(4)}-{month.zfill(2)}-{day.zfill(2)}"
                return datetime.strptime(temp_date_str, "%Y-%m-%d")
            except ValueError:
                pass

    # 模式 C: YYYYMMDD（8位）
    if re.fullmatch(r'\d{8}', date_str):
        try:
            return datetime.strptime(date_str, "%Y%m%d")
        except ValueError:
            pass

    # 模式 D: YYYMMDD（7位民國年）
    if re.fullmatch(r'\d{7}', date_str):
        try:
            year = date_str[:-4]
            month = date_str[-4:-2]
            day = date_str[-2:]
            temp_date_str = f"{year.zfill(4)}-{month}-{day}"
            return datetime.strptime(temp_date_str, "%Y-%m-%d")
        except ValueError:
            pass

    raise ValueError(f"無法識別或解析的日期格式：'{date_str}'")

非 Thinking 模式在同題只輸出 2218 tokens，函式邏輯正確但缺少邊界案例說明和型別標注說明。Thinking 版本多的那 1452 tokens 全是有用的：錯誤處理說明、邊界條件討論、使用範例。

Q4 Thinking：帶 CTE 和視窗函數的複雜 SQL

問題：「找出每個城市近 30 天消費金額前三名的顧客，輸出城市、姓名、消費總額。」

WITH RecentSpending AS (
    SELECT o.customer_id, SUM(o.amount) AS total_spending
    FROM orders o
    WHERE o.created_at >= DATE_SUB(CURDATE(), INTERVAL 30 DAY)
    GROUP BY o.customer_id
),
RankedCustomers AS (
    SELECT c.name, c.city, rs.total_spending,
        RANK() OVER (PARTITION BY c.city ORDER BY rs.total_spending DESC) as city_rank
    FROM RecentSpending rs
    JOIN customers c ON rs.customer_id = c.id
)
SELECT city, name, total_spending
FROM RankedCustomers
WHERE city_rank <= 3
ORDER BY city, city_rank;

Thinking 版本（1413 tokens）在 SQL 後面額外附上了欄位說明對照表、RANK vs DENSE_RANK 的差異說明、以及在資料量大時建議加索引的備注。這種「自動補充說明」的行為，在程式碼審查或教學場景特別有用。

Q7 Thinking：TCP 三次握手的技術解釋

問題：「解釋 TCP 三次握手的過程，並說明為什麼需要三次而不是兩次。」

Thinking 模式的回答（節錄，990 tokens）：

TCP 三次握手是在兩台設備開始傳輸實際資料之前，建立穩定可靠連線的過程：

Client → Server (SYN)：「我想連線，序列號從 X 開始」
Server → Client (SYN-ACK)：「我收到了，我也準備好，序列號從 Y 開始」
Client → Server (ACK)：「我收到你的確認，正式連線」

為何需要三次而不是兩次：三次握手確保雙方的「發送能力」和「接收能力」都得到驗證。第三次 ACK 讓客戶端確認成功收到伺服器的肯定回應，確保雙方對初始序列號達成共識。若只有兩次，Server 無法確認 Client 是否真的收到了 SYN-ACK，可能導致半開連線（half-open connection）堆積。

非 Thinking 模式（442 tokens）的回答只覆蓋了步驟本身，沒有解釋半開連線問題。Thinking 版本的 990 tokens 多出了協議設計的「為什麼」。

技術踩坑筆記

坑 1：AVX-512 問題不是模型 bug，是 CPU 選錯了

Bonsai 8B 需要 AVX-512，AMD Ryzen 4000 系列（Zen 2 架構）不支援。解法：換用 AVX2 相容的量化版本，或換到支援 AVX-512 的 CPU（Intel 11th Gen+、AMD Zen 4+）。在買 Mini PC 跑本地 LLM 之前，先確認 CPU 指令集支援情況。

坑 2：num_predict=300 在 CPU 機器上是陷阱

設 num_predict=300 看起來是「省時間」，但會讓程式碼生成等長輸出任務的測試結果完全失效。正確做法是設 num_predict=-1（無限制），然後觀察模型自然停止的位置。如果真的需要截斷，至少設到 1000 以上再做程式碼類測試。

坑 3：qwen3.5:9b 的 timeout 問題

qwen3.5:9b 在 Q6（長文生成）和 Q7（技術解釋）上，Ollama 預設的請求 timeout 不夠，導致連線中斷而不是模型輸出完成。解法：在呼叫 API 時設定 timeout 參數為 1800 秒，或在 Ollama 的環境變數中調整 OLLAMA_TIMEOUT。

坑 4：KV Cache OOM 發生在 num_ctx 設太高時

在 16GB 機器上跑 qwen3:14b，如果 num_ctx 設到 8192 以上，KV Cache 的記憶體需求會超過可用 RAM，導致 OOM 或系統卡死。建議 16GB RAM 跑 14B 模型時，num_ctx 不超過 4096；跑 4B 模型時，num_ctx 可以到 8192。

坑 5：think:false 是必要的，否則輸出會混入思考過程

qwen3 系列模型如果不設定 think:false，輸出會包含 <think> 標籤包裹的推理過程，混在正式答案裡，對程式解析造成困擾。在 Ollama API 呼叫時加上 "options": {"think": false}，或使用 /set parameter think false。只有在你明確需要 Thinking 輸出時才開啟。

坑 6：num_predict 是物理截斷，不是智慧壓縮

很多人以為設 num_predict=600 會讓模型「給出精簡版本」，實際上不是。模型不知道 num_predict 這個參數的存在——它只是一個一個往下生成 token，到達上限時被外力硬切斷。結果是：程式碼寫到一半沒有結尾大括號、SQL 少了 WHERE 條件、解釋說到一半消失。

這次測試的 Q2（日期解析函數）和 Q4（SQL 排名查詢）在 num_predict=300 時全數截斷就是這個原因。移除限制（num_predict=-1）之後，模型自然停止，輸出完整。

坑 7：有些內容本質上無法壓縮到指定長度內

假設你問模型「給我一份完整 Kafka 設定檔，限制 50 個 token 內」——這兩個要求本身就互相矛盾。一份能正常運作的 Kafka 設定檔，光是必要欄位就需要遠超 50 token。模型沒有辦法把磚頭塞進比磚頭小的洞。

面對不可壓縮的內容，有三種做法：（1）直接移除 token 上限；（2）分步請求——先要最精簡模板，確認結構後再要完整版；（3）在 prompt 明確說「輸出必須完整可執行，不要省略任何欄位」，但前提是 token 上限本身要夠大。

補充：不同模型怎麼面對衝突指令？

這裡有個值得理解的差異：本地模型（Ollama + llama.cpp）的 token 限制來自 API 參數，是硬體截斷，模型本身完全不知道有這個限制存在。雲端模型（Claude、GPT-4 等）的「限制」則來自 prompt 文字指令，模型讀到這個指令後會嘗試推理你的真實意圖。

情境	本地模型（Ollama）	雲端模型（Claude）
限制來源	num_predict API 參數	prompt 文字指令
遇到「50 token 內給完整設定檔」	不知道有衝突，第 50 個 token 硬截	判斷兩個要求互相矛盾，主動說明，給完整版
答案冗長可縮短的情況	按字數截斷，不壓縮	推理目標，給出精簡版本
答案本質不可壓縮	截斷，輸出殘缺內容	告知無法在限制內完整輸出，給出建議
GPT / Gemini 回答為什麼那麼短？	—	不是 token 限制，是 System Prompt + RLHF 訓練偏好所致

這個差異的實際意義是：在本地 LLM 環境下，token limit 是你唯一能控制輸出長度的工具，設太小就會截斷。雲端模型則更像是在和一個理解你意圖的人對話——你不需要精準計算 token，只需要把你真正想要的說清楚。

進階應用：讓本地 LLM 記住對話上下文

本地 LLM 的 API 呼叫預設是無狀態的——每次送出的是獨立的單輪問答，模型不記得你上一題問了什麼。如果你想做多輪對話助理、程式碼審查工具、或任何需要「記住脈絡」的應用，就需要自己管理對話歷史。

為什麼不能無限加長 messages？

標準做法是把整段對話歷史塞進 messages 陣列一起送出。但對話越長，messages 陣列越大，最終超過 num_ctx 上限，前面的對話就會被硬截斷——模型在不知情的狀況下「失憶」，不會告訴你它看不到前面的內容。

解法不是把 num_ctx 設更大（那只是延後問題），而是主動管理 messages 陣列：用摘要壓縮舊對話，只保留近期原文加上一段精簡的歷史摘要。

三種管理策略比較

方式	num_ctx 用量	記憶效果	適合場景
無管理（全部塞）	持續增長，最終截斷	前期對話被硬切，模型不自知	短對話、單次任務
Sliding Window（只保留近 N 輪）	固定	早期資訊完全消失	客服機器人、無需長記憶的助理
摘要壓縮（推薦）	固定，摘要極短	保留關鍵結論、數字、決策	開發助理、長程任務、知識型問答

摘要壓縮的運作方式

核心思路是：用同一個本地模型來摘要自己的舊對話。超過門檻後，把早期輪次壓縮成一段文字，之後每次送出時帶著「摘要 + 近期原文」，而不是全部歷史。

第 1-8 輪：原文保存在 messages[]

第 9 輪觸發壓縮：
  old[1-5輪] → summarize() → "重點：xxx, yyy, zzz"
  messages 只留 [6-8輪原文] + 新問題

第 9 輪實際送出的內容：
  system: "對話背景摘要：重點 xxx, yyy, zzz"
  user(6): ...  ai(6): ...
  user(7): ...  ai(7): ...
  user(8): ...  ai(8): ...
  user(9): 現在的問題

完整 Python 實作（本地 Ollama 版）

import json, urllib.request

MAC_URL = "http://192.168.1.xxx:11434/api/chat"  # Mac 的 Ollama，Mini PC 不跑本地模型
MODEL  = "gemma4:e4b"

def call_model(messages, think=False):
    payload = {
        "model": MODEL,
        "messages": messages,
        "stream": False,
        "think": think,
        "options": {"num_ctx": 4096, "num_predict": -1}
    }
    data = json.dumps(payload).encode()
    req = urllib.request.Request(
        MAC_URL, data=data,
        headers={"Content-Type": "application/json"}
    )
    with urllib.request.urlopen(req, timeout=300) as r:
        return json.loads(r.read())["message"]["content"]

def summarize(messages):
    """把舊對話丟給模型，壓縮成條列式重點"""
    history_text = "\n".join(
        f"{'User' if m['role'] == 'user' else 'AI'}: {m['content']}"
        for m in messages
    )
    prompt = f"""以下是一段對話記錄，請用條列式摘要最重要的資訊、結論、已確認的事實。
保留具體數字、決策、技術細節。100字以內。

對話：
{history_text}

摘要："""
    return call_model([{"role": "user", "content": prompt}])

class ChatSession:
    def __init__(self, keep_recent=4, compress_threshold=8):
        self.messages = []
        self.summary = ""               # 累積摘要
        self.keep_recent = keep_recent             # 保留最近幾輪原文
        self.compress_threshold = compress_threshold   # 超過幾輪就壓縮

    def chat(self, user_input):
        self.messages.append({"role": "user", "content": user_input})

        # 超過門檻 → 壓縮舊對話
        if len(self.messages) > self.compress_threshold:
            old = self.messages[:-self.keep_recent]
            new_summary = summarize(old)

            # 把舊摘要 + 新摘要合併
            self.summary = f"{self.summary}\n{new_summary}".strip()
            self.messages = self.messages[-self.keep_recent:]
            print(f"[已壓縮，摘要更新：{len(self.summary)} chars]")

        # 組合本次送出的 messages
        send_messages = []
        if self.summary:
            send_messages.append({
                "role": "system",
                "content": f"對話背景摘要（已發生的重點）：\n{self.summary}"
            })
        send_messages.extend(self.messages)

        response = call_model(send_messages)
        self.messages.append({"role": "assistant", "content": response})
        return response

# 使用方式
if __name__ == "__main__":
    session = ChatSession(keep_recent=4, compress_threshold=8)
    while True:
        user = input("你：").strip()
        if user.lower() == "exit":
            break
        reply = session.chat(user)
        print(f"AI：{reply}")
        if session.summary:
            print(f"[背景摘要：{len(session.summary)} chars]")

效能調優：摘要用小模型，回答用大模型

摘要這個步驟本身也消耗一次推理呼叫。如果 Mac 上同時有快慢兩個模型，可以分工：快的模型做摘要，慢的（品質更好的）做正式回答：

MAIN_MODEL    = "qwen3:14b"   # 回答主要問題，品質優先
SUMMARY_MODEL = "qwen3:4b"   # 做摘要，速度優先（簡單任務夠用）

def summarize(messages):
    # 使用小模型做摘要
    payload = {
        "model": SUMMARY_MODEL,
        ...
    }

這樣摘要時間從數十秒縮短到幾秒，而主要對話品質不受影響。MacBook Air M3 速度夠快（9+ tok/s），用同一個模型做摘要也無妨。

日常應用：把 Mac 當成你的私人 AI 主機

gemma4:e4b 在 MacBook Air M3 上跑出 9+ tok/s，這個速度對互動式日常使用完全夠用——不是只能跑 benchmark，而是可以當成隨時待命的個人助理。重點是：所有資料留在本機，不送雲端，不計費。

架構很簡單：Mini PC 負責發問和顯示，Mac 負責思考和回答。Mini PC 本身不跑模型，只是一個入口。

你（Mini PC）→ 問題 → Mac gemma4 → 回答 → 你

Mini PC：入口，不思考
Mac：腦子，負責推理

兩個最常用的場景

場景一：快速摘要

把一篇文章、一份 log、一段程式碼丟給 Mac，要它用幾句話說重點。不需要 Claude 等級的推理，gemma4 速度更快、更省錢（免費）。

#!/usr/bin/env python3
# summarize.py — 從 stdin 讀內容，打到 Mac gemma4 要摘要
# 用法：cat article.txt | python3 summarize.py
#       cat error.log   | python3 summarize.py --prompt "這份 log 的錯誤原因是什麼"

import json, sys, urllib.request, argparse

MAC_URL = "http://192.168.1.xxx:11434/api/chat"
MODEL   = "gemma4:e4b"

parser = argparse.ArgumentParser()
parser.add_argument("--prompt", default="請用5句話以內摘要以下內容的重點：")
args = parser.parse_args()

content = sys.stdin.read().strip()
if not content:
    print("ERROR: no input"); sys.exit(1)

payload = {
    "model": MODEL,
    "messages": [{"role": "user", "content": f"{args.prompt}\n\n{content}"}],
    "stream": False, "think": False,
    "options": {"num_ctx": 8192, "num_predict": -1},
}
req = urllib.request.Request(
    MAC_URL, data=json.dumps(payload).encode(),
    headers={"Content-Type": "application/json"},
)
with urllib.request.urlopen(req, timeout=300) as r:
    print(json.loads(r.read())["message"]["content"])

# 使用範例
cat ~/Downloads/article.txt   | python3 summarize.py
cat /var/log/app.log          | python3 summarize.py --prompt "這份 log 有什麼異常？"
git diff HEAD~5               | python3 summarize.py --prompt "這幾個 commit 改了什麼？"

場景二：快速產程式驗證

想驗證一個想法、寫一段臨時腳本、或確認某個 API 用法——不需要開 IDE，直接從命令列問 Mac，幾秒鐘拿到可以跑的程式碼片段。

#!/usr/bin/env python3
# ask.py — 命令列直接問 Mac，拿回程式碼或答案
# 用法：python3 ask.py "寫一個 Python 函數，把 list 裡的重複元素移除但保留順序"
#       python3 ask.py "用 curl 怎麼測試一個需要 Bearer token 的 API"

import json, sys, urllib.request

MAC_URL = "http://192.168.1.xxx:11434/api/chat"
MODEL   = "gemma4:e4b"

question = " ".join(sys.argv[1:])
if not question:
    print("Usage: python3 ask.py \"your question\""); sys.exit(1)

payload = {
    "model": MODEL,
    "messages": [{"role": "user", "content": question}],
    "stream": False, "think": False,
    "options": {"num_ctx": 4096, "num_predict": -1},
}
req = urllib.request.Request(
    MAC_URL, data=json.dumps(payload).encode(),
    headers={"Content-Type": "application/json"},
)
with urllib.request.urlopen(req, timeout=300) as r:
    print(json.loads(r.read())["message"]["content"])

# 使用範例
python3 ask.py "寫一個 bash script，每天早上備份 ~/Documents 到外接硬碟"
python3 ask.py "Python requests 怎麼設定 retry 和 timeout"
python3 ask.py "這個 SQL 有什麼問題：SELECT * FROM orders WHERE date > NOW() - 30"

什麼時候還是要 Claude

任務	Mac gemma4	Claude API
文章/log 摘要	✅ 夠用，免費	—
快速程式片段	✅ 夠用，快	—
翻譯、改寫	✅ 夠用	—
私人資料（不想送雲端）	✅ 最佳選擇	❌
程式碼審查（跨檔案）	❌ 沒有 context	✅
複雜架構決策	❌ 推理不足	✅
Agent Team 自動化開發	⚡ 出草稿	✅ 審查整合

原則是：不需要記憶 codebase、不需要複雜推理的任務，都可以先試 Mac。速度快、免費、資料不出門。遇到 Mac 答不好的，再升到 Claude。

進階應用二：Mini PC + Mac 混合架構，讓 Agent Team 更有效率

角色定義（固定，不隨任務改變）

Mini PC  → 純指揮中心：跑 Claude Code、管理 Agent Team、處理串接邏輯
           不跑任何本地模型，資源用在穩定性和協調上

Mac      → 推理後端：跑 Ollama + gemma4:e4b
           只負責生成，不做決策

Claude API → 審查 + 架構：程式碼審查、複雜邏輯、跨檔案推理
             Mini PC 透過網路呼叫，不在本地

規則：Mac 不在線 → fallback 給 Claude API，不是 Mini PC 自己跑

當你用 Claude Code 的 Agent Team 跑自動化程式開發時，會面對一個現實問題：Claude API 的費用隨 token 用量線性增長，而很多任務其實不需要 Claude 的完整推理能力——DTO 生成、CRUD 樣板、SQL migration 這類結構性重複工作，本地的 gemma4:e4b 就能處理。

解法是把 Mac 當成 Agent Team 的「草稿後端」：Claude Agent 負責架構決策和程式碼審查，Mac gemma4 負責產生第一版草稿，再由 Claude 驗證整合。

架構分工

任務類型	交給誰	原因
DTO / model class	Mac gemma4	結構固定，重複性高
CRUD endpoints 樣板	Mac gemma4	Pattern 固定，不需要推理
SQL migration	Mac gemma4	有範本可循
Unit test 骨架	Mac gemma4	快速產出結構，Claude 填邏輯
複雜業務邏輯	Claude sonnet	需要跨檔案理解，Mac 沒有 context
安全相關程式碼	Claude sonnet/opus	不可靠的輸出風險太高
架構決策 / Code Review	Claude opus	需要深度推理與判斷

前置設定：讓 Mac 的 Ollama 對區網開放

Ollama 預設只監聽本機。在 Mac 上把它開放給區網，Mini PC 才能連進來：

# Mac 上執行（停掉 Ollama app 後）
OLLAMA_HOST=0.0.0.0 ollama serve

# 從 Mini PC 驗證是否連得到（換成 Mac 的區網 IP）
curl http://192.168.1.xxx:11434/api/tags

不想暴露 port 的話，用 SSH Tunnel：Mini PC 上執行 ssh -L 11435:localhost:11434 [email protected] -N，之後打 localhost:11435 就等於打 Mac 的 Ollama。

工具腳本：mac_draft.py

Agent 透過 Bash tool 呼叫這支腳本，傳入任務描述，拿回草稿程式碼。腳本會自動檢查 Mac 是否在線，不在線就回傳 exit code 1，讓 Agent 自行處理 fallback。

#!/usr/bin/env python3
"""
mac_draft.py — Call Mac's local gemma4 for code draft generation.

Usage:
    python3 mac_draft.py "write a SQLAlchemy User model with id, name, email"
    python3 mac_draft.py --task "CRUD for User" --context "FastAPI, SQLAlchemy async"

Exit codes:
    0 = success, draft printed to stdout
    1 = Mac unreachable → fallback: implement with Claude directly
    2 = model error
"""
import json, sys, urllib.request, urllib.error, argparse

MAC_HOST = "http://192.168.1.xxx:11434"   # 改成 Mac 的實際 IP
MODEL    = "gemma4:e4b"
TIMEOUT  = 600

SYSTEM_PROMPT = """You are a code generation assistant. Output ONLY code —
no explanations, no markdown fences, no comments unless essential.
The output will be reviewed and integrated by another agent."""

def check_reachable():
    try:
        with urllib.request.urlopen(f"{MAC_HOST}/api/tags", timeout=5):
            return True
    except Exception:
        return False

def generate(task, context=""):
    prompt = f"Context: {context}\n\nTask: {task}" if context else task
    payload = {
        "model": MODEL,
        "messages": [
            {"role": "system", "content": SYSTEM_PROMPT},
            {"role": "user",   "content": prompt},
        ],
        "stream": False, "think": False,
        "options": {"num_ctx": 4096, "num_predict": -1},
    }
    data = json.dumps(payload).encode()
    req  = urllib.request.Request(
        f"{MAC_HOST}/api/chat", data=data,
        headers={"Content-Type": "application/json"},
    )
    with urllib.request.urlopen(req, timeout=TIMEOUT) as r:
        return json.loads(r.read())["message"]["content"]

parser = argparse.ArgumentParser()
parser.add_argument("task", nargs="?")
parser.add_argument("--task", dest="task_flag")
parser.add_argument("--context", default="")
args = parser.parse_args()

task = args.task or args.task_flag
if not task:
    print("ERROR: no task provided", file=sys.stderr); sys.exit(1)

if not check_reachable():
    print(f"MAC_UNREACHABLE: {MAC_HOST}. Fallback: implement with Claude.",
          file=sys.stderr); sys.exit(1)

try:
    print(generate(task, args.context))
except Exception as e:
    print(f"ERROR: {e}", file=sys.stderr); sys.exit(2)

Agent 的實際使用流程

# Agent (sonnet) 在 Bash tool 中這樣呼叫：

# 1. 請 Mac 出草稿
draft=$(python3 ~/llm-benchmark/scripts/mac_draft.py \
  --task "generate SQLAlchemy User model" \
  --context "PostgreSQL, async, Pydantic v2")

# 2. 檢查是否成功
if [ $? -ne 0 ]; then
  echo "Mac unavailable, implementing directly"
  # Claude 自己寫
fi

# 3. 草稿給 Claude 審查後整合進 codebase
echo "$draft"  # Claude 讀到這裡，決定是否採用、修改哪裡

告訴 Agents 這條規則：寫入 AGENTS.md

Claude Code 的 Agent Team 每個 subagent 啟動時沒有對話歷史。規則要寫進 AGENTS.md，agent 才會在每次任務開始時讀到它。在專案的 AGENTS.md 加上這個區塊：

## Mac Draft Resource (Local LLM Offload)

Mac (gemma4:e4b) is available as a fast code draft generator.
Tool: python3 ~/llm-benchmark/scripts/mac_draft.py

Use Mac draft BEFORE writing code yourself for:
- DTO / model class boilerplate      ✅
- CRUD endpoints (standard pattern)  ✅
- SQL migration scripts              ✅
- Unit test scaffolding              ✅

Do NOT use Mac draft for:
- Complex business logic             ❌ (no codebase context)
- Security-sensitive code            ❌ (unreliable)
- Cross-file refactoring             ❌ (no context)
- Architecture decisions             ❌ (use opus)

Workflow:
1. Call mac_draft.py with task description
2. exit code 1 (MAC_UNREACHABLE) → implement with Claude directly
3. Review draft: check patterns, imports, logic, security
4. Integrate into codebase

Mac generates the shape. Claude ensures it fits.

這樣每個 subagent 都會知道「遇到樣板類任務先叫 Mac 出草稿」，不需要每次重新交代規則。

結論與推薦

本次測試跨越三個維度，每層都有明確的答案：

Mini PC + Mac 混合架構的定位

Mini PC 的角色是指揮中心，不是推理引擎。它跑 Claude Code、管理 Agent Team、處理串接邏輯，資源用在穩定性和協調上。推理工作全部交給 Mac 的 gemma4:e4b。

日常問答 / 摘要：Mini PC 發問 → Mac gemma4 回答，免費、快速、資料不出門
草稿程式碼：Agent 呼叫 mac_draft.py → Mac 出草稿 → Claude 審查整合
複雜推理 / 架構決策：直接用 Claude API，不走 Mac
Mac 不在線：fallback 給 Claude API，Mini PC 本身不需要跑任何模型

如果你的情境是 Mini PC 獨立運作（沒有 Mac），模型選擇建議：gemma4:e4b 速度最快（1.45 tok/s）、qwen3:14b 完成度最高（7/7 全答）、qwen3:4b 最省記憶體。但這個架構的速度上限就是 CPU 推論，不如 Mac 的 Apple Silicon。

MacBook Air M3 的最佳設定

日常程式碼：think:false，num_predict=-1，9.75 tok/s，輸出完整
複雜推理/技術解釋：Thinking 開啟，速度只慢 6%，品質提升明顯
長文件處理：設定 num_ctx=65536，充分利用 24GB 統一記憶體

本地 LLM 的真實上限在哪裡？

gemma4:e4b 在 MacBook Air M3 + Thinking 模式下，輸出品質接近 GPT-3.5 的水準——在程式碼生成、SQL 查詢、技術解釋這些結構清晰的任務上。它不是 GPT-4，創意寫作和跨領域推理還是有差距，但對開發者的日常工作場景已經夠用。

真正的瓶頸不是模型大小，而是硬體架構。同款模型在 Apple Silicon 上跑出的效果，在 x86 CPU 上根本發揮不出來。如果你認真考慮本地 LLM，MacBook Air M3 是目前性價比最高的入門選擇；Mini PC 路線則需要搭配 NVIDIA GPU（VRAM ≥ 8GB）才能真正發揮。

2026 年 4 月 4 日