A2A 協定實際怎麼運作?

A2A 的核心是 Agent Card(代理名片)。每個 agent 在固定網址掛一張公開名片,寫明它會做什麼、入口在哪、怎麼認證。別的 agent 讀名片就能發現它、委派任務、等它回報,不需要知道對方內部如何運作。A2A 由 Google 發起、現由 Linux Foundation 治理,已成為跨框架 agent 溝通的業界標準。

怎麼讓整個團隊在一個平台上共用 AI agent?

要補三個能力:一是共享的知識中樞,用一個團隊共用的 MCP 讓所有 agent 連到同一套知識與工具(這是平台的心臟);二是 agent 之間能協作,系統內用主管派工人、跨系統用 A2A;三是給非技術同事一個網頁入口。落地可選買現成平台(快但通用),或自己搭(能接自家領域知識與真實資料庫)。

Agent 和一般的 AI 聊天機器人有什麼不同?

聊天機器人只會回一句話;Agent 會自己判斷下一步、動手呼叫工具、觀察結果、再決定,像一個會做事的員工,而不只是會回答的問答機。

怎麼評估 AI 專案的 ROI 才不會低估？

別只看同一件事做得更快省了多少工時，要看頻率質變——當分析從一年一次變一月一次，能提早發現機會與風險，價值是跳級的。ROI 應對到競爭本質而非中階 KPI。

AI 的價值和風險可以分開管嗎？

很難。當 AI 夠重要，價值與風險是一體兩面。務實治理是讓法遵、風險、業務在同一個平台看同樣的問題與機會，達成共識才放行。

什麼是主權 AI？

指企業掌握 AI 在哪裡開發運算、資料由誰存取、會不會被拿去訓練的主導權。對重視資料的產業，公司機密不丟公開 AI 訓練是底線。

導入企業 AI 最該先想清楚什麼？

不是先選模型，而是先想清楚資料主權與治理，以及這個 AI 要對到的競爭本質。技術反而是相對後面的問題。

AI 怎麼用在設備維護上？

用深度學習模型加上領域專家特徵工程，把老師傅經驗變成智慧健康指標，在設備出問題前抓到初期徵兆，做動態預知維護，而非照固定保養規範。

為什麼說工廠不是實驗場？

工廠每天都在生產，不能反覆試錯。改用數位孿生，把生產設計、AI 驗證、流程優化先在虛擬世界跑完再上實體，可大幅降低風險與時間。

AI 會取代客戶經理或第一線人員嗎？

方向是補覆蓋率而非取代：AI Agent 常駐客戶端、處理人力做不到的即時與規模，人則回到判斷、經驗與關係經營的價值上。

導入 AI Agent 一開始就會很有效率嗎？

不會。實務是先苦後快，第一個最辛苦，隨 know-how 累積後面越做越快。建議先做一個最關鍵的 MVP。

monday.com AI Work Platform 是什麼?

monday.com 在 2026-05-06 宣布從 Work Management Platform 轉型為 AI Work Platform,核心訴求是「人 + AI Agent 一起把事情做完」。它包含 Sidekick、Agents、Vibe、Notetaker 四大 AI 產品線,Agent 在這個平台是 first-class citizen,可以被 @mention、指派為 owner、有長期記憶。

monday.com 的 AI 點數怎麼算?

所有 AI 產品共用單一單位「AI 點數」,1 點 = $0.01 USD。各產品消耗速率:Agents 任務 10–250 點、Notetaker 每小時 120 點、Vibe 應用 ~30 點、Workflows AI 執行 8 點、Sidekick 暫時免費。Vibe Prompt 還按模型分級:Gemini Flash 10–20 點、Claude Sonnet 30–50 點、Claude Opus 50–500 點。

Casetify 用 monday.com AI 達成什麼成果?

CASETiFY 用 5 個 Agent(Annie、AI 銷售管家、Eric、小蕾、AI 客服代表)跑完整 4 階段業務 lifecycle,專案準時交付率 85%、Scope creep 下降 20%、ROI 5 倍、PM 被追問 ticket 下降約 30%、內部溝通成本下降 20–30%。一年處理 600–700 個內部請求,300+ 使用者,100+ 國家營運。

monday Guardian add-on 提供什麼功能?

Guardian 是 Enterprise 專屬的安全 add-on,提供四大功能:Tenant-Level Encryption(TLE,帳號級加密金鑰)、Bring Your Own Key(BYOK,自帶金鑰)、Data Leak Prevention(DLP,資料外洩防護)、Multiple SSO(多重身分驗證)。BYOK 讓客戶可以撤銷金鑰存取,等同把 monday 鎖在門外。

monday.com 支援哪些 LLM 模型?

monday 支援 Anthropic Claude、OpenAI GPT、Google Gemini 三大模型,可以一鍵整合 ChatGPT、Microsoft 365 Copilot。Sidekick 內建會為不同任務自動挑模型。Enterprise admin 可在 AI Permissions Governance 後台控制誰能用哪個模型、在哪個 workspace 用、用什麼 agent,粒度可細到單一 agent。

什麼樣的企業適合導入 monday.com AI Work Platform?

5 種典型適配情境:(1) 大量標準化請求,一年幾百筆以上 (2) 跨部門 silo 嚴重,流程飄在 email/Slack (3) 業務 lifecycle 清楚分階段 (4) 重複性高的 knowledge work 占工時 30%+ (5) 跨國跨語言團隊。產業上 D2C 電商、SaaS、行銷代理強適配;金融核心、醫療臨床、傳產零售第一線弱適配(monday 只有 cloud-only,沒有私有部署選項)。

什麼情境不該導入 monday.com?

6 個紅旗訊號:(1) 流程根本沒標準化,垃圾進垃圾出 (2) 團隊 <10 人,Basic 點數太少、Enterprise 強制 25 席門檻 (3) 高度監管需要私有部署 (4) 沒結構化資料基礎、還在用 Excel (5) 一次性專案不重複 (6) 只算 seat 沒算 AI 點數的 TCO。25 席是 Enterprise 強制門檻,10-25 人公司想要 BYOK 或多重 SSO 經常踩雷。

50 人公司導入 monday.com 第一年要花多少?

以 50 人 Pro plan 估算:Pro 月費 × 50 席 × 12 月約 $15,000–18,000、AI 點數月跑 50,000 點約 $6,000/年、Notetaker 50 人月 4hr 會議約 $2,880(內含 AI 點數)、變更管理培訓 $5,000–20,000 一次性。第一年總計約 $26,000–44,000 USD。對應 CASETiFY 報的 5x ROI 約等於省 $130,000–220,000/年,回本期 6–12 個月。前提是真的把流程改了,不是買來放著。

為什麼要做本地 LLM 的 prompt 分級驗證 harness?

企業導入 LLM 第一個踩到的雷是資料治理:客戶資料不能上雲、員工資料要脫敏才能上雲、純技術問題可以直接上雲。沒有分級機制就只能全本地(成本爆 + 質量差)或全雲端(資料外洩 + 法遵爆)。harness 的目標是每條 prompt 進來自動分 ABC 三級,並驗證分級正確、後續處理也對。

為什麼 judge 必須用本地 LLM,不能用雲端 LLM?

因為 A 級資料連『請判斷這條算什麼級』這個動作都不能上雲——光問就洩了。judge 是 defense in depth 的第一層門禁,必須在本機跑。

本地 LLM 哪個適合做 routing judge?

qwen3-nothink:latest(2.5GB, 12/12, 7.4s)是 PRIMARY,qwen2.5:7b(4.7GB, 12/12, 11.8s)是 fallback。size 不是 axis,prompt-stability 才是。所有 thinking model(qwen3:4b/14b、qwen3.5:4b/9b、gemma4:e4b)都跟 Ollama format=json 架構級不相容,全 0/12。-nothink 後綴只是 tag 不保證關 thinking。

為什麼 routing 12/12 滿分不等於系統可上線?

routing 是 defense in depth 第一層,worker 還要真做事。v3-v6 routing 滿分但 worker 全是 stub('OK 收到'),v7 加 expected_keywords 比對 reasoning 質量才看到 9/12 真實水準。production 要 routing 100% 不漏 A 級 + reasoning 過 SLA。

在 ccbot 內叫 CC 跑驗證,為什麼 PostgreSQL 內容會漏進對話視窗?

父 ccbot session 跟子 claude -p 共用 stdio 鏈,加上 worker output 會被 orchestrator 拼進 final result,父 CC 又把 final result 報告給用戶。tmpfile + start_new_session 只擋 stdio 競爭,沒擋 output 內容被 relay。要加環境偵測(MEMORY_PRESSURE_WATCH 含 ccbot.service)直接 short-circuit 不 fork claude -p 才修得乾淨,需要雙保險(L1 stdio 隔離 + L2 環境偵測)。

新本地 model 要怎麼判斷能不能進候選池?

5 步驟流程:Stage 0 30 秒 smoke(輸出 {ok:true} 才往下)→ 看 model card(要 instruct/chat 標籤,不要 base)→ Stage 2 12-prompt full suite(<7/12 reject、7-11 marginal、12/12 production candidate)→ Stage 3 n=3 一致性 → Stage 4 PII adversarial 100% 抓 A。tools/check_new_model.py 已實作 Stage 0+2+3。

10 步驟可以一週做完嗎?

技術上可以,但體感不會穩。每一步的「習慣養成」需要時間 — Step 3 累積 brain 通常 2 週才反射、Step 5 並行 agent 要 1-2 週才會切任務、Step 7-9 資安改造要 2 週習慣。建議 1-3 個月漸進。一週硬做完每個都浮,沒一個沉澱。

我完全沒寫過 code,可以做嗎?

不適合。本系列前提是會用 terminal、git、markdown。完全沒 code 經驗該先補基礎(git 1 週、shell 1 週、markdown 半天)再回來。否則 Step 3 寫 brain 就卡住,後面更走不下去。

為什麼一定要 sensitivity_level?我都個人用

個人也有 A 級資料 — 家裡 IP / 個人 email / 跟客戶私訊截圖 / 健康紀錄。這些貼進 cloud LLM 就出去了。Step 7 加分級不是企業需求,是個人資安基礎。即使你 A 級 brain 只有 5 條,Gateway 攔下這 5 條的價值就值得了。

Agent Team 7 個並行需要多少 RAM?

估計每個 opus agent ~1 GB,7 個 ~7 GB(本機 process,不是 LLM 模型本身)。實際 LLM 推理在 cloud,本機只跑 CC 跟 sub-agent process。16 GB RAM 機器扛得住但要先 free -h 確認 available 夠。32 GB 完全沒問題。地端 LLM 才是吃 RAM 大戶(14b 模型 ~10 GB)。

Gateway 一定要跟前 9 篇的 v2.3 一樣嗎?

不用。如果你只想 demo,80 行的 v1 就夠驗證 logic。但要真接 CC 工作流(/v1/messages、tool use、SSE),要 v2.3 才完整。從 v1 開始也行,有需要再升級。完整 Gist:gist.github.com/tm731531/c82c51ae2a73bfe640dec5b61e5a542a

為什麼 A 級資料要用地端最強模型,不是最弱?

違反直覺但是對的。直覺是「敏感 = 風險高 = 用小模型」,但 logic 應該倒過來:敏感資料因為更重要,需要更可靠的回答。0.5b 小模型只能當分類器或 fail-safe,不能當 A 級主處理。A 級用地端最強(14b/32b/80B-A3B),C 級走 cloud frontier(更強)。這個原則最容易搞反,前一版實證 demo 就錯成這樣,本文已修正。

為什麼用 Anthropic 原生 /v1/messages,不是 OpenAI /v1/chat/completions?

因為 Claude Code 用 Anthropic Messages API,你 Gateway 必須 expose /v1/messages,不是 OpenAI endpoint。如果用 OpenAI endpoint,CC 接過來會 404。地端 Ollama 是 OpenAI compatible 格式,所以 Gateway 必須做完整翻譯層:request(system 欄位 / tool_use / tool_result)+ response(content blocks / stop_reason)+ SSE 6 種事件(message_start / content_block_start/delta/stop / message_delta/stop)。本文 364 行有完整實作。

Harness 三 agent 為什麼不能搬地端?

Anthropic 三 agent harness(Planner / Generator / Evaluator)是給 cloud 設計的:三 agent 並行 + 每個 200K context + long-running。地端 80B-A3B 跑三 agent 並行 = GPU 排隊根本跑不動。Harness 的價值在 long context + 複雜 reasoning,地端在這兩點本就弱,硬搬就是自虐。正解:Harness 永遠走 cloud,但輸入經 Gateway 強脫敏後 forward。這是搬離後最關鍵的工作流保護。

sensitivity_level frontmatter 怎麼整合到 brain 系統?

三個地方用同一個欄位:(1) Gateway 動態判定:路由時查當前對話 context 用到哪些 brain,自動 escalate sensitivity;(2) build.sh 編譯雙版本:cloud-bound CLAUDE.md(不含 A 級)+ local-bound CLAUDE.md(全部),依目標 model 編譯時過濾;(3) 公開版 brain repo 自動過濾:sensitivity_level: A 條目不外洩,公開版只含 B/C。一個 frontmatter 欄位,三個地方用,不用手動同步多套規則。

為什麼不寫「地端能力 = Opus 4.7 的 X%」這種具體百分比?

因為沒 benchmark。個人 mini PC 沒 GPU 跑不了 32B+ 對比,寫沒驗證的數字會變成「premise drift」— 讀者把它當前提,後續推導全錯。能力比較該跑 SWE-bench Lite 子集 + 真實工作流 case + 多模型對比,本文沒做就誠實寫「方法論可行(實證過),具體能力百分比待後續 benchmark」。如果你跑了完整 benchmark,歡迎告訴我。

標籤: AI

一張圖看懂 AI Agent 系統:Loop、Harness、MCP、A2A 差在哪

每次跟同事解釋 AI Agent 系統,最常見的反應,是看著 Loop、Harness、MCP、A2A、Dataset 一堆名詞發呆。會迷茫,是因為這些詞常被當成「平行並列」硬背。其實它們分屬三層、各司其職,而且有先後順序。這篇用一張全景圖,加上「員工在公司做事」的比喻,讓完全不懂技術的人也能 30 秒看懂彼此的關係,以及最容易混淆的 MCP 與 A2A 到底差在哪——最後再談一個實際問題:怎麼讓整個團隊在一個平台上共用 agent。

重點摘要

Loop / Harness / Agent / Skill / MCP / API / Dataset / A2A 不是平行概念,是三層:HARNESS(手腳)→ KNOWLEDGE(規矩與記憶)→ LOOP(節奏與目標)。
MCP 讓 agent 接「工具與資料」(把對方當死的工具);A2A 讓 agent 接「其他 agent」(把對方當活的同事)。兩者互補,不打架。
要讓整個團隊共用 agent,關鍵不是「又一個聊天框」,而是一個共享的知識中樞,讓全團隊的 agent 站在同一份事實上工作。

先看這張圖:30 秒看完全部關係

如果下面的文字看不完,只要記住這張圖就夠了。外層的 LOOP 包著 KNOWLEDGE 和 HARNESS,Agent 用 MCP 接工具、用 A2A 接其他 agent。

🗺️ 30 秒全景圖(外框就是 LOOP)

🟢 KNOWLEDGE　規矩 + 記憶(Agent 做事時隨時回來查)

📋 Skill 正確做法 🩹 Brain 踩過的坑 📒 KM 接真實資料庫的事實

🔵 HARNESS　環境 + 對外插座

🧑‍💼 Agent ──MCP──▶ 工具 / API / 資料庫(死的工具) ──A2A──▶ 其他 Agent(活的同事)

📚 Dataset = 造出模型的底層料(已煮進模型、會記錯,所以才需要上面的 KM 當場查真相)

一句話:HARNESS 給手腳 → KNOWLEDGE 給規矩記憶 → LOOP 給節奏目標。

三層,不是一排:正確理解的關鍵

這些名詞會讓人頭痛,是因為大家把它們當成同一層的東西在背。把「AI 幫你做一件事」拆開,其實由下往上是三層:下層給能力,中層給規矩與記憶,上層給節奏與目標。而且有一條鐵律:一定是 HARNESS → KNOWLEDGE → LOOP。工具沒備好、規則沒寫好,就先讓 agent 自己跑,它會被冒出來的錯誤推著改個沒完,沒有終點。

用「員工在公司上班」秒懂每個名詞

把整套 AI 系統想成一位員工在公司做事,每個名詞都對得上一個你熟悉的東西:

名詞	一句話	員工比喻	屬哪層
Agent	會自己判斷、動手做事的 AI 本體	員工本人	工具層
Harness	承載 agent 的環境、工具與權限	辦公室與設備	工具層
MCP	接「工具/資料」的標準插座	萬用識別證	工具層
API	外部系統對外的窗口	部門窗口	工具層
A2A	接「另一個 agent」的協定	同事間協作	工具層
Dataset	造出模型的原始料(會煮進模型、會記錯)	讀過的書	工具層
Skill	某類任務的正確做法	作業 SOP	規則層
Brain 防錯腦	踩過的坑(事實,不背叛)	血淚筆記	規則層
KM 正道腦	接真實資料庫的事實 + 可糾正的判斷	公司帳本 + 老師傅	規則層
Loop	做到可驗證目標達成才停	工作節奏 / KPI	流程層

最容易搞混的:MCP 與 A2A 差在哪?

一句話分清楚:看你把對方當「死的工具」還是「活的同事」。MCP 是 agent 跟工具、資料的對話;A2A 是 agent 跟另一個 agent 的對話。

	MCP	A2A(Agent-to-Agent)
對象	工具 / 資料(死的,聽話)	另一個 agent(活的,會自己判斷)
做什麼	幫我查、幫我寫進去	交辦多步驟任務、追蹤進度、他做完回報
員工比喻	員工 ↔ 部門窗口	員工 ↔ 別的員工

兩者不打架,是互補的:一個團隊用 A2A 在 agent 之間分工協作,而每一個 agent 內部都用 MCP 去接自己要用的工具。A2A 管「同事之間的對話」,MCP 管「每個人跟工具的對話」。

A2A 實際怎麼運作:靠一張「名片」

A2A 的核心是 Agent Card(代理名片)。每個 agent 在一個固定網址掛一張公開的名片,上面寫清楚:我會做什麼、我的服務入口在哪、怎麼跟我認證。別的 agent 不需要知道你內部怎麼運作,只要讀這張名片,就能發現你、把任務交給你、等你做完回報。就像兩家公司合作,看的是對方門口「服務項目 + 聯絡窗口」的牌子,不需要走進對方辦公室看他們怎麼做事。

這在 2026 已經是業界標準:A2A 由 Google 發起、現在交給 Linux Foundation 治理,有 Python、JavaScript、Java、Go、.NET 五種語言的開發套件,並已內建進 Microsoft Copilot Studio、Azure AI Foundry、Amazon Bedrock 等平台。意思是,不同廠商、不同框架做出來的 agent,現在能用同一套規矩互相對話——這正是「讓大家的 agent 互通」的基礎。

關鍵:知識層為什麼要接「真實資料」,而不是寫死答案

AI 會幻覺、會忘記。所以把知識接給 agent 時,真正可靠的不是「標準答案」——答案是判斷,會隨著架構改變而過期。可靠的是兩種事實:一是「過去踩過的坑」(真的發生過,不會變),二是「資料庫此刻的真實數字」(當場查得到)。讓事實去約束 AI 的嘴,而不是讓 AI 的判斷當真理。這就是為什麼進階的知識系統(KM)會直接接上正式資料庫,而不是把答案寫死在文件裡——真相在帳本裡,不在 AI 的記憶裡。

進階:怎麼讓整個團隊在一個平台上共用 agent?

現在多數人是「一個人對一個 AI 工具」,各做各的——知識不共享、agent 不互通、同樣的事每個人重做一次。如果要讓整個團隊(包含不會寫程式的同事)在一個平台上共用 agent,要補三個能力,由淺到深:

共享的知識/工具中樞(最該先做):用一個團隊共用的 MCP 中樞,讓每個人的 agent 都連到同一套知識庫和工具。這樣大家查到的是同一份事實、同一套規矩,不再各憑記憶。這就是平台的心臟。
agent 之間能協作:同一個系統內,可以一個「主管 agent」把任務拆給幾個「工人 agent」;跨不同系統、不同廠商,就用前面講的 A2A,讓各自的 agent 互掛名片、互相委派。
讓非技術同事也能用:大部分 agent 工具是給工程師的指令列介面,一般同事用不了。要在前面包一層簡單的網頁入口,同事用下拉選單選角色、打字提問就好。

落地有兩條路。買現成平台(例如 monday.com、Microsoft Copilot Studio)走免寫程式、上手快,適合通用流程;但它通用、不認識你的產業,也接不上你公司的真實資料庫。自己搭(用 agent 開發框架 + 自建的共享 MCP 中樞 + 網頁入口)工要多一些,但能接上你自己的領域知識和真實營運資料——而這正是現成平台給不了的差異。

一個關鍵判斷:平台的價值不在「又一個聊天框」,而在那個共享的知識中樞——它讓全團隊的 agent 站在同一份事實上工作。先把這個中樞建起來,agent 協作和網頁入口都是接上去的事。

一句話收尾

下次再看到這一串名詞,不用硬背。記住三層就好:HARNESS 給手腳、KNOWLEDGE 給規矩與記憶、LOOP 給節奏與目標;而 MCP 接工具、A2A 接同事。要把團隊一起拉上來,先建一個大家共用的知識中樞,剩下的細節,都掛在這個骨架上。

2026 年 6 月 16 日

當 AI 夠重要，價值與風險就是一體兩面：談 AI 治理與 ROI
重點摘要
- AI 的 ROI「難算又好算」：別只看表面省工，要看頻率質變——一個分析從「一年做一次」變成「一月一次」，價值是跳級的。
- ROI 要對到競爭本質與戰略目標，不是中階的過程 KPI。
- 當 AI 夠重要，它的價值與風險就是一體兩面，這不是缺陷，是事實。
- 治理心法：讓法遵、風險、業務所有人在同一個平台看同樣的問題與機會，達成共識才放行。
- 底線是主權 AI：公司的資料不能丟到公開 AI 去訓練。
這是 SAP NOW AI Tour 系列的最後一篇。前面談了方法論、技術、案例，這篇談一個比技術更難、卻真正決定成敗的東西——AI 治理與 ROI。這天聽下來，最深刻的幾段都不是在講模型多強，而是在講「怎麼算它的價值」和「怎麼管它的風險」。

一、ROI 難算又好算：關鍵在「頻率質變」

一位銀行高管分享的 ROI 觀點，我覺得每個要替 AI 專案爭預算的人都該聽。他說 AI 的 ROI「難算，但也好算」。

難算，是因為一個企業要用 AI 做什麼，沒辦法被量化反推；好算，是因為當 AI 對到「三到五年後的巨大競爭優勢」時，那些成本相對就不是重點。他舉了一個企業信用分析的例子，非常經典：

一開始算 ROI，是「原本一個人要做 36 小時，AI 降到 3 小時」。聽起來省了工，但因為做的人不多，效益看起來普通。後來他們發現算錯了重點——因為過去要花 36 小時，這個分析一年只能做一次；但 AI 只要 3 小時，就能改成一季一次、甚至一個月一次。頻率一變，質就變了：能提早發現客戶信用變好（多給額度）、或提早發現問題（不用等到明年，中間就預警）。他說：「這對銀行是很大的突破，效益沒辦法估量，因為太大了。」

這就是頻率質變：真正大的效益，往往不在「同一件事做得更快」，而在「快到可以改變做這件事的頻率」。表面的工時 ROI，會嚴重低估它。

二、ROI 要對到戰略本質，不是中階 KPI

承上，他的結論是：AI 專案的 ROI，應該對到「你原本要創造的競爭優勢是什麼」，而不是中階的過程指標。製造業的講者也呼應這點——挑 AI 專案的優先順序，是「越能直接反映客戶需求的越優先」（良率、產出、交期），而不是從內部好做的地方開始。

另一個容易被低估的效益是潛在損失的避免。一家電子大廠提到，AI 最大的價值往往不是看得到的降本，而是「在第一關就攔截一個品質議題，避免整批損失」——這種效益很難寫進試算表，卻可能是最大的。還有橫向複製：一個廠導入成功，就能複製到二十個廠，效益會放大到難以估算。

三、價值與風險，是一體兩面

講到治理，那位銀行高管用了兩個會場引用的軍事 AI 案例，把問題講得很透。同一套 AI 影像辨識系統：
- 故事一：在任務中辨識出前方的威脅，救了一條人命。
- 故事二：把一個人手上拿的東西誤判成危險物，造成了無法挽回的誤傷。
同一個系統，兩個極端。只看故事二，你會想「隔天就把系統關掉」；只看故事一，你會繼續用。他的洞察是：當你的 AI 夠重要，它一定同時帶著高價值與高風險——這是一體兩面，不是哪邊做得不夠好。

四、治理心法：所有人在同一個平台達共識

既然價值與風險綁在一起，怎麼管？他的答案很簡單，也很難：讓所有人在同一個平台上。

以他們銀行為例，法遵、風險、業務人員，都在同樣的平台、看同樣的 AI、同樣的問題與機會。沒有共識，就沒辦法離開那個辦公室——因為一定有人覺得「該關掉」，有人覺得「不能關（關掉會出事）」，必須當場喬到共識。這比任何一份治理文件都實在：把對的人放在同一個畫面前，逼出共識。這也呼應全場另一個反覆出現的觀點——AI 治理的重點，是讓 AI「行為有序」地在企業內運行，而不是放任它亂竄。

五、底線：主權 AI

如果說全場有一條最強的暗線，那就是主權 AI（Sovereign AI）——這個詞在不同講者口中至少出現了三次。顧問業引用的調查顯示，超過七成的企業領導者認為「AI 在哪裡開發／運算」是選技術的關鍵考量；製造業強調總部集中算力、守住數位主權；而傳產的設備主管講得最白：

每個公司都有自己的機密，你不會希望把自己的資料丟到公開的 AI 上去訓練。所以你需要的是主權 AI。

對製造業、金融業這種高度重視資料的產業，這會是董事會問的第一個問題。所以在選型時，「資料留在哪、誰能存取、會不會被拿去訓練」往往比「模型多聰明」更早被決定。

結語：難的不是技術，是人與治理

四篇寫到這裡，剛好繞回系列第一篇的結論：數位轉型 80% 卡在組織與人，不是技術。AI 治理也是同一回事——真正難的，不是把模型接起來，而是怎麼算清楚它的價值、管得住它的風險、讓所有人對它有共識。

把整個系列濃縮成一句話：AI 降低了工具的門檻，卻抬高了「懂業務、會判斷、守得住治理」的人的價值。工具會越來越好用，但會用工具的人和組織，才是差距所在。

常見問題 FAQ

怎麼評估 AI 專案的 ROI 才不會低估？

別只看「同一件事做得更快」省了多少工時，要看「頻率質變」——當一個分析從一年一次變成一月一次，能提早發現機會與風險，價值是跳級的。ROI 應對到競爭本質，而非中階過程 KPI。

AI 的價值和風險可以分開管嗎？

很難。當 AI 夠重要，價值與風險是一體兩面。務實的治理是讓法遵、風險、業務在同一個平台看同樣的問題與機會，達成共識才放行。

什麼是主權 AI（Sovereign AI）？

指企業掌握「AI 在哪裡開發、運算，資料由誰存取、會不會被拿去訓練」的主導權。對重視資料的產業，公司機密不丟公開 AI 訓練是底線。

導入企業 AI，最該先想清楚什麼？

不是先選模型，而是先想清楚資料主權與治理（資料留在哪、誰能存取），以及這個 AI 要對到的競爭本質。技術反而是相對後面的問題。
📚 本系列：SAP NOW AI Tour 的 4 堂課
- ① 方法論：數位轉型為什麼失敗
- ② 技術骨架：MCP 與 A2A
- ③ 真實案例：三個落地場景
- ④ 治理與 ROI（本篇）
2026 年 6 月 9 日
傳產與金融怎麼把 AI 落地？三個真實場景
重點摘要
- 鋼鐵廠：讓機器狗進約 1,200°C 的高爐巡檢，並用「設備健康指標像人的健康指標」的概念，做動態預知維護。
- 銀行：把客戶經理變成 AI Agent，靠「下游的下游有訂單」的線索，搶在同業之前打那通電話。
- 電子代工：信奉「工廠不是實驗場」，所有試錯與優化先在數位孿生裡跑完，再上實體。
- 三個產業差很遠，但共通點一致：AI 不是取代人，而是把人從危險、重複、來不及反應的地方解放出來。
這是 SAP NOW AI Tour 系列的第三篇。前兩篇談方法論與技術骨架，這篇講最好看的部分——真實案例。我挑了三個差異很大的產業（鋼鐵、銀行、電子代工），看他們各自怎麼把 AI 落到地上。為尊重分享者，以下用產業代稱、只引用公開分享的內容。

一、鋼鐵廠：讓機器狗進 1,200 度的高爐

鋼鐵是典型的「3K 場域」——危險、骯髒、辛苦，再加上傳產普遍的缺工壓力。這家鋼鐵龍頭的設備部門，把 AI 用在兩個地方，我覺得都很有啟發。

無人化：機器狗、無人機、無人天車

高爐的高點，溫度約 1,200°C，爐板一旦出問題可能導致熱點甚至爆炸——這種地方不適合人進去。他們的解法是把巡檢路徑寫成程式，讓機器狗去走、去看，背後的資料庫做預知分析。有人問「機器狗為什麼要練爬樓梯？」講者的回答很妙：人也不是天生會走路，是學會之後才會；機器人往前走要耗大量運算在做平衡，如果目的是去收集數據，那就讓它走遍各種路去練。同樣的思路也用在無人天車上——AI 控制吊掛鋼捲時，左右自動防擺，比人操作還穩。

設備健康指標，就像人的健康指標

這是我整天聽到最好的一個比喻。買設備時，廠商會告訴你「多久保養一次」，那是固定規範。但設備用久了會慢慢變化，固定規範不一定適用。講者拿人來類比：

小孩子量身高、體重、頭圍最重要；到了中老年，身高體重沒太大意義，要量三高。設備也一樣——剛買的設備和用了十年的設備，同一個指標代表的意義完全不同，不能用同一套標準看。

所以他們用 AI（深度學習模型 + 領域專家的特徵工程）把老師傅的經驗變成「智慧健康指標」，在設備出問題前就抓到初期徵兆。核心一句話：用「數據驅動」取代「直覺或規範」。

二、銀行：把客戶經理變成 AI Agent

一家大型銀行的企業金融部門問了自己一個尖銳的問題：我們的服務方式會不會被取代？他們的答案是「會」，所以乾脆自己先動手。

最精彩的是一個「搶先機」的案例。某個企業客戶可能接到一筆訂單——這種公開資訊大家都看得到。但這家銀行的客戶經理，會在早上收到系統提示：「你可能要去拜訪某客戶。」怎麼知道的？因為系統掌握到這個客戶「下游的下游」可能有訂單，照這個模式推斷它有機會接單，再比對它最近的新聞表現。因為它會接單，就可能有備料與資金需求——於是客戶經理提前打了那通電話。結果是：客戶的財務長第一個接到的，是這家銀行打來的。

更進一步，他們的想像是把客戶經理本身變成一個常駐客戶端的 AI Agent。一個真人沒辦法一天到晚守在客戶那裡待命，但 AI 可以。背後的技術，就是用前一篇談過的協定，把銀行服務嵌進客戶的 ERP 流程裡。這呼應了一個全場反覆出現的觀點：AI 不是要取代你，而是讓你把「人做不到的覆蓋率」補起來。

三、電子代工：工廠不是實驗場

一家全球佈廠的電子代工大廠，分享了他們十多年的 AI 進化。最打動我的，是一句很樸素的話：「工廠是每天在生產運行的地方，並不是給你做實驗的地方。」

所以他們的核心策略是數位孿生：所有的生產設計、AI Agent 的驗證、流程的優化，都先在虛擬世界裡跑完，再上實體。一個模擬若用實體去做實驗可能要兩個月，在數位孿生裡快很多；而且實體還沒蓋，就能先把問題找出來、把良率拉上去。他們也坦白分享了 Agent 的導入節奏：今年初做了第一個 Agent，到年中大概第八個——剛開始導入比較辛苦，但越往後越快，因為 know-how 會累積。這跟前面銀行、鋼鐵的經驗一致：先做最關鍵的那一個，驗證了再放心擴展。

結語：三個產業，同一個底層邏輯

把這三個案例疊在一起，會發現它們其實在講同一件事：
- 方向一致：都是把人從危險（高爐）、重複（守客戶）、來不及反應（品質與訂單）的地方解放出來。
- 節奏一致：都先做一個最關鍵的 MVP，驗證了再擴展，沒有人一次性全導入。
- 對人的定位一致：AI 接手「人做不到或不該做」的部分，人回到判斷與經驗的價值上。
下一篇是系列最後一篇，談一個比技術更難、卻決定成敗的東西——AI 治理與 ROI：當 AI 夠重要，它的價值與風險就是一體兩面，你該怎麼算、怎麼管？

常見問題 FAQ

AI 怎麼用在設備維護上？

用深度學習模型加上領域專家的特徵工程，把老師傅的經驗變成「智慧健康指標」，在設備出問題前抓到初期徵兆，做動態的預知維護，而不是照固定的保養規範。

為什麼說「工廠不是實驗場」？

因為工廠每天都在生產，不能拿來反覆試錯。改用數位孿生，把生產設計、AI 驗證、流程優化先在虛擬世界跑完再上實體，可大幅降低風險與時間。

AI 會取代客戶經理或第一線人員嗎？

案例顯示的方向是「補覆蓋率」而非取代：AI Agent 常駐客戶端、處理人力做不到的即時與規模，人則回到判斷、經驗與關係經營的價值上。

導入 AI Agent 一開始就會很有效率嗎？

不會。實務經驗是「先苦後快」——第一個最辛苦，隨著 know-how 累積，後面越做越快、效益越來越可觀。建議先做一個最關鍵的 MVP。
📚 本系列：SAP NOW AI Tour 的 4 堂課
- ① 方法論：數位轉型為什麼失敗
- ② 技術骨架：MCP 與 A2A
- ③ 真實案例：三個落地場景（本篇）
- ④ 治理與 ROI
2026 年 6 月 9 日

AI Agent 怎麼接進企業系統？看懂 MCP 與 A2A 兩個關鍵協定

重點摘要

AI 應用正從「單一模型／聊天機器人」走向 Agentic AI（自主規劃、推理、跨系統行動）。
Agentic AI 有兩個關鍵挑戰：Agent 怎麼連接工具？怎麼跟其他 Agent 合作？由此誕生兩個開放協定。
MCP（Model Context Protocol）= 垂直整合：讓單一 Agent 往下接工具與資料源。
A2A（Agent-to-Agent）= 水平協作：讓多個 Agent 之間互相委派任務。
資料層上，趨勢是「串接而非搬遷」——地端資料可以留在原地，用連接器接上雲端分析。

這是 SAP NOW AI Tour 系列的第二篇。第一篇談方法論（為什麼轉型會失敗），這篇換上工程師的眼睛，談技術骨架：當大家都在喊 Agentic AI，到底 AI Agent 是怎麼接進一家企業既有的系統？這一整天聽下來，金融、製造、雲端三方不約而同指向同兩個字母組合——MCP 與 A2A。

一、先看演進：從 Traditional AI 到 Agentic AI

AI 在企業裡的應用方式，大致經過三個階段：

Traditional AI：單一模型、單一任務（聊天機器人、文件摘要）。
AI chatBot：AI 嵌入應用，輔助人員完成工作。
Agentic AI：AI 自主規劃、推理、行動，並跨系統協作。

到了第三階段，問題就來了：一個 Agent 要做事，得能呼叫工具、讀寫資料；而真實的企業流程往往要好幾個 Agent 接力。於是兩個關鍵挑戰浮現——Agent 如何連接工具？如何與其他 Agent 合作？

二、兩個開放協定：MCP 與 A2A

這兩個挑戰，分別由兩個開放協定來解。它們不是競爭關係，而是互補——一個管「垂直」，一個管「水平」。

維度	MCP（Model Context Protocol）	A2A（Agent-to-Agent）
連接對象	Agent ↔ 工具／資料源	Agent ↔ Agent（雙向協作）
整合方向	垂直整合（取用工具）	水平協作（分工委派）
典型用法	Agent 透過 MCP 存取 ERP 資料庫 / API	一個 Agent 透過 A2A 把任務委派給另一個 Agent

一句話記憶：MCP 讓 Agent 往下接系統，A2A 讓 Agent 之間互相傳接棒。

三、實際跨系統流程長怎樣

會場舉了一個很好懂的端到端流程，看完就知道兩個協定是交替使用的：

採購 Agent 用 MCP 查庫存
→ 物流 Agent 用 A2A 被委派去安排出貨
→ 財務 Agent 用 MCP 更新帳務
→ 完成一條自動化流程

每個 Agent 用 MCP 往下接自己負責的系統，再用 A2A 把棒子交給下一個 Agent。這就是 Agentic AI「跨系統協作」的具體長相。

四、資料層：串接，而不是搬遷

講到 Agent 接資料，現場有個觀眾問了一個很實際的問題：「用 AI 是不是一定要把所有資料都搬上雲？」畢竟資安、上雲成本、地端的第三方系統，都是真實顧慮。

答案是「不用」。現在的資料雲走的是「串接」而不是「搬遷」——透過連接器（Data Provisioning Agent 這類機制）直接接上地端資料，資料可以留在原地，上層再用 AI 做分析與呈現。對於有資安顧慮、又想用 AI 的企業，這條路很關鍵。一個實際的搭法是：既有系統（ERP／設備系統）→ 連接器 → 雲端的資料模型層（如 Datasphere）+ 報表層（如 SAP Analytics Cloud），最前面再接一層自然語言（Joule），就能「用一句話問、自動跑出分析圖表」。

五、官方參考架構：把內外 Agent 安全地串起來

最後一張技術總圖，把上面這些拼成了一個完整的互通架構（這是雲端與 ERP 兩大廠的聯合參考架構）：

企業內部的 Agent（Orchestrator + 各種 Custom／Low-Code／Pro-Code Agent）透過 A2A 跟外部雲端的 Agent 協作；
透過 MCP 接到 ERP、資料雲等既有系統；
身份與信任由統一的 Identity Service 治理（authenticate / trust）。

值得一提的是，雲端廠在大會上一口氣發布了多項與 ERP 深化整合的東西，包括官方的 MCP Server（讓 AI Agent 透過整合套件安全存取 ERP 商業數據）、支援 ABAP 開發者的 AI IDE，以及基於雲端模型平台的 Agentic AI 方案。換句話說，MCP 已經不是概念，而是有官方實作可以開始試的東西。

結語：協定先行，骨架才穩

如果你也在規劃企業內的 AI Agent，這篇的重點只有一個：先把「Agent 怎麼接系統、怎麼互相協作」這層協定想清楚，再談上面要跑什麼應用。MCP 負責垂直、A2A 負責水平，資料層走串接不搬遷，身份治理統一——這就是下一代企業 AI 自動化的骨架。下一篇換個角度，看真實的傳產與金融公司，是怎麼把這套東西落到地上的。

常見問題 FAQ

MCP 和 A2A 有什麼差別？

MCP 是讓單一 Agent 垂直連接工具與資料源（例如存取 ERP 資料庫）；A2A 是讓多個 Agent 之間水平協作、互相委派任務。實際流程裡兩者交替使用。

用 AI Agent 一定要把資料搬上雲嗎？

不一定。可以用連接器「串接」地端資料，讓資料留在原地，再由雲端的分析層處理，兼顧資安與成本。

什麼是 Agentic AI？

相對於單一任務的傳統 AI 與輔助型的 chatBot，Agentic AI 能自主規劃、推理、行動，並跨多個系統協作完成任務。

MCP 現在可以實際使用了嗎？

可以。雲端與 ERP 大廠已推出官方的 MCP Server，讓 AI Agent 透過整合套件安全存取 ERP 商業數據，並有支援開發者的相關工具。

📚 本系列：SAP NOW AI Tour 的 4 堂課

2026 年 6 月 9 日

數位轉型不是換系統：企業 AI 落地為什麼失敗，又該怎麼做對

重點摘要

麥肯錫研究指出:數位轉型失敗的主因 80% 在「組織與人」，而不是技術。
AI 世代的轉型有四大關鍵核心：人員、流程、應用、數據，四者要同步處理，不能只做一個。
轉型有不能跳過的順序：合理化 → 標準化 → 自動化。跳過前段直接自動化，等於把錯的流程加速。
很多企業的「戰情室／儀表板」做完沒人用，是因為它只看落後指標；當員工覺得「自己下載資料用 Excel 更快」，系統就開始死亡。
一句話：數位轉型只是手段，真正的目的是創造價值。

我參加了一整天的企業 AI 大會，聽了金融、半導體、電子製造、鋼鐵、顧問與雲端平台共六、七家公司分享他們怎麼把 AI 落地。把這些不同產業的經驗放在一起聽，最有趣的發現是：他們講的「成功關鍵」高度一致，而且那個關鍵幾乎都不是技術。這篇是系列第一篇，先談方法論——企業 AI 為什麼會失敗，又該怎麼做對。

一、先承認：80% 的轉型卡在「人與流程」，不是技術

會場引用了一份麥肯錫研究：數位轉型失敗的主因在於「組織與人」，而非技術本身。成敗大約 80% 取決於「組織與人」的改變與「方法」的正確性，而「資料」與「內容」是實現價值的核心基石。

把它拆開來看，組織面的挑戰是：缺乏清晰的轉型願景、組織結構僵化、跨部門協作困難、決策流程緩慢、資源分散。人員面的挑戰是：員工抗拒改變、數位技能不足、人才流失、缺乏主人翁意識、溝通不足導致信任缺失。這些沒有一條是「買哪個 AI 工具」能解的。

現場有位經營者講得更直接：很多人怕因為跟不上而被淘汰，所以拒絕改變；而真正成功的企業，是想辦法讓「最懂業務的資深人員」被 AI 賦能，而不是被取代。AI 降低了工具門檻，卻抬高了「懂業務、會問對問題」的價值。

二、四大關鍵核心：人員、流程、應用、數據

在 AI 世代，數位轉型規劃有四個關鍵核心，每一個都帶著自己的痛點。整理成一張表最清楚：

核心	三大痛點
人員	技能隔閡、變革阻力、組織知識流失
流程	過時流程、跨系統依賴、合規問題
應用	過度客製、技術債、整合挑戰
數據	數據孤島、數據品質問題、數據安全與合規

關鍵在於這四個要同步處理。只把「數據」清乾淨、卻不動「流程」和「人員」，AI 一樣跑不起來；反過來也一樣。多家公司不約而同提到的共通痛點——數據孤島、技術債、缺乏單一真實來源——其實都落在這四個象限裡。

三、不能跳步：合理化 → 標準化 → 自動化

一位資深製造業高管分享了一個很樸素但很重要的原則：轉型沒有捷徑，過程必須照順序走——

先把做事情的順序合理化
再想辦法標準化
標準化之後，才能自動化（接著才是 AI）

為什麼順序這麼重要？因為如果你跳過合理化與標準化、直接自動化，你的標準很可能是錯的——這等於把一個錯的流程加速，是一場無效的轉型。這也呼應了現場另一個觀察：很多人誤以為「拿一個工具來、不需要前面那些步驟，就能把事情做好」，但這從來不會成立。

對應到角色，轉型會依序需要三種人：BA（業務分析）把現況忠實記錄成流程、SA（系統分析）定義這些需求該用什麼系統滿足、SD（系統設計／開發）實作。順序顛倒，後面全部白做。

四、為什麼「戰情室」做了沒人用

一家深耕 SAP 二十多年的整合商，分享了一個我覺得每個做過 BI 專案的人都會心一笑的觀察：傳統的策略支援系統（戰情室、儀表板）會沿著一條曲線慢慢失效。

階段	作用強度	狀態
過去	100%	決策利器，報表即時、深受信任
幾年前	75%	仍具價值，但開始延遲、需人解讀
現在	40%	內容固定、無法靈活、使用率下降
不久後	15%	「自己做更快」，轉向替代方案
未來	5%	報表停更、系統荒廢

真正的死亡轉折點，發生在「現在 → 不久後」之間：當員工覺得「我自己下載資料、用 Excel 加工更快」，這個系統就開始死亡。幾年後公司又起一個新專案、重做一個新的戰情室，如此不斷循環。

根因是什麼？傳統戰情室只給你落後指標——告訴你「過去發生了什麼」。但經營者真正面對的世界，不是內部報表，而是外部的快速變化。一句話點破：現在企業經營，最大的風險不在「做錯決策」，而是「太晚知道這世界變了」。所以下一代的決策平台，要從「內部、落後、檢討過去」轉向「外部、領先、預判未來」。

五、把方法論變成步驟：從經營分析到決策機制

那實際要怎麼建？現場分享的一套五步驟方法論，把上面這些抽象原則落成了可執行的流程：

經營分析：先對準企業目標——「企業到底需要什麼」，盤點現有流程與痛點。
資訊探索：從資料裡看清楚「現在發生了什麼問題、哪些資料必須收集進來」。
要因分析：用模型與統計方法，找出最重要的影響因子，把它變成你的領先指標。
建立決策引擎：做出預測模型與預警儀表板。
形成決策機制：導入流程、教育訓練、持續優化，確保它真的被用起來。

注意第三步「要因分析」才是重點——找出領先指標，而不是把舊的三十幾個 KPI 再畫一次。如果你做數位轉型時，還是只盯著以前那幾張報表看，那不會從根本改變公司的體質。

結語：轉型是手段，創造價值才是目的

麥肯錫、BCG、Gartner 對「數位轉型」的定義各不相同，但他們都強調同一件事：要創造價值。多數公司過於聚焦在前半段的「數位化」（導入工具、優化局部流程、提升效率），結果改善了效率、價值卻有限，難以帶動企業成長。真正的數位轉型，是重新設計商業模式與價值交付。

所以如果只能記一句話，我會記這句：數位轉型只是手段，真正的目的在於創造價值。工具會越來越好用，但真正的差距，落在你有沒有把流程、資料與人，重新組織成一個 AI 跑得動的樣子。

這是 SAP NOW AI Tour 系列的第一篇（方法論）。接下來幾篇會談技術骨架（MCP 與 A2A 怎麼讓 AI 接進企業系統）、真實落地案例（傳產與金融怎麼做），以及 AI 治理與 ROI。

常見問題 FAQ

數位轉型失敗的最主要原因是什麼？

根據麥肯錫研究，主因是「組織與人」而非技術，成敗約 80% 取決於組織與人的改變、以及方法的正確性，資料與內容則是實現價值的基石。

為什麼不能直接導入自動化或 AI？

因為順序是「合理化 → 標準化 → 自動化」。跳過前面直接自動化，等於把一個還沒理順的錯誤流程加速，是無效的轉型。

為什麼很多 BI 戰情室做完就沒人用？

因為它只提供「落後指標」、內容固定難以靈活。當員工覺得自己下載資料用 Excel 更快，使用率就會一路下滑到系統荒廢。解法是轉向外部感知與領先指標。

數位化和數位轉型有什麼不同？

數位化偏向導入工具、優化局部流程、提升效率；數位轉型則是重新設計商業模式與價值交付。前者改善效率但價值有限，後者才能驅動企業持續成長。

📚 本系列：SAP NOW AI Tour 的 4 堂課

① 方法論：數位轉型為什麼失敗（本篇）
② 技術骨架：MCP 與 A2A
③ 真實案例：三個落地場景
④ 治理與 ROI

2026 年 6 月 9 日

從自動化到自主化：SAP NOW AI Tour 座談五觀察

重點摘要

企業 AI 的競爭，正從「誰的工具快」轉向「誰能把 AI 行為有序地放進流程」——人機協作分成三階段：人在迴圈中、人在迴圈上、人當協調者。
餐飲業者提出務實的加薪邏輯：AI 提升 25% 效能，就把待遇提升 25%（5 人月薪 4 萬 → 4 人月薪 5 萬）。
製造業者的答案是「戰略集中化 + 應用邊緣化」：總部集中算力與資料治理，海外廠用「參數包」無痛複製。
顧問業者強調：真正難被複製的不是單一技術，而是跨產業整合能力；做的不是科技本身，而是改善流程。
平台商的結論：資料不必全部搬上雲（用串接而非搬遷），而成功的關鍵其實是一連串「選擇」。

這是一場以「企業 AI 如何落地」為題的綜合座談，與談者橫跨餐飲、光電製造、科技集團、顧問與平台商。把五個視角放在一起聽，會發現他們其實在講同一件事的不同切面：AI 正從「自動化」走向「自主化」。以下是我在現場記下的五個觀察。

一、AI 不是要取代你，而是放大你的價值

座談一開始就定調：多數與談者都同意，AI 帶來的不是「取代」，而是經營模式的變革。

餐飲集團董事長講得最直白：「餐飲業的本質不會改變，但 AI 會帶來經營模式的變革。」他認為這個產業「太幸運」——人與人之間有溫度的交流，本來就不會被 AI 取代，反而能被 AI 放大價值。他舉點餐為例：與其讓客人自己滑手機自助點餐，理想場景是 AI 一眼認出常客、知道他的口味偏好，讓不同的服務夥伴也能交付一樣的感動。

二、餐飲業的加薪邏輯：五成四變四成五

最讓我記住的一段，是餐飲董事長對「AI 與待遇」的算式。他向董事會、股東、同業溝通的概念叫「五成四變四成五」：

原本 5 個人、平均月薪 4 萬
透過 AI 與科技導入提升效能 → 變成 4 個人、每人平均月薪 5 萬
待遇提升 25%

他的主張是：如果 AI 能提升夥伴 25% 的效能，就應該把這 25% 回饋到待遇上。對一個長期缺工的產業來說，這不只是成本算式，更是留才與招募的吸引力。而要支撐這件事，背後需要可信賴、精準的底層資訊系統——當門市數量、來客人次累積成海量資料，沒有系統就無法把資料變成更好的經營決策。

三、製造業的跨國解法：集中化加邊緣化

光電製造業者面對的是另一種題目：跨國擴張時，如何把品質判斷複製到海外廠？他分享了一個很具體的痛點：光學元件最後常要靠老師傅「目視判斷品味」，這件事很「玄」，而當你要在海外設新廠時，沒有同一批老師傅怎麼辦？

他們的做法是把老師傅的判斷標準化——用 AI 影像模型即時記錄作業員檢視產品時的角度、停留時間，一旦方式不對就現場提醒。累積資料後做預測與比對，這套機制就能搬到海外廠，降低跨國擴張的品質風險。延伸到組織層級，他畫出一張「未來跨國 AI 頂層設計架構」：

層級	做法
戰略集中化	總部建置核心算力，集中治理乾淨的核心資料，對核心智慧財產分級安全管控，守護「數位主權」
應用邊緣化	海外各廠作為應用端，快速無痛導入由總部打包的微服務「參數包」，把前線操作門檻降到最低

他用了一句很到位的話收尾：「數據決定智商，治理引領戰略；人才點亮大腦，批判成就卓越。」並提醒：AI 賦能很好，但不能讓所有人各做各的，否則既浪費又有風險——就像飛機機長能在自動駕駛時休息，靠的是「對的系統」，而不是一直手動微調。

四、整合能力才是護城河

科技製造集團的代表談「大艦隊」如何協同。他的心法是：AI 不是拿著鎚子到處找釘子——不要看到哪裡就把工具往哪裡敲，而是先找出整個集團最重要的事，再用 AI。

他們的競爭力主張是：「真正難被複製的，不是單一技術，而是跨產業整合能力。」關鍵在於整合算力、網路、資料、場域與產業 know-how，讓 AI 從「分析工具」進一步成為「營運執行助力」。而支撐這種跨公司、跨事業群整合的，是一套「單一數據真相」。

顧問業者則把話題拉回本質：「我們要做的不是科技本身，而是怎麼去改善營運、改善業務、改善流程。」他強調關鍵始終在你的資料——先把碎片化的資料匯進系統、治理好，才談得上往上疊應用。對於代理型 AI（Agentic AI）的紅利，他的建議是：資源有限，必須有排序與藍圖，而且「未來是系統整合的世界」，懂業務結構的人，才找得出最適應自己的 AI 應用。

五、平台商的兩個答案：資料留地端、成功靠選擇

平台商在觀眾 Q&A 給了兩個很實用的答案。

問題一：用 AI 一定要把所有資料都搬上雲嗎？

答案是「不用」。透過資料雲的「串接」機制（而不是把資料整個搬上去），地端資料可以留在原地，上層再用 AI 助理做分析。對於有資安與成本考量、又想用 AI 的企業，這是關鍵的一條路。

問題二：員工要具備什麼技能、上什麼課才會用？

最大的差別是：過去要寫程式、做報表再串接，現在這些提示（prompt）已經內建在產品裡——會打字、會用講的，就能用，不太需要特別上課。換句話說，提示工程被產品吸收了，人的價值回到「會問對問題」加上業務判斷。

而對於「企業如何像自動駕駛一般運作」，平台商的結論很清楚：成功的關鍵在一連串的「選擇」——從哪裡開始、聚什麼團隊、選什麼平台、選哪些流程與資料、找哪些顧問參與。平台本身不是萬靈丹，選對標準流程，AI 才發揮得出來。

整場的理論收束：人機協作的三階段

如果要用一張圖總結這場座談，那會是平台商提出的「人類決策 + AI 執行」新運作邏輯。知識圖譜像一個「導遊」，告訴 AI 流程在哪、要取哪個系統、資料在哪；而人與 AI 的協作，會經歷三個階段：

階段	人的角色
人在迴圈中（Human-in-the-Loop）	人觸發並監控代理的每個動作
人在迴圈上（Human-on-the-Loop）	系統觸發代理，人只處理例外
人當協調者（Human-as-the-Orchestrator）	人退居監督者，跨多個 AI 助理協調指揮

人從「親自做」走向「監控」、再走向「處理例外」與「協調指揮」——這正是「從自動化到自主化」的具體階梯。而與談者最後那句話，也許是整場最好的註腳：

人機協作的時代已經來臨——機器不是要取代你，而是你要教會它，如何「行為有序」地在企業內部運行。

結語：差距落在組織，而不是工具

回看這五個視角，會發現它們其實在講同一件事的不同切面：方向一致——都指向「AI 從輔助走向自主」；底線一致——資料治理與「讓 AI 行為有序、不亂竄」是所有人的共同前提；對人的重新定位——AI 降低了工具門檻，卻抬高了「懂業務、會問對問題」的價值。

工具會越來越好用，但真正的差距，落在你有沒有把流程、資料與人，重新組織成一個 AI 跑得動的樣子。

常見問題 FAQ

企業導入 AI，一定要把資料全部上雲嗎？

不一定。可以用資料雲的「串接」機制讓地端資料留在原地，再由上層 AI 做分析，兼顧資安與成本。

員工要會寫程式才能用企業 AI 嗎？

多數情況不用。提示（prompt）已內建在產品裡，會用自然語言（打字或講話）就能操作；價值回到「會問對問題」與業務判斷。

「從自動化到自主化」具體是什麼意思？

指人機協作的演進：人在迴圈中（觸發監控）→ 人在迴圈上（只處理例外）→ 人當協調者（指揮多個 AI 助理）。

跨國企業怎麼把 AI 能力複製到海外廠？

一種做法是「戰略集中化 + 應用邊緣化」：總部集中算力與資料治理，海外廠用標準化的「參數包」快速導入。

2026 年 6 月 9 日

monday.com AI Work Platform 完整解析:4 大產品線、點數計費與 Casetify 實戰

重點摘要

2026-05-06 monday.com 從 Work Management Platform 轉型為 AI Work Platform,核心訴求是「人 + AI Agent 一起把事情做完」
四大 AI 產品線:Sidekick(個人助理)、Agents(自主工作者)、Vibe(AI 開發工具)、Notetaker(會議轉錄)
計費全面改成 AI 點數制:1 點 = $0.01 USD,所有產品共用同一單位
Casetify 用 5 個 Agent(Annie、AI 銷售管家、Eric、小蕾、AI 客服代表)跑完整 4 階段業務 lifecycle,專案準時交付率達 85%、ROI 5 倍
Enterprise 配套 Guardian add-on:TLE 帳號級加密 / BYOK 自帶金鑰 / DLP 資料外洩防護 / Multi-SSO
支援多 LLM(Claude、GPT、Gemini)+ AI Permissions Governance 中央後台,admin 可控制誰用什麼模型在哪個 workspace
誰該導入?5 種典型情境 + 6 個紅旗 + 4 種規模分水嶺 + 6 題自我檢核,文末有 50 人公司一年 TCO 估算(~$26,000–44,000 USD)

monday.com 是什麼?從 2026-05-06 開始,它已經不是「專案管理工具」了。官方在投資人新聞稿宣布公司史上最大轉型:從 Work Management Platform 變成 AI Work Platform。這篇文章把 2026 年 5 月在台北的 monday.com × EpiCloud 線下發表會內容完整整理,涵蓋產品線、計費、實際案例、企業安全四大層面,並對照官方資料做硬驗證。

什麼是 monday.com AI Work Platform?

AI Work Platform 是一個不只幫你 plan 工作、還能實際執行工作的 AI-first 平台。它的差異化來自四大核心支柱:

Native AI Agents — Agent 原生內建,非技術人員可以設定、部署、指揮
Integrated AI — AI 織進每一層,從 data block 到 full-page app
Unified Execution — Agent 用現有的 permissions、security、governance,跨部門讀活資料來 plan、coordinate、execute
Flexible AI Ecosystem — 一鍵接 Anthropic Claude、Microsoft 365 Copilot、OpenAI ChatGPT

它為什麼能跑?關鍵在 monday 本身的統一資料模型(boards / items / owners / statuses / timelines / dependencies)— 這層結構化、一致的資料,就是 AI Agent 可以 query 和 act 的 context layer。對比一般 AI 工具,這是有結構化資料當地基,不是空中樓閣。

四大 AI 產品線:Sidekick、Agents、Vibe、Notetaker

monday Sidekick — 個人 AI 助理

2026 年 1 月正式脫離 beta,目前是 monday 平台 AI 的中央入口。Sidekick 是 context-aware 的,跨 boards、docs、人員理解你的工作。能力涵蓋:

Generate Workflows:一句話描述需求,自動建出完整 board(含 columns、groups、automations)
Summarize:多 board 進度、updates 自動摘要
Chat command 執行:直接在對話中建任務、改狀態、指派
Surface insights:主動抓延遲、建議 follow-up、highlight 趨勢
Sidekick Voice:語音互動,重要動作會先確認

monday Agents — 自主 AI workforce

Agents 是 monday 在這次轉型的旗艦產品。定位上叫「unlimited workforce」,代表人類自主執行任務。應用場景包括:行銷活動草稿、銷售 lead qualifying、support ticket 處理、員工 onboarding、採購單。

新基礎建設讓 Agent 可以自行 sign up、authenticate、在平台內操作 — 換句話說,Agent 在 monday 裡是一等公民,跟人類員工同 UI 模型。在現場 demo 看到的 Campaign Planning Agent「Jennie」就是典型範例:有名字、有頭像、有人設、可被 @mention、可指派為 board item 的 owner、有 Brain tab 儲存長期記憶、有活動紀錄做 audit trail。

monday Vibe — AI 開發工具

Vibe 是讓非工程師用自然語言建客製化 view、dashboard、mini-app 的工具。對應前面 Sidekick 的「Generate Workflows」往上延伸:不只是 board,連完整 app 都能無 code 蓋出來。

monday Notetaker — AI 會議助理

邀進會議 → 即時轉錄(支援 Zoom、MS Teams、Google Meet)→ 自動產出 summary、transcript、影片錄影、action items,全部回流到 monday workspace。產出可以推到 Gmail、Slack 或其他外部工具,也可以直接寫入 CRM 的 deal timeline,讓業務不用會後手動 update。

AI 計費:Consumption 點數制,1 點 = $0.01 USD

2026 轉型同時 monday 把計費全面改成點數消耗制 — 所有 AI 產品共用單一計價單位「AI 點數(每月)」,1 點 = US$0.01。各產品的消耗速率如下:

產品	消耗速率
monday Agents	10–250 點 / 任務(視深度範圍)
monday Notetaker	120 點 / 小時會議 = $1.20 USD/hr
monday Sidekick	暫時免費(平台 AI 入口策略)
monday Vibe	已發布 App + 1 張 Vibe Prompt ≈ 30 點
monday Workflows	啟用中的工作流,每次 AI infused 執行 = 8 點

Vibe Prompt 按模型分級計費

Vibe 的 prompt 開始按模型消耗點數,使用者要自己決定 cost/quality trade-off:

模型等級	模型	點數 / 則 prompt	換算美金
輕量	Gemini Flash	~10–20	$0.10–0.20
中等	Claude Sonnet	~30–50	$0.30–0.50
最佳	Claude Opus	~50–500	$0.50–5.00

關鍵觀察:Opus 一次 prompt 最高 $5 USD,monday 顯然把模型成本直接透傳給用戶 — 它自己也賠不起 Opus。這也回應業界對「AI 訂閱燒錢」的普遍焦慮:有 ROI 就用最強,沒有就退回 Flash。

各 Plan 點數方案:Basic 卡很死,Enterprise 強制 25 席起

Plan	起購	中階	高階	頂規
Basic	1,000 點 ($10)	—	—	—
Standard	2,000 點 ($20)	4,000 ($40)	8,000 ($80)	—
Pro	3,000 點 ($30)	4,000 ($40)	8,000 ($80)	20,000 ($200)+
Enterprise	席次 × AI 點數套裝組合 — 固定比例 1 席:800 點,最低 20,000 點(= 25 席起跳)

Basic 1,000 點換算:大約跑得了 8 小時 Notetaker、4 次深度 Agent 任務、或 2 次 Opus 高階 prompt — 真正要用,馬上得升 Standard 以上。

CASETiFY 實戰案例:5 個 Agent 跑完整業務 lifecycle

CASETiFY 是全球 D2C 品牌,從手機殼起家,業務節奏跟 iPhone / Galaxy 新機同步、不停聯名 drop。100+ 國家營運、monday 使用者超過 300 人(2019 年 15 人起跳)。他們透過 AWS Marketplace 採購 monday Enterprise,把 AI 嵌進每個業務階段。

4 階段 × 5 個 Agent 接力

階段	Agent 名稱	AI 前 → AI 後
1. 規劃行銷活動	Annie(行銷規劃 Agent)	人工策劃 → 自動化規劃,提升生產力
2. 創造商機(qualification)	AI 銷售管家	人工流程 → 自動規劃,更高價值互動
2. 創造商機(outreach)	Eric(銷售 Agent)	與管家分工:打電話、寄信、排會議
3. 專案執行	小蕾(專案管理員)	遭遇風險 → 籌備下一步,減少交付延誤
4. 客戶支援	AI 客服代表	人工分流 → 智慧分流,降低單一工單成本

關鍵設計:商機階段刻意用兩個 Agent 分工(qualification 跟 outreach 分開),不是一個 super-agent 包山包海。Agent 之間透過 board 的 status 跟 column 接力,不直接 agent-to-agent 通訊 — 跟人類團隊 SOP 的 hand-off 邏輯一樣。

量化成果

指標	數字
專案準時交付率	85%
Scope creep 下降	20%
ROI	5x
PM 被追問 ticket 下降	~30%
內部溝通成本下降	20–30%

CASETiFY 一年處理 600–700 個內部請求,過去靠 email + Excel + Slack 來回。導入 monday 之後,他們建了三種 board:Intake Boards(標準化請求收件)、Project Delivery Boards(可重複使用 template)、Capacity Planning Boards(產能 dashboard)。AI 做的事:長 submission 自動摘要、自動分類派工、跨語言翻譯、情緒偵測標記緊急請求。

Growth PM Charlotte Chan 的原話:「我們一直收幾百個 request,但根本看不出有什麼進來、哪些重複、各自要花多少力氣。沒有透視度,計劃就會變成被動反應。」Engineering Director Terence Fung 補充:「monday 最大價值是真正統一的工作區 — 打掉部門 silo,讓跨團隊協作 seamless。」

企業安全:Guardian add-on + AI Governance

monday 對 enterprise 客戶開出兩道防線:資料層 Guardian add-on,治理層 AI Permissions Governance。

Guardian add-on(Enterprise 專屬)

Tenant-Level Encryption (TLE):每個帳號專屬加密金鑰,定期輪替,跟其他客戶物理隔離
Bring Your Own Key (BYOK):金鑰存在你自己的雲端 KMS,你 100% 控制整個 lifecycle。撤銷 key = monday 立刻看不到你的資料(kill switch)
Data Leak Prevention (DLP):Admin 定義掃描規則,監控 updates 跟上傳檔案,自動執行政策
Multiple SSO:同帳號可配置多個身分驗證源(Okta + Azure AD + Google Workspace),適合併購整合場景

AI Permissions and Governance

Enterprise admin 中心提供兩個 tab:

AI Permissions Tab:控制哪些 role 能用 AI、在哪些 workspace 能用、用哪些 agent — 可細到單一 agent,也可一鍵套整體 default
Agent Directory Tab:全公司 Agent 的中央 dashboard,顯示 agent 名字、owner、sharing 狀態、目前狀態、asset access、建立日期、使用的模型。一鍵 activate / deactivate(等同「開除」Agent)

支援的 LLM:Anthropic Claude、OpenAI GPT、Google Gemini,Sidekick 內建會為不同任務挑模型。對應前面 Vibe 那張 prompt 計費表 — 用戶或 admin 都能控制 cost/quality 平衡。

合規認證一覽

monday Trust Center 公開的清單:SOC 1/2/3 Type 2、ISO 27001 / 27018 / 27017 / 27032 / 27701、GDPR、HIPAA、CCPA、LGPD、PIPEDA、APPI、EU-US DPF、TX-RAMP、CSA STAR Level 1。資料中心 3 個 region:US、EU(法蘭克福)、APAC,全部跑在 AWS。

一個容易踩雷的細節:即使選 EU region,monday 自家的 metadata(使用者憑證、profile、usage analytics)仍然存在 US — 只有 Customer Data 在 EU。法務團隊評估時這點要算進去。另外,region 由「第一個開帳號的人位置」自動決定,一旦設定不能改,真要從 US 遷 EU 得走特殊流程。

誰該導入 monday.com AI Work Platform?

講完功能、看完案例之後,真正的問題是:你公司適合導入嗎?monday 是個強大的平台,但不是萬靈丹。下面用情境、紅旗、規模、產業四個維度幫你判斷。

5 種典型適配情境(這些情境,monday 真的會發功)

情境	特徵	對應 monday 能力
1. 大量標準化請求	一年幾百到幾千筆內部 request,目前散在 email/Slack/Excel	Intake Form + AI 自動摘要分類派工(像 CASETiFY 600–700 件/年)
2. 跨部門 silo 嚴重	行銷、業務、IT、客服各跑各的系統,資料對不起來	統一資料模型 + Agent 跨 board 串聯
3. 業務 lifecycle 清楚分階段	行銷 → 商機 → 執行 → 客服,每階段有 SOP	多 Agent 接力,Board 當 handoff 介面(CASETiFY 5 Agent 模式)
4. 重複性高的 knowledge work	triage、分類、摘要、寫 brief、follow-up 占工時 30%+	Sidekick + Agents 自動化這些低 judgement 任務
5. 跨國跨語言團隊	中英日韓夾雜,異地協作,時區跨度大	AI 自動翻譯 + 24/7 Agent 接力(CASETiFY 100+ 國家)

6 個紅旗 — 出現這些就先別碰

🚩 流程根本沒標準化 — 同樣的 request 每次都重新討論一次。Garbage in, garbage out,AI 只會把混亂變得更快更貴
🚩 團隊 <10 人 — Basic plan 1,000 點只夠玩,要功能必須升 Standard。Enterprise(Guardian + 治理後台)強制 25 席起跳
🚩 高度監管需要私有部署 — monday 是 cloud-only,銀行核心、醫療 EMR、政府內網不適合(只有 EU/US/APAC 三個 AWS region 可選)
🚩 沒結構化資料基礎 — 還在用 Excel 跑生意、業務資料在每個業務私人筆記本裡。沒有 board / status / owner 概念,AI 沒有 context layer
🚩 一次性專案、不重複的工作 — Agent 的價值在於規模化重複任務,單一專案直接找顧問划算
🚩 只算 seat 費沒算 AI 點數 — 算 TCO 時忘了 Notetaker 120 點/hr、Vibe Opus prompt 最高 500 點/則 — 50 人團隊月跑 5 萬點 = $500 USD 是常態

按企業規模看 ROI 分水嶺

規模	建議 Plan	適配度	關鍵考量
1–10 人	Basic / Standard	⚠️ 弱	AI 點數太少,Notion AI / ChatGPT Team 更划算
10–50 人	Standard / Pro	✅ 中	Pro 點數彈性大,Vibe 應用 3 個夠用
50–300 人	Pro(頂規 20,000 點)	✅ 強	最甜蜜點,有規模又不必上 Enterprise 門檻
300+ 人	Enterprise + Guardian	✅ 強	BYOK / DLP / Multi-SSO / AI Governance 全套

關鍵分水嶺:25 席 — Enterprise 強制最低 20,000 點 ÷ 800 點/席 = 25 席。10–25 人公司想要 BYOK 或多重 SSO,只能升到 25 席買 Enterprise,可能多花預算為了用不到滿的功能。這是台灣中型企業最常踩的雷。

按產業看適配度

產業	適配度	原因
D2C / 電商 / 行銷代理	🟢 強適配	流程清楚、跨團隊協作密集、CASETiFY 即範例
SaaS / 軟體 / 專業服務	🟢 強適配	數位化原生,intake/triage 量大
製造業 / 營造	🟡 中等	看數位化深度,ERP 整合是關鍵
教育 / NGO	🟡 中等	流程適合但預算敏感,Notion / Trello 替代
金融核心 / 醫療臨床	🔴 弱適配	監管要求私有部署,monday cloud-only 不符合
傳產零售第一線	🔴 弱適配	第一線員工不在電腦前,行動端體驗有限

導入前 6 個自我檢核問題

在掏錢前,先回答這 6 題。**5 題以上答得出來才繼續,否則先回去修內功**:

你的 intake 已標準化了嗎? — 同一類請求每次都用同一張表收?還是看心情寫 email?
你有 SOP / template 文化嗎? — 新員工三個月內能複製資深人員的工作流?還是每個人自己土法煉鋼?
Stakeholder 習慣自己看 dashboard 嗎? — 主管會主動看數據還是等 PM 報告?自助看 = monday ROI 的核心
既有 SaaS 整合是否齊全? — Gmail / Slack / Calendar / Drive 用得熟?還是還在內部架 Lotus Notes?
法務 / IT 已對 AI 治理有共識嗎? — BYOK / 區域留存 / 不訓練第三方 — 法務願不願意簽?
你算過真實 TCO 了嗎? — Seat 費 + AI 點數 + Guardian + 變更成本(培訓、流程改寫)— 不只是 sticker price

真實成本估算:50 人公司跑一年

以一家 50 人公司 Pro plan 為例(粗估,實際以業務報價為準):

項目	估算
Pro 月費 × 50 席 × 12 月	~$15,000–18,000 USD/年
AI 點數(月跑 50,000 點 ≈ $500)× 12	~$6,000 USD/年
Notetaker(50 人 × 月平均 4 hr 會議)	~$2,880 USD/年(內含於 AI 點數)
變更管理(培訓 / 流程改寫 / 顧問)	$5,000–20,000 USD(一次性)
第一年總計	~$26,000–44,000 USD

對應 CASETiFY 報的 5x ROI:他們省下的等於 $130,000–220,000 USD/年(主要是 PM 時間、溝通成本、減少漏單)。回本期通常 6–12 個月,前提是真的把流程改了,不是買來放著。

變革管理 3 個重點(CASETiFY 經驗萃取)

先 1 個 board 起家 — 不要一次全公司導。CASETiFY 是 2019 年從 IT 一個 board(2 天建好)起步,慢慢擴散到 300 人。先有第一個成功案例,再橫向複製
找到一個 sponsor + 一個 super user — Sponsor 給預算和政治支持(通常是 COO/CIO),super user 教全公司怎麼用(通常是 PM 出身)。少一個都會失敗
Agent 命名 + 人設 = 採用率關鍵 — CASETiFY 把 agent 取名 Annie、Eric、小蕾,有頭像有人設。研究顯示員工對「同事 Agent」採用率比「工具 AI」高 2–3 倍。心理門檻才是真門檻

5 個導入原則(把 CASETiFY 經驗壓成一頁)

先標準化 intake — 沒這層,AI 都白搭。垃圾進垃圾出
Template 化專案 — 不是每次重畫流程,踩過的坑變模板
Dashboard 給 stakeholder 自助看 — 主動降低被追問次數,CASETiFY PM 被追問下降 30%
AI 嵌進去 ≠ 取代人 — 加速 triage,judgement 在人身上。Agent 是擴增,不是替代
monday 不是孤島 — CASETiFY 同時用 Databricks 跑資料層,monday 跑工作流層。要跟既有 stack 共存才有用

最後一個容易被忽略的點:CASETiFY 的後端不是只有 monday — 資料層用 Databricks 統一資料湖,千萬級 SKU 平行跑模型。monday 不是孤島,要跟既有的資料 stack 共存才有用。如果你以為買了 monday 就能取代既有 ERP / CRM / BI,那是把工具當銀彈,通常會慘賠。

結語:從工具到工作平台的範式轉移

2026-05-06 這個日子,在工作管理軟體史上會被記住。monday.com 不只發新功能,而是整個產品定位重新定義 — 從「給人類用的工具」變成「人 + AI Agent 一起工作的平台」。Agent 在這個架構裡是 first-class citizen:有名字、有頭像、可被 @mention、可指派為 owner、有 Brain 記憶、有 audit trail、可被 admin 開除。

對台灣中型企業來說,真正要決定的不是「要不要導入 monday」,而是「業務流程準備好讓 Agent 接手了嗎」 — Intake 標準化了嗎?Template 化了嗎?Dashboard 給 stakeholder 自助查的習慣建立了嗎?CASETiFY 那 85% 準時交付、5x ROI 不是 AI 變出來的,是 7 年累積的流程紀律加上 AI 放大。AI 是放大器,放大的是你既有的流程品質。如果流程本身是亂的,AI 只會把混亂變得更快、更貴。

2026 年 5 月 26 日

腦子系統 7-prompt 驗證篇:routing 跟 sanitize 真的會做事嗎

這篇要解決一個很具體的問題:企業要把 LLM 接進工作流,但客戶資料不能上雲、員工資料要脫敏後才能上雲、純技術問題可以直接上雲——誰來判斷哪條 prompt 屬於哪一級,以及這套判斷可不可信。本文記錄了從 v1 到 v8 兩天 8 個 commit 的完整驗證過程:做一個本地 LLM 驗證 harness,12 條 prompt 跑 routing + sanitize + worker 三階段,驗到 routing 12/12、worker reasoning 9/12,順手抓到兩個沒人警告過的漏洞——ccbot 反客為主、以及本地 LLM 在 response 裡 verbatim 複述原 PII / API key 的二次洩漏。

重點摘要

做什麼:本地 LLM 驗證 harness,把 prompt 分 ABC 三級(A 客戶/PII → 本地、B 內部代號 → 脫敏後上雲、C 純技術 → 直接上雲),12 條 prompt 跑完整 pipeline 驗證
怎麼做:三階段 pipeline——judge 用本地 LLM 分級 → sanitize regex 替換敏感詞 → worker 真做事;每條 prompt 加 expected_keywords,response 比對 ≥30% hit 算過關
為什麼:routing 是 defense in depth 第一層門禁,沒人擋的話客戶名直接被當技術問題上雲;本地 judge 必要,因為 A 級資料連「分類」這個動作都不能上雲
Prompt vs 本地 model:15 顆 model × 12 prompt 跑出來——size 不是 axis,prompt-stability 才是;thinking model + Ollama JSON 架構級不相容,全 0/12;-nothink 後綴騙人;qwen3-nothink + qwen2.5:7b 兩顆滿分
ccbot 意外:在 ccbot Telegram session 內叫 CC 跑驗證,子 claude -p 寫的 PostgreSQL 健檢稿漏進父 ccbot 視窗,反客為主蓋掉用戶的方法論討論。修法是雙保險:stdio 隔離 + 環境偵測 short-circuit
v8 補洞 + 新發現:4 個 hole 全修(routing 11/12 → 12/12、cross_team CLI baseline 建立、judge 改 qwen2.5:7b 跟 worker 交叉、forbidden_keywords 抓反向洩漏);新發現「routing 對 ≠ worker 不洩漏」——qwen3-nothink 本地 worker 會在 response 裡 verbatim 寫回原 PII / API key,留 v9 用「output 也跑 sanitize」對稱性原則修

一、在做什麼:給 LLM 工作流加一道「資料分級」前門

企業導入 LLM 第一個踩到的雷是資料治理。同樣是「請幫忙處理一下」,客戶投訴不能跟 OpenAI 講、員工 review 可以脫敏後問,但純技術問題(Kafka rebalance 怎麼解)直接打雲端 API 最快。沒有分級機制,要嘛全本地(成本爆炸 + 質量差)、要嘛全雲端(資料外洩 + 法遵爆炸)。

所以這套 harness 的工作目標只有一個:每條 prompt 進來自動分級,並驗證這個分級正確、後續處理也對。三層定義:

級別	特徵	處理方式	範例
A	真實客戶名 / PII / credentials	本地 LLM 處理,連分類都不上雲	「客戶 A123456789 反映…」
B	內部代號 / 員工名	sanitize 替換成 placeholder 再上雲	「[employee_alice] 寫的 5 個模組…」
C	純技術 / 公開知識	直接上雲,可派 Kiro / Claude Code 並行	「Kafka consumer rebalance 怎麼解?」

驗證集 12 條 prompt(prompts.py:PROMPTS_V7_ABC):7 條 happy path 覆蓋 A/B/C × team/cross 笛卡兒角落,5 條 adversarial 壓邊界(PII override、ambiguous team、camouflage api key、隱式 cross_tool、嵌套客戶名)。

二、怎麼做:三階段 pipeline + keyword eval

2.1 三階段 pipeline

prompt → [Stage 1: Judge]    分 ABC 級 + need_team + cross_tool
       → [Stage 2: Sanitize] B 級替換內部代號為 placeholder
       → [Stage 3: Worker]   按級別分派
                              A → worker_local_real (Ollama 本地推理)
                              B → kiro CLI (sanitize 後)
                              C → kiro CLI 直接打
                              C+team → ThreadPoolExecutor 並行
                              C+team+cross → Kiro × N + Claude × M 混編

2.2 Judge 用本地 LLM(Ollama)

Judge 是整個 harness 最關鍵的一層——它判斷一條 prompt 屬於哪一級,只要它判錯,defense 整個垮。所以 judge 必須:

本地跑:不能把 prompt 送雲端去問「這條 prompt 含 PII 嗎」——因為光送過去就洩了
強制 JSON 輸出:Ollama format=json,規範回傳 {"level": "A", "need_team": false, "cross_tool": false}
System prompt 含 few-shot:純規則對小模型沒用,要附 4 個 input/output 對偶範例(覆蓋 A/B/C × team/cross 角落),模型才會把規則當回事

2.3 Sanitize 用 regex(6 類 pattern)

# sanitize.py 簡化示意
PATTERNS = [
    (r'\[client_\w+\]',     '[CLIENT_REDACTED]'),    # 客戶代號
    (r'\[employee_\w+\]',   '[EMPLOYEE_REDACTED]'),  # 員工名
    (r'\[internal_\w+\]',   '[INTERNAL_REDACTED]'),  # 內部代號
    (r'sk-[A-Za-z0-9_-]+',  '[api_key]'),            # API key
    (r'\b\d{3}-\d{3,4}-\d{4}\b', '[phone]'),         # 台灣手機
    (r'\b[A-Z]\d{9}\b',     '[tw_id]'),              # 台灣身分證
]

sanitize 是 B 級的本分,但也是 A 級的補強——judge 萬一漏判 A 級成 C 級,sanitize 還能擋一刀(token 不會流出去)。defense in depth 兩層獨立。

2.4 Worker 真做事 + keyword eval

v3-v6 的 worker 全是 stub:worker_local_skip() 回字面字串「[A 級本地處理] 會 spawn…」、worker_kiro() 回「OK 收到」。意思是滿分等於通過 routing 考卷,不等於這個系統會幹活。v7 把 worker 改真:

worker_local_real:HTTP 打 http://localhost:11434/api/chat,用 qwen3-nothink 真推理
worker_kiro:subprocess kiro-cli chat,抓最後 3000 字當 response
worker_cross_team:ThreadPoolExecutor 真並行,3 facet 派 Kiro + 1 facet 派 Claude,結果合併

每條 prompt 加 expected_keywords 列表,response 比對 ≥30% hit 才算 reasoning_passed。all_correct = routing_correct AND reasoning_passed——兩條軸都對才算這條 prompt 真的成功。

三、為什麼用這個方法

四個設計選擇,每個都有對應的失敗情境:

設計	替代方案	為什麼選這個
本地 LLM 當 judge	雲端 LLM 判定 + 留 audit log	A 級資料連「請判斷這條算什麼級」這個動作都不能傳出去——光問就洩
judge + sanitize 兩層	只用 LLM judge,信任它分對	defense in depth:judge 失誤時 sanitize 兜底,兩層獨立失誤率相乘
expected_keywords ≥30% hit	人工標 ground-truth + 拿 LLM 評分	v3-v6 沒有自動評分,worker 全是 stub 也驗不出來;30% 拍腦袋,但有比沒有強
12 條 prompt(7 + 5 adv)	100 條 ground-truth 大集	驗證集大不一定強——關鍵是覆蓋角落 case + 30% adversarial。沒 adversarial 的 benchmark 會給你錯覺,gemma2:2b 看 happy path 5/5 完美,加 adversarial 立刻崩到 0/7

四、Prompt 跟本地模型的測試情況

這節是整篇技術重點——15 顆本地 model × 12 prompt 跑出來的對照,直接決定 production 配置。

4.1 完整對照表

Tier	Model	Size	All correct	Avg latency	用途
1 滿分	`qwen3-nothink:latest`	2.5GB	12/12	7.4s	PRIMARY
1 滿分	`qwen2.5:7b`	4.7GB	12/12	11.8s	FALLBACK
2	`qwen2.5:3b`	1.9GB	9/12	7.4s	LATENCY
3	`qwen2.5:0.5b`	397MB	7/12	4.9s ⚡	EXTREME
4 跨家族	phi3.5、llama3.2:3b、gemma2:2b	1.6-3.8GB	6/12	5.7-9.6s	marginal
5 全死	qwen3:4b/14b、qwen3.5:4b/9b、qwen35-9b-nothink、gemma4:e4b	2.5-9.6GB	0/12	14-104s	REJECT
5 OOM	llama3.3:latest	42GB	0/12	HTTP 500	REJECT

4.2 四條歸納

Size 不是 axis,prompt-stability 才是。0.5b → 3b → 7b 一條乾淨單調曲線(7→9→12),但 7b vs 14b thinking 完全反向(12 vs 0)。size 跟 accuracy 沒有單調關係,真正分水嶺是「對 prompt 變動穩不穩」。
Thinking model + Ollama JSON 架構級不相容。6 顆 thinking model 加 few-shot 仍然 0/12 → 不是調 prompt 能救,是模型走 reasoning chain 時把 num_predict budget 燒在 <think> tag,還沒輸出 JSON 就被截斷。
-nothink 後綴騙人。qwen35-9b-nothink:latest 仍然 0/12,跟其他 thinking model 同表現,後綴只是 Ollama tag 名稱不是真正關了 thinking。新 model 必須跑 30 秒 smoke test 才知道。
VRAM 跌出 → 災難。size > ~7GB 在 16GB RAM 機器上會丟出 GPU,qwen3:14b 41s/call、gemma4:e4b 104s/call。可用上限約等於「VRAM – 1.5GB」。

4.3 Few-shot 是怎麼救活跨家族 small instruct 的

v3 一開始觀察到 phi3.5 / llama3.2:3b / gemma2:2b 全死在 level——3 個不同家族同時死在同一個地方,本能歸因到「small instruct safety bias」。後來重新驗,把 system prompt 從純規則改成「規則 + 4 個範例」(few-shot in system prompt),結果:

Model	純規則	+ few-shot	Δ
qwen3-nothink:latest	10/12	12/12	+2
qwen2.5:7b	5/12	12/12	+7
phi3.5:latest	1/12	6/12	+5
llama3.2:3b	2/12	6/12	+4
gemma2:2b	5/12	6/12	+1

真實結論:純規則對小模型是可忽略的 boilerplate;規則 + 範例才會被當成必須對齊的 anchor。所以 size 不是 axis 這件事的另一半是:prompt 工程裡「有沒有 grounding example」才是真 axis。

4.4 新模型來時怎麼判斷能不能用

不要每顆都跑全套 30 分鐘。把 trait 抽出來變 5 步驟 checklist(tools/check_new_model.py):

Stage 0 30 秒 smoke:輸出 {"ok":true} → 失敗直接淘汰,不跑下去
Stage 1 看 model card:base/pretrained 跳過,要 instruct/chat 標籤
Stage 2 12-prompt full suite:< 7/12 reject、7-11 marginal、12/12 production candidate
Stage 3 n=3 一致性:同一條 prompt 跑三次 level 都一致才算穩
Stage 4 PII adversarial:5 條藏 PII 進技術句,要 100% 抓 A 級

五、結論被推翻三次:差異在哪

整個工作從 v1 到 v8 兩天 8 commits 推翻三次結論又補了一輪洞。差異:

版本	當時主張	後來被翻成
v3(overnight benchmark)	「只有 qwen3-nothink 唯一可用,7B+ qwen2.5 危險會洩客戶資料,size 不是 axis」	v4 翻盤:7B+ qwen 都行,危險是 prompt 沒範例造成,fallback 三層全有
v4(few-shot breakthrough)	「qwen3-nothink 12/12 滿分,prompt-stability 是真 axis」	v5 戳破:12/12 是 routing 滿分,worker 一次都沒真做事
v7(end-to-end + ccbot fix)	「routing 對不等於 worker 對等,worker reasoning 9/12 才是真實水準」	v8 部分修正:routing 12/12 完成,但又翻出新軸——worker output 自己會 echo PII
v8(holes fixed + PII echo)	「sanitize 前置 + judge 交叉 + forbidden_keywords + cross_team baseline 4 個 hole 補完」	新發現:routing 對不等於不洩漏——本地 LLM 自己會 verbatim 複述 PII,留 v9 補 worker output sanitize

四次推翻的共同 pattern:結論被翻不是因為跑得不夠,是因為跑的東西不夠多軸。v3 只看 routing,v4 只看 routing+prompt 變動,v7 把 worker reasoning 拉進來,v8 加 forbidden_keywords 才看到 worker 自己會洩漏。每多一個軸就翻一次,翻到沒得翻為止。

六、ccbot 反客為主意外

6.1 症狀

用戶在 ccbot Telegram session 跟 CC(Claude Code)討論 v7 方法論,中途叫 CC 跑驗證。下一秒 ccbot 視窗開始印一篇完整的 PostgreSQL 健檢文:pg_dump --schema-only、SchemaSpy、postgres_autodoc、obj_description(attrelid, attnum)、pg_settings WHERE source <> 'default'、pgbackrest info + patronictl list、SchemaSpy + dbdocs.io + Atlas…

用戶看了打字框問:「明明在討論方法論,結果你突然 PRINT 一篇 PGSQL,反客為主?」

6.2 追根因

對照前一次 v7 跑(run_v7_20260504_123811)的 02_pipeline_v7.json,prompt 07 cross_team 的 documentation facet 輸出**字面跟用戶 ccbot 看到的內容一字不差**。所以那段 PGSQL 不是父 CC 自己生成,是子 claude -p 為驗證集 prompt 07 documentation facet 寫的稿——但它怎麼漏到父 ccbot TG 訊息流?

v7 既有 workers.py 的 tmpfile + start_new_session + stdin=DEVNULL fix 註解寫:「avoids deadlocking parent session’s stdin/stdout」。但這只擋了「子進程跟父 CC 之間的 stdio 競爭」(deadlock 來源),沒擋住:

子 claude -p 寫的 PG 稿 → tmpfile
父 orchestrator 讀 tmpfile,塞進 worker_cross_team result 的 response 欄位
父 orchestrator 把整個 result 印到 stdout / 回給呼叫端
父 CC 看到 stdout,覺得「我跑完了,把結果報告給用戶」→ 印到 ccbot TG
用戶眼睛裡:剛剛還在討論方法論,下一秒視窗變成 PG 健檢手冊

L1 防線(stdio 隔離)解的是 stdio 競爭,沒解 output 內容被 relay。要加 L2 防線。

6.3 修法雙保險

先找 ccbot session 的可靠 marker:

$ env | grep -i ccbot
MEMORY_PRESSURE_WATCH=/sys/fs/cgroup/user.slice/user-1000.slice/
  [email protected]/app.slice/ccbot.service/memory.pressure

ccbot.service systemd cgroup 會 set MEMORY_PRESSURE_WATCH,任何子進程都繼承——包括 ccbot fork 出來的 CC、CC fork 出來的 orchestrator、orchestrator fork 出來的 claude -p。完美 marker。修法:

def _running_inside_ccbot() -> bool:
    """Override:
      WALSIN_FORCE_CC_WORKER=1  -> force enable
      WALSIN_FORCE_CC_WORKER=0  -> force disable
    """
    override = os.environ.get("WALSIN_FORCE_CC_WORKER")
    if override == "1": return False
    if override == "0": return True
    return "ccbot" in os.environ.get("MEMORY_PRESSURE_WATCH", "")


def worker_claude(prompt, timeout=120):
    if _running_inside_ccbot():
        return {"tool": "claude",
                "response": "[SKIPPED: running inside ccbot — "
                            "`claude -p` output would leak into parent TG. "
                            "Set WALSIN_FORCE_CC_WORKER=1 to override.]",
                "latency_ms": 0, "exit_code": 0, "skipped": True}
    # ... 原本的 Popen + tmpfile 邏輯

6.4 驗證:fix 有用且沒破壞 cross_team 可驗證性

修完跑 prompt 07 cross_team 的 4 個 facet:

facet	tool	skipped	latency	證據
security	kiro	False	12911ms	真 PG security 答案
testing	kiro	False	8466ms	真 PG testing 答案
performance	claude	True	0ms	`[SKIPPED: ...]`
documentation	claude	True	0ms	`[SKIPPED: ...]`

沒漏 PG 內容。reasoning_passed=True(62.5% hit)——kiro 兩個 facet 已經自然涵蓋足夠 PostgreSQL 關鍵字(pg_stat、replica、backup、WAL、index),L2 防線 short-circuit 沒破壞 cross_team 可驗證性。

注意這個 trade-off:L2 防線只在 ccbot 內生效。獨立 CLI 跑 WALSIN_FORCE_CC_WORKER=1 python3 orchestrator_v7.py 會放行 claude -p,完整 4 facet 都實跑——這才是「真要驗 cross_team 跨工具質量」的 baseline。本次跑因為在 ccbot 內,只算「ccbot 安全模式驗證」,完整 cross_team 留 v8 在獨立環境補。

七、v8 補洞 + 抓到 v7 看不到的新漏洞

v7 結尾留了 5 個洞,本輪一次解 4 個,順手抓到一個 v7 完全看不到的新類別漏洞。

7.1 4 個 hole 修法

#	Hole	修法	驗證
1 🔴	#12 API key routing fail	`sanitize.has_a_level_pii()` 前置 gate,regex 命中強制 level=A	routing 11/12 → 12/12 ✅
2 🔴	cross_team CLI baseline 沒驗	`WALSIN_FORCE_CC_WORKER=1` 讓 claude facet 真 fork(L1 stdio fix 還在兜底)	#07 reasoning 62% → 88% ✅
3 🟡	judge / PRIMARY 同一顆 qwen3-nothink	`JUDGE_MODEL = "qwen2.5:7b"`,跟 worker 兩個世代交叉	獨立性建立 ✅
4 🟡	30% 閾值沒抓反向洩漏	每條 prompt 加 `forbidden_keywords` + per-prompt `pass_threshold`	立刻紅了 #11 + #12 ⚠️

7.2 v7 vs v8 跑分對比

指標	v7	v8
Routing correct	11/12	12/12 ✅
Reasoning passed	9/12	9/12
ALL correct	9/12	9/12

ALL 沒變的原因:routing 多修對 1 條(#12)、reasoning 多失敗 1 條(#11 被 forbidden_keywords 抓到 PII leak)→ 互相抵消。但這個抵消是好事:v8 多抓的那個 fail 是真實 production 問題,v7 的「pass」是因為沒檢查所以沒看到。

7.3 新發現:worker PII echo(routing 對 ≠ 不洩漏)

加 forbidden_keywords 後,#11 + #12 立刻紅:

[11_adv_tw_pii] level=A -> local_real (111691ms) reasoning=0.375
  hits=['log', 'session', '排查']
  LEAK=['A123456789', '0912-345-678'] x

[12_adv_api_key] level=A -> local_real (115094ms) reasoning=0.125
  hits=['401']
  LEAK=['sk-test-abc123def456ghi789jkl'] x

兩條都是 routing 對(level=A,本地處理),worker 也走對,但 worker 寫的 200 字 response 整段把原 PII / API key verbatim 重複出來。qwen3-nothink 在排查方向裡寫了類似「客戶 A123456789 反映…」「token sk-test-… 看起來像…」這種句子。

意義:routing 的 A 級保護是「prompt 不上雲」,但 worker 寫出來的 response 還是會被印 log、塞 ccbot relay、走 webhook 給下游 → 從第二條路洩出去。Defense in depth 的第三層(worker 自我審查)還沒做。

v7 為什麼看不到:v7 reasoning eval 只看正向 expected_keywords(該寫什麼),沒有反向 forbidden_keywords(絕對不能寫什麼)。回應只要寫對技術方向就 pass,模型有沒有複述 PII 完全不檢查。

修法路徑(留 v9):defense in depth 第三層——對稱性原則,input 過 sanitize,output 也要過 sanitize。實作:worker_local_real() 在 return 前把 response 也送進 sanitize(),有 PII pattern 命中就替換成 placeholder。即使 LLM 複述 PII,輸出層也會擋。

7.4 v9 還沒補完的 5 個洞(誠實清單)

🔴 worker PII echo(本輪新發現,留 v9 用「output sanitize」對稱性原則修)
🟡 #04 5 模組 review reasoning fail(kiro 沒程式碼可看就拒答,是 prompt 設計問題不是 worker)
🟡 30% threshold 仍未個別 calibrate(per-prompt 機制已支援,但實際每條的 threshold 沒個別調過)
🟢 跨家族 12/12 樣本不足(mistral-7b / yi-1.5 沒下載)
🟢 judge p99 latency(qwen2.5:7b 平均 8s,#01 偶發 56s,看是不是 cold start)

給跟著做的人三條提醒

Routing 滿分不要爽到忘了驗 worker。v3-v6 routing 滿分但 worker 全是 stub,直到 v7 加 expected_keywords 才看到 9/12 真實水準。reasoning eval 不必很完美(30% 閾值就有用),但有比沒有強得多。
在 LLM agent 內 fork 同類 LLM,環境隔離不能只靠 stdio。要 env-marker double-gate(L1 stdio + L2 環境偵測 short-circuit),否則子寫的稿會回流到父的對話視窗。任何「Claude Code fork Claude Code」「ChatGPT plugin call ChatGPT」這種設計都要警惕。
-nothink 後綴騙人,size 不是 axis。qwen35-9b-nothink:latest 跟其他 thinking model 同樣 0/12。新 model 來請跑 tools/check_new_model.py 30 秒 smoke + 12-prompt full,不要看 model card 標籤就決定收進候選池。
對稱性原則:input 過 sanitize,output 也要過 sanitize。即使 routing 100% 對、prompt 沒上雲,本地 LLM 自己會 verbatim 複述 PII / API key 在 response 裡——response 一旦被印 log、寄 ticket、走 webhook 就二次洩漏。Reasoning eval 必須加 forbidden_keywords 反向檢查,worker return 前也要再過一次 sanitize。

原始素材

Repo:tm731531/walsin-teams-validation
v3 overnight benchmark:docs/v3_overnight_benchmark.md
v4 few-shot breakthrough:docs/v4_few_shot_breakthrough.md
v5 五視角整合:docs/v5_external_review.md
v6 model trait checklist:docs/v6_model_trait_checklist.md
v7 全程回顧 + 自考卷:docs/v7_endtoend_and_summary.md

更新時間:2026-05-04 14:30(整合 v1 → v7 兩天 7 commits 重新編排)

2026 年 5 月 3 日

腦子系統小白指南:10 步驟從零做到完整 AI 工作流

重點摘要(TL;DR)

前 9 篇是給做過的人看的設計 / 實作 / 修補。本篇是給「沒做過、想做到那樣」的人 — 10 步驟從零到 v2.3 完整工作流。
10 步驟:裝 CC → 寫 CLAUDE.md → 開始 brain → spawn 1 agent → Agent Team 並行 → 行動端 → 加分級 → Gateway → Ollama → 完整 v2.3。每一步都能單獨用,合起來變成完整體系。
不需要一次做完。每一步停下來都能用,不會卡死。Step 1-3 是 1 週體感巨變,Step 4-6 是 Agent Team 開花,Step 7-10 是資安升級。
不是寫程式 tutorial,是工作流改造指南。每一步都跟你怎麼做事的方式有關 — brain 改你「怎麼累積知識」、Agent Team 改你「怎麼處理複雜任務」、Gateway 改你「怎麼處理敏感資料」。
本文是腦子系統第 10 篇 / 入門篇。前 9 篇連結在文末。

誰該讀這篇

有寫 code / 用 terminal 經驗,但沒系統性用過 AI 工作流
看過前面 9 篇覺得有道理,但不知道從哪開始
想做出完整 AI 工作流(腦子 + Agent Team + 跨平台 + 資安),不只是聊天用 ChatGPT
願意花 1-3 個月漸進改造,不追求一週搞定

不該讀這篇:完全沒寫過 code、沒用過 terminal — 那需要先補基礎(git / shell / markdown)。

終點長什麼樣(預覽)

10 步驟全部做完後,你的日常工作流會變成:

你 (Claude Code) — 設了 ANTHROPIC_BASE_URL → Gateway
   ├─ 普通 prompt → Gateway 看分級 → cloud / 地端 自動路由
   ├─ Spawn Agent Team(7 個 opus 並行)→ 每個 agent 走 Gateway,獨立分級
   ├─ 寫到敏感字 → 自動切地端,cloud 流量歸零
   └─ 行動端透過 ccbot / Telegram → 同樣經 Gateway

旁邊 brain 系統(~/.claude/projects/.../memory/)
   ├─ 全域規則 CLAUDE.md(自動載)
   ├─ 領域 brain markdown(LLM 看了知道踩過什麼坑)
   └─ 每個 brain 有 sensitivity_level: A/B/C
       └─ Gateway 自動同步字典做路由

實際感受:

寫 code 比以前快 3-5 倍(LLM 看過你 brain 不會犯重複錯)
複雜任務不用親自跑,7 個 agent 平行做,你 review 結果
不再擔心客戶資料貼進 ChatGPT(地端自動接管)
離開電腦也能繼續(手機 LINE / Telegram → ccbot → 你的工作流)

10 步驟總覽

Step	做什麼	時間	階段體感
1	裝 Claude Code(或 Cursor / Continue)	30 分鐘	能跟 LLM 對話寫 code
2	寫第一份 CLAUDE.md(規則層)	30 分鐘	LLM 開始遵守你的習慣
3	建立 brain markdown(知識層)	1 週累積	不再講同樣的話兩次
4	Spawn 1 個 agent(Agent Team 入門)	1 小時	學會把工作 delegate
5	多 agent 並行(Agent Team 進階)	1 小時	同時跑 7 個任務
6	行動端通訊(ccbot / 官方 channel)	1 小時	手機也能繼續工作流
7	加 sensitivity_level 分級(資安 1)	30 分鐘	brain 開始分敏感度
8	裝 Gateway(資安 2)	30 分鐘	prompt 自動分流
9	加 Ollama 地端(資安 3)	1 小時	A 級資料永不上雲
10	完整 v2.3(B 級脫敏 + tests)	半天	production-ready

關鍵:不要連續做完。Step 1-3 做完跑 1-2 週,習慣後再做 4-6,習慣後再做 7-10。跳級會崩潰。

Step 1:裝 Claude Code

Claude Code(以下簡稱 CC)是 Anthropic 官方的 terminal AI coding 工具。也可選 Cursor、Continue、OpenCode 等替代品 — 概念一樣,本文以 CC 示範。

# macOS / Linux,需要 Node 18+
npm install -g @anthropic-ai/claude-code

# 登入(用 Anthropic 帳號 OAuth 或 API key)
claude

# 在某個專案資料夾跑
cd ~/your-project
claude

其他工具的安裝請查官方 docs:Claude Code Quickstart / Cursor / Continue / OpenCode。

第一個 prompt 試試:

$ claude
> 看一下這個專案的 README,告訴我是做什麼的

能讀檔、回應 — 你已經在 step 1。跑幾天感受 LLM 怎麼讀你的 codebase。

Step 2:寫第一份 CLAUDE.md(規則層)

CC 會自動讀你 home 目錄下的 ~/.claude/CLAUDE.md(全域規則)+ 專案根目錄的 ./CLAUDE.md(專案特定)。這就是「腦子」第一層。

# 寫第一份(全域)
mkdir -p ~/.claude
cat > ~/.claude/CLAUDE.md << 'EOF'
# 全域規則

## 我的習慣
- 一律用繁體中文回應
- code 不寫超過必要的註解
- commit message 用 feat: / fix: / docs: prefix

## 我的環境
- macOS / Linux mini PC
- Python 3.12 / Node 20

## 不要做的事
- 不要主動 git commit(等我說才 commit)
- 不要安裝 dev dependency 沒問過
EOF

馬上感受差別:重啟 CC,再問同樣問題,LLM 已經會用中文回 + 不會自作主張 commit。這就是規則層的價值 — 你不用每次重複講。

原則:條目少而精,3-10 條最好。寫 30 條沒人記得住(包括 LLM)。

Step 3:開始寫 brain markdown(知識層)

規則是「你想要什麼」。Brain 是「你踩過什麼坑」。

mkdir -p ~/.claude/projects/your-project/memory/brain

第一份 brain 範例(假設你寫過 Kafka 踩過坑):

cat > ~/.claude/projects/your-project/memory/brain/kafka.md << 'EOF'
---
name: kafka
type: technical
---
# Kafka 我踩過的坑

## consumer rebalance 一直跑
- 症狀:consumer group 每隔幾分鐘 rebalance,訊息處理停頓 30 秒
- 原因:max.poll.interval.ms 預設 5 分鐘,業務邏輯處理超過會觸發
- 解法:max.poll.interval.ms 拉到 15 分鐘 + 業務邏輯拆 batch

## 訊息順序錯亂
- 同一個 partition 才保證順序
- 多 partition 一定要設 partition key(預設 hash key)
EOF

更新 CLAUDE.md 引用 brain:

echo "
## Domain Brain
- [Kafka](projects/your-project/memory/brain/kafka.md)
" >> ~/.claude/CLAUDE.md

累積策略(關鍵):每次踩坑後 5 分鐘寫進對應 brain。不要等月底整理一次 — 那永遠不會發生。

1 週後感受:LLM 開始知道「Kafka 你不會犯哪些錯」「OSGi 你踩過哪些雷」。同樣 prompt 一個月前要解釋 5 分鐘,現在 LLM 直接 hit brain 給對的答案。

Step 4:Spawn 一個 agent(Agent Team 入門)

到這步你已經會用 LLM 寫 code + 累積 brain。下一個跨越:讓 LLM 派出小弟做事。

CC 內建 Agent tool。在 CC 裡:

> 派一個 agent 看 ~/myproject/src/ 底下所有 .py 檔,
  找出沒寫 type hint 的函式,列清單給我

CC 會 spawn 一個 sub-agent,sub-agent 自己跑 grep / read,跑完回報。你不用看那 100 個檔。

啟發點:任何「我想做但要花 1-2 小時看資料的事」都可以 delegate。你變成 manager,不是 doer。

Step 5:多 agent 並行(Agent Team 進階)

真正威力:並行 spawn 多個 agent。

> 同時派 7 個 agent:
   1. agent A: review 我新寫的 OAuth 模組安全
   2. agent B: 看 .github/workflows 有沒有 CI 改進空間
   3. agent C: 找 README 跟實際 code 不一致的地方
   4. agent D: 算這個 codebase 的 test coverage
   5. agent E: 看 dependencies 有沒有過期
   6. agent F: 列所有 TODO 註解
   7. agent G: 找硬編碼的密碼 / token

7 個並行,2 分鐘後給我一份 dashboard

CC 會用 Agent tool 並行 spawn 7 個,各自獨立 context、各自查資料、回報。這是傳統工作流不可能做到的。

記憶體規則:LLM 推理在 cloud,本機跑的是 CC sub-agent process 本身。粗估每個 opus agent ~1 GB / sonnet ~600 MB / haiku ~400 MB,7 個 opus 並行 ~7 GB,先 free -h 確認 available 夠 +2 GB buffer。16 GB 機器跑得動但要關掉其他大耗 RAM 程式,32 GB 比較舒服。
真正吃 RAM 的是本地 LLM:Step 9 的 Ollama 跑 14b 模型要 ~10 GB,跟 sub-agent process 加起來才是負載 — 16 GB 機器若同時跑 7 個 opus agent + Ollama 14b 會 swap 重災,建議改 7b 級模型或升級到 32 GB+。

Step 6:行動端通訊(ccbot / 官方 channel)

到這步你已經是 desktop power user。下一步:離開電腦也能繼續工作流。

兩個選項:

官方 channel(2026/3 Anthropic 推出):MCP server 接 Telegram / Discord / iMessage,設定簡單。官方文件
ccbot(six-ddc/ccbot):Telegram 接 tmux,decouple from SDK,1 個 Telegram topic = 1 個 tmux window = 1 個 CC session

ccbot 安裝:依官方 README(因為安裝方式可能更新)— https://github.com/six-ddc/ccbot。流程大致是:

去 Telegram @BotFather 申請 bot token + 開 Threaded Mode
依 README 用 uv tool install 或 pipx install 裝 ccbot
設 TELEGRAM_BOT_TOKEN + ALLOWED_USERS 環境變數
裝 hook 讓 CC tmux session 自動連 Telegram

官方 channel 安裝(2026/3 Anthropic 推出):依 Claude Code Channels 官方文件,設定更簡單,但只支援 Anthropic 官方 endpoint。

感受:通勤路上想到 bug,Telegram 一句話 → ccbot → 桌機 CC 開始跑 → 你下車回家結果已在。
(ccbot 限 Telegram;若用 LINE,需自己寫 LINE bot bridge,或改用官方 channel 接 iMessage / Discord)

Step 7:加 sensitivity_level 分級(資安第 1 道)

到這步你 brain 累積了不少。但有些 brain 含敏感資訊(客戶名、家裡網路、內部專案代號)。一旦 LLM 走 cloud,這些就送出去了。

第一道防線:brain frontmatter 標 sensitivity_level。

# brain/kafka.md(技術知識,公開可用)
---
name: kafka
type: technical
sensitivity_level: C   # 純技術,可上 cloud
---

# brain/client_alpha_oncall.md(客戶資料)
---
name: client_alpha_oncall
type: business_incident
sensitivity_level: A   # A 級,絕對不上 cloud
---

分級原則:

A 級:洩漏會出事(客戶名 / 家裡 IP / 個資 / 合約 / 配方)
B 級:能脫敏後送 cloud(內部 process 名 / 員工名)
C 級:純技術 / 開源 / 公開知識

這步看起來只是改 frontmatter,但 讓你開始用「分級」眼光看資訊,為下一步 Gateway 鋪路。

(Step 8 後回來做)從 brain 自動同步到 Gateway 字典

等 Step 8 把 Gateway clone 下來後,回頭做這個同步,讓 brain 跟 Gateway 用一份字典:

# 從所有 A 級 brain 抽 placeholder(例 [client_xxx] / [project_xxx])
grep -h "sensitivity_level: A" -A 100 ~/.claude/projects/*/memory/brain/*.md \
  | grep -oP '\[client_\w+\]|\[project_\w+\]|\[employee_\w+\]' \
  | sort -u > ~/walsin-gateway/A_keywords.txt

# 改 gateway_v2_cc.py 的 A_KEYWORDS list 從檔案 load:
#   A_KEYWORDS = open(os.path.expanduser("~/walsin-gateway/A_keywords.txt")).read().splitlines()
# 取代原本 hardcoded 的 ["[client_alpha]", ...]

核心想法:一個 sensitivity_level 欄位,brain 跟 Gateway 兩邊都用 — 不用手動維護兩套字典。

Step 8:裝 Gateway(資安第 2 道)

分級標好了,但 LLM 不會自動知道。需要 Gateway 在「prompt 命中 A 級字典」時把 LLM 流量切到地端。

用我寫的 v2.3 版(674 行 FastAPI):

# clone Gist
gh gist clone c82c51ae2a73bfe640dec5b61e5a542a walsin-gateway
cd walsin-gateway

# 裝套件
pip install --user fastapi uvicorn httpx tiktoken

# (若已做 Step 7 字典同步)Gateway 自動讀 ~/walsin-gateway/A_keywords.txt
# (還沒做)先用 gateway_v2_cc.py 預設的字典,跑通後再回頭做 Step 7 同步

# 啟動(必設 MASTER_KEY,用 export 不能用 inline env)
export MASTER_KEY=sk-$(openssl rand -hex 16)
echo "記下這把 key,別 commit、別寫進 tracked .env: $MASTER_KEY"

# 啟動 Gateway 背景跑
python3 gateway_v2_cc.py &

# CC 切過去
export ANTHROPIC_BASE_URL=http://localhost:4000
export ANTHROPIC_AUTH_TOKEN=$MASTER_KEY

從此你 prompt 命中字典 → 自動切地端。但這時還沒裝 Ollama,只是 Gateway 就位。完整體驗看 Step 9。

⚠️ 安全提醒(必看):Gateway 預設 bind 0.0.0.0(所有網卡),若你跑在筆電或公共 wifi,別人掃到 port 4000 就能試你的 master key,把 Gateway 當公網 proxy 借走你的 Anthropic API 額度。本機開發必須鎖回 127.0.0.1:編 gateway_v2_cc.py 末段的 uvicorn.run(...),把 host="0.0.0.0" 改成 host="127.0.0.1"。公網部署需 reverse proxy + TLS + 第二層 auth,不在本指南範圍。

Step 9:加 Ollama 地端(資安第 3 道)

# 裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉模型(看你硬體)
ollama pull qwen3:14b      # 14B,中等強度,16GB RAM 跑得動
ollama pull qwen3:1.7b     # 輕量,當 fail-safe

到這步,完整路由生效:

你寫「客戶 X 的訂單問題」→ Gateway 命中 A 級 → Ollama 14b 處理 → 不出本機
你寫「Kafka rebalance 怎麼解」→ Gateway 沒命中 → cloud Claude → 全速 Opus 4.7

實際感受:95% 工作跟原本一樣爽,只有 5% 命中字典的會慢一點 — 但那些任務本來就不該上雲。

Step 10:完整 v2.3(B 級脫敏 + tests)

v2.3 額外有:

B 級脫敏 fallback:中等敏感資料,地端壞了能脫敏後送 cloud(B 級走 cloud 時 response 帶 X-Gateway-Sanitized: 1 header)
Auth 防 substring 攻擊:secrets.compare_digest 精確比對
SSE byte-stream 直通:streaming 不變形
24 個 pytest:跑 pytest test_gateway.py -v 全綠才上線
benchmark_runner.py:多模型對比 runner
demo_record.sh:asciinema 60 秒 demo 自動化

跑 pytest 的前提:

pip install --user pytest pytest-asyncio
cd ~/walsin-gateway
# sk-test-secret 是 test fixture 預設值;真實使用換成 openssl rand -hex 16 產生的 key
MASTER_KEY=sk-test-secret python3 -m pytest test_gateway.py -v
# 應看到 24 passed

到這步你的工作流是 production-ready 的。能拿給公司 IT 看,有立場提內部 PoC。

不同階段你會得到什麼(別跳級)

完成 Step	你的 superpower	建議停留
1-3	LLM 認得你的習慣 + 不再重複講同樣的話	2 週
4-5	manager 模式 — delegate 而不是 do	2 週
6	脫離桌機,工作流跟著你走	1 週
7-9	敏感資料 + AI 生產力可同時擁有	2 週
10	production-ready,可推給公司	穩定使用

最常見的失敗模式:跳級。沒寫過 brain 就裝 Gateway → 字典空的,Gateway 沒用;沒玩過 Agent Team 就跑 7 個 agent → 機器 OOM 崩潰。每階段穩了再下一階段。

跟前 9 篇對應

本篇 Step	對應九部曲深入閱讀
1-3 規則 + brain	第 1 篇 (Why) + 第 2 篇 (How)
4-5 Agent Team	第 4 篇 (Tools) Harness 段
6 行動端	第 4 篇 (Tools) 的 ccbot / 官方 channel 段
7 分級	第 7 篇 (ISO) A/B/C 分級
8-9 Gateway + 地端	第 9 篇 (Proof) 完整 v2.3
10 完整 production	所有篇章 + Gist 完整 code

踩坑警告(過來人提醒)

❌ 不要先看 9 篇藍圖再開始 — 會被嚇到動彈不得。先做 Step 1-3,有感再看藍圖
❌ 不要追求完美 brain — 寫得醜但有資訊比寫得漂亮但沒人看好
❌ 不要 spawn 太多 agent — 機器 RAM 16GB 跑 7 個 opus 會 OOM,先 free -h 確認
❌ 不要把 Iron Rules 寫 30 條 — 沒人記得住,3-10 條最好
❌ 不要 Step 8 Gateway 上線就斷網 — 沒設 ANTHROPIC_API_KEY 時 fallback 地端,但本來工作流可能有依賴 cloud 的習慣,慢慢適應
❌ 不要假裝 Agent Team 取代 review — agent 出的東西還是要看,他們是 fast doer 不是 quality gate

結語:不要追求一週搞定

10 步驟看似可以一週做完,但每一步的「習慣養成」需要時間。

Step 3 累積 brain 你會經歷「寫了 5 個又懶了」「再撿起來」「逐漸變成反射」。沒這 3 週適應期,Step 4 派 agent 你會不知道讓他做什麼。

Step 5 並行 agent 你會經歷「派 7 個但 review 不過來」,然後學會「派 3 個但每個任務切清楚」。這也是要時間。

這篇文章是地圖,不是腳本。照走 1 個月,你會擁有跟前 9 篇文章作者一樣的工作流。再走 3 個月,你會發展出自己的版本,可能比這個更好。

這就是「我可以怎麼做到現在這樣」的答案。10 步驟,1-3 個月,從零到 v2.3。

腦子系統實證篇:本地 Gateway 完整實作版(v2.3,674 行真能接 CC)

重點摘要(TL;DR)

前 8 篇是藍圖。本篇是實作真實版:在 Mini PC(無 GPU、32GB RAM、Ryzen 7)用 364 行 FastAPI 跑通搬離方法論,真能接 Claude Code。
核心邏輯:Gateway 看 prompt 內容,命中 A 級字典 → 地端最強模型(14b);其他 → cloud Claude(若有 API key)或 fallback 地端。
關鍵設計原則(別搞錯):A 級資料用地端最強模型,不是最弱。敏感資料因為更重要,需要更可靠的回答。小模型只能當分類器或 fail-safe。
真接 CC 的關鍵:用 Anthropic 原生 /v1/messages endpoint,不是 OpenAI 的 /v1/chat/completions,並做完整翻譯層(request / response / tool use / SSE)。
Harness 三 agent 永遠走 cloud(地端跑不動三 agent 並行 + long context),只是輸入經 Gateway 強脫敏 — 這是搬離後最關鍵的工作流保護。
本文是腦子系統九部曲實證篇。前八篇:Why / How / Scale / Tools / ERP / Self-Service / ISO / Execution。

一、為什麼寫這篇 — 從藍圖到實作真實版

前 8 篇腦子系統累積了大量「應該怎樣」的論述:Why / How / Scale / Tools / ERP / Self-Service / ISO / Execution。對真正要動手的人,這些都還是紙上的東西。

本篇是分水嶺 — 用一台 Mini PC(沒 GPU,32GB RAM,Ryzen 7 4700U,2020 年款)跑通可以真的接 Claude Code 的搬離 Gateway,證明:

不需要 GPU,純 CPU 也能 host gateway logic
不需要 LiteLLM / Portkey 等大框架,純 Python 364 行搞定
不需要 ANTHROPIC_API_KEY 也能跑(有 fallback 模式)
CC + Agent Team + Harness 工作流不變,只改 BASE_URL

二、5 條設計原則(別搞錯)

原則 1:A 級資料地端,不可協商

A 級的定義是「送出去會出事」 — 客戶機密、財報、製程 know-how。這個層級不能因為 cloud 模型強就送出。地端是底線。

原則 2:A 級用地端最強模型,不是最弱

這條最容易搞錯。直覺是「敏感資料 = 風險高 = 用小模型」,但 logic 應該倒過來:敏感資料因為更重要,需要更可靠的回答。

情境	地端模型選擇	理由
A 級主處理	地端最強(14b / 32b / 80B-A3B)	資料越敏感,回答越要可靠
分級判斷器	小模型(0.5b / 1.7b)or regex	分類本身不需要強能力
Fail-safe 容錯	小模型保守路由	寧可路由保守不要錯放

原則 3:路由邏輯走字典 + regex,不靠 LLM

分級判斷不該交給 LLM(慢、不確定、可被 prompt injection 騙)。改用字典 + regex,毫秒級完成,可審計。

原則 4:Anthropic 原生 endpoint(/v1/messages),不是 OpenAI 的 /v1/chat/completions

CC 用 Anthropic Messages API,你 Gateway 必須 expose /v1/messages,不是 OpenAI 的 endpoint。並且做完整 Anthropic ↔ OpenAI 翻譯(因為地端 Ollama 用 OpenAI compatible 格式)。

原則 5:沒 API key 也能跑(fallback 地端)

Gateway 設計成:有 ANTHROPIC_API_KEY 就 C 級走真 cloud Claude;沒有就 fallback 走地端。讓你能純地端先驗證 logic,再加 cloud。

2.1 雙維度決策表(敏感度 × 可用性)— 別搞混

fallback 不只看「cloud 有沒有 key」,還要看「資料能不能上 cloud」。雙維度決策才完整:

分級	主路由	Fallback	關鍵保護
A 級	地端最強(14b/32b/80B)	沒 fallback — 地端跑不動 = 等 / 改題目	即使有 cloud key 也不走 cloud
B 級	地端優先	地端不可用 → 脫敏後 cloud	能脫敏才 fallback,不能脫敏寧願報錯
C 級	cloud 優先	沒 key → 地端	純技術問題,無敏感度

常見誤解:有 cloud key 就什麼都走 cloud。錯。A 級即使有 key 也不該走 cloud — 因為「資料外洩風險 > 模型能力差異」。Gateway 的職責就是替你擋住這個誘惑:你 prompt 命中 A 級字典,Gateway 不問你「要不要送 cloud」,直接路由到地端。

本版實作狀態:A 級 + C 級已實作完整;B 級的「地端優先 + cloud fallback + 脫敏」是 TODO,本版 B 級 keyword 命中時邏輯等同 A 級(全地端)。完整 B 級實作見最末「待補的東西」章節。

三、364 行 Gateway 完整實作

結構:

gateway.py(364 行)
├─ Classifier              (~30 行)— 抽 messages 文字 + 字典命中
├─ Anthropic→OpenAI Req    (~80 行)— system / messages / tool_use / tool_result 翻譯
├─ OpenAI→Anthropic Resp   (~40 行)— content blocks / stop_reason / usage
├─ SSE Streaming           (~40 行)— 6 種 Anthropic 事件 from OpenAI delta
├─ Backend Forwarders      (~80 行)— Ollama / Anthropic 雙路 forward + fallback
└─ Main Endpoint           (~30 行)— /v1/messages,分類後派到對應 forward

3.1 核心邏輯(主要 dispatcher)

@app.post("/v1/messages")
async def messages(request: Request):
    auth = request.headers.get("authorization", "")
    if MASTER_KEY not in auth and not ANTHROPIC_API_KEY:
        raise HTTPException(401, "bad master key")

    body = await request.json()
    original_model = body.get("model", "claude-opus-4-7")
    decision, keyword = classify(body.get("messages", []), body.get("system"))

    if decision == "A":
        log.warning(f"[A-LEVEL] 命中 '{keyword}' → 地端 {MODEL_A_LEVEL}")
        return await forward_to_ollama(body, MODEL_A_LEVEL, original_model)
    else:
        log.info(f"[C-LEVEL] → cloud {original_model}" if ANTHROPIC_API_KEY else f"[C-LEVEL] no key → local fallback")
        return await forward_to_anthropic(body, request, original_model)

3.2 Anthropic ↔ OpenAI 翻譯的 4 個關鍵點

# 1. Anthropic system 是 top-level → OpenAI 是 system message
sys = body.get("system")
if isinstance(sys, str):
    openai_messages.append({"role": "system", "content": sys})

# 2. Anthropic tool_use 是 content block → OpenAI 是 message 上的 tool_calls
if btype == "tool_use":
    tool_calls.append({
        "id": block["id"],
        "type": "function",
        "function": {"name": block["name"],
                     "arguments": json.dumps(block["input"])}
    })

# 3. Anthropic tool_result 在 user message 內 → OpenAI 是 role:tool 獨立 message
if btype == "tool_result":
    openai_messages.append({
        "role": "tool",
        "tool_call_id": block["tool_use_id"],
        "content": str(result_content)
    })

# 4. SSE 翻譯:OpenAI delta 累積 → Anthropic 6 種事件
#    message_start → content_block_start → content_block_delta(每個 token)
#    → content_block_stop → message_delta(stop_reason)→ message_stop

3.3 Forwarder(雙路 + fallback)

async def forward_to_ollama(body, target_model, original_model):
    """A 級 → 翻譯成 OpenAI format,forward to Ollama 地端強模型。"""
    openai_body = anthropic_to_openai_request(body, target_model)
    is_stream = openai_body.get("stream", False)
    if is_stream:
        return StreamingResponse(stream_anthropic_from_openai(...))
    async with httpx.AsyncClient(timeout=600) as client:
        r = await client.post(f"{OLLAMA_URL}/v1/chat/completions", json=openai_body)
    return JSONResponse(openai_to_anthropic_response(r.json(), original_model))


async def forward_to_anthropic(body, request, original_model):
    """C 級 → 直接 proxy 到 api.anthropic.com,沒 key 就 fallback 地端。"""
    if not ANTHROPIC_API_KEY:
        return await forward_to_ollama(body, ANTHROPIC_FALLBACK_MODEL, original_model)
    headers = {"x-api-key": ANTHROPIC_API_KEY, "anthropic-version": "2023-06-01"}
    if body.get("stream"):
        # SSE 直接透傳(Anthropic format,不用翻譯)
        return StreamingResponse(...)
    async with httpx.AsyncClient(timeout=600) as client:
        r = await client.post("https://api.anthropic.com/v1/messages", json=body, headers=headers)
    return JSONResponse(r.json())

v2.3 完整 Gist(674 行 gateway + 24 個 pytest + benchmark + demo + README,5 個檔案):
👉 https://gist.github.com/tm731531/c82c51ae2a73bfe640dec5b61e5a542a

Gist 含 README + 5 步驟啟動 + 測試 curl 範例 + 已知限制。clone 下來改字典即可用。

3.1 v2 → v2.1 changelog(review 後修)

v2 上 Gist 後又收到 review,點出 3 個有實際影響的 bug,其中 1 個是安全問題。**全修了**:

🔴 Bug 1(安全):Auth 邏輯反了 — 原本「沒設 cloud key 才檢查 master_key」意思是「接了 cloud 反而不檢查」,任何人能燒你 quota。修法:無條件檢查 master_key,並兼容 x-api-key + Authorization: Bearer 兩種 header。實測 no-key/wrong-key 都回 401
🔴 Bug 2(功能):Streaming 模式 tool use 完全不工作 — 原本 stream_anthropic_from_openai 只翻譯 text delta,沒處理 delta.tool_calls。CC 的 Read/Edit/Bash 都是 tool use → A 級 + streaming 時 CC 卡住。修法:加 tool_calls delta 累積邏輯,追蹤 tool_call_index → our_block_index mapping,送 content_block_start (tool_use) + input_json_delta 事件序列。約 +60 行
🟡 Bug 3:streaming 模式 stop_reason 寫死成 end_turn,即使 OpenAI 端因 max_tokens 截斷或 tool_calls 收尾也誤標。修法:streaming 過程累積最後 finish_reason,結束時用真實值映射(stop→end_turn / length→max_tokens / tool_calls→tool_use)
+ 結構改進:content blocks 改 lazy open(只在真有內容時送 content_block_start),text 跟 tool 可正確交錯;dead import 清掉;docstring 改寫(原版誤稱用 sse-starlette)

從 v1(80 行,描述跟 code 矛盾) → v2(364 行,文字宣稱) → v2 Gist(394 行,實際存在但 3 bug) → v2.1(502 行,bug 修完)。三天四個版本,每一輪 review 都點出真實問題。這個迭代過程本身就是 brain 系統「review-driven development」的最佳示範。

四、CC + Agent Team + Harness 三件事的協作

4.1 CC 接 Gateway(0 行 code 改動)

# Terminal 設環境變數
export ANTHROPIC_BASE_URL=http://localhost:4000
export ANTHROPIC_AUTH_TOKEN=sk-walsin-test

# 跑 CC 跟原本一樣
claude

CC 完全不知道後面接的是 Gateway。所有 prompt 自動經分類 → 路由。

4.2 Agent Team 走 Gateway(子進程繼承 BASE_URL)

你在 CC 裡 spawn 7 個 opus agent 並行 — 每個 sub-agent 共用同一個 BASE_URL(從父 process 繼承)。Gateway 對每個 agent 的 prompt 獨立分類:

你 (CC main)
├─ Agent 1 (opus): "review 這份 SAP API 設計"  → C 級 → cloud Claude
├─ Agent 2 (opus): "找 [client_alpha] 客訴 case" → A 級 → 地端 14b
├─ Agent 3 (opus): "寫 Kafka consumer"          → C 級 → cloud Claude
├─ Agent 4 (opus): "看 [project_xxx] 的合約"    → A 級 → 地端 14b
├─ Agent 5-7 (opus): 其他 C 級任務              → cloud Claude

大多數 Agent Team 任務不命中 A 級字典,99% 體感跟原本一樣。少數命中的會走地端,慢一點但隔離。

4.3 Harness 三 agent — 永遠走 cloud(關鍵保護)

Anthropic 2026/3 發布的三 agent harness(Planner / Generator / Evaluator)是給 cloud 設計的。地端 80B-A3B 跑三 agent 並行 = GPU 排隊,根本跑不動。

正解:Harness 永遠走 cloud,但輸入經 Gateway 強脫敏。

用戶: "幫我 refactor [project_xxx] 的支付模組"
    ↓
Gateway 偵測 [project_xxx](A 級字典)
    ↓
若強脫敏成功 → "幫我 refactor [PROJECT] 的支付模組" → cloud Claude(三 agent)
若無法脫敏 → 整個任務改地端 14b sequential 跑(慢但安全)
    ↓
Planner: 拆 task → Generator: 寫 code → Evaluator: 檢查
    ↓
結果經 Gateway 回到用戶

Harness 的價值在 long context + 複雜 reasoning,地端在這兩點本就弱。硬搬就是自虐。脫敏走 cloud 才是對的策略。

4.4 三件事的協作全景

你 (CC main session, ANTHROPIC_BASE_URL=gateway)
    │
    ├─ 普通 prompt → Gateway → 路由 → 對應 backend
    │
    ├─ Spawn Agent Team(7 個 opus 並行)
    │   ├─ 每個 sub-agent 繼承 BASE_URL
    │   ├─ Gateway 對每個 prompt 獨立分類
    │   └─ A 級走地端 14b,C 級走 cloud Claude
    │
    └─ Spawn Harness(Planner / Generator / Evaluator)
        ├─ 三 agent 共用 BASE_URL
        ├─ Gateway 強制路由全 cloud(脫敏後)
        └─ 因為地端跑不動三 agent 並行

五、Brain 系統整合(sensitivity_level frontmatter)

你的 brain markdown 系統(~/.claude/projects/.../memory/)是搬離的核心資產。整合方式:

5.1 brain frontmatter 加分級欄位

# 一般 brain(C 級,可上 cloud)
---
name: kafka_consumer_pattern
type: technical
sensitivity_level: C
---
Kafka consumer 群組 rebalance 機制...

# 敏感 brain(A 級,只地端 + 強模型)
---
name: client_alpha_oncall_pattern
type: business_incident
sensitivity_level: A
applies_to: [bu_xxx]
---
[client_alpha] 客訴流程,聯絡窗口...

5.2 build.sh 編譯時依分級過濾

#!/bin/bash
# 編譯雙版本 CLAUDE.md

# Cloud-bound CLAUDE.md(沒 A 級)
find brain/ -name "*.md" \
  | xargs grep -L "sensitivity_level: A" \
  | xargs cat > .claude/CLAUDE.md.cloud

# Local-bound CLAUDE.md(全部,A 級也進)
cat brain/**/*.md > .claude/CLAUDE.md.local

# Gateway 看員工任務目標選對應 CLAUDE.md

5.3 brain 的 A 級關鍵字自動同步到 Gateway 字典

# 從所有 A 級 brain 抽出 client name / project code 等
grep -h "sensitivity_level: A" -A 20 brain/**/*.md \
  | grep -oP '\[client_\w+\]|\[project_\w+\]' \
  | sort -u > /tmp/A_keywords.txt

# Gateway 啟動時 load
A_KEYWORDS = open("/tmp/A_keywords.txt").read().splitlines() + DEFAULT_A_KEYWORDS

5.4 公開版 brain repo 自動過濾

如果你的 brain 有公開版(教學分享 / 開源),build script 自動排除 sensitivity_level: A 條目,只發 B / C。不用手動審 brain 是否能公開。

這是brain 系統跟 Gateway 的接合點:你寫 brain 時標分級,Gateway 自動知道哪些字串該擋,公開版自動過濾。一個 frontmatter 欄位,三個地方用。

六、放大邏輯 — 個人 → 80 人 → 萬人

面向	個人(本文實證)	80 人公司	萬人集團
Gateway 實作	364 行 FastAPI	LiteLLM Docker	K8s HPA + Portkey
A 級字典	3-10 個關鍵字	100 個	1000+ 自動同步 brain
A 級 backend	Ollama Qwen3:14b(CPU)	Ollama Qwen3:32b(1x 4090)	中央 GPU H100 跑 80B-A3B + 區域副本
C 級 backend	cloud Claude(個人 API key)or fallback 地端	Anthropic Enterprise	Anthropic Enterprise + Azure / Bedrock 多家
脫敏	無	字典 + regex	Microsoft Presidio + LLM 兜底
認證	master key	員工 SSO	SSO + Token Impersonation
Audit log	stdout	SQLite / OpenSearch	三軌制 + WORM + HSM mapping
治理	0	Working Group	三道防線
時程	30-60 分鐘	2-3 個月	12 個月
預算	0	~30 萬 NTD	4000-6000 萬 NTD

核心邏輯一模一樣(看 prompt → 字典分類 → 路由)。差的只是:

規模(字典條數、並發、儲存)
治理(Working Group、三道防線、ISO 認證)
合規(SOX / J-SOX / 個資法 / GDPR)
能力 backend(14b vs 80B-A3B)

七、能力降級補償策略

實際擔心:地端模型比 Claude Opus 4.7 弱,搬完會不會生產力崩?

實話:會降,看你會不會用補償工具。具體 benchmark 沒跑(個人 mini PC 沒 GPU 跑不了 32B+ 對比),但業界經驗的補償清單:

地端弱的地方	補償工具	效果
Long context 弱	RAG (Chroma / Qdrant) + chunking	context 不全進 LLM,只進 top-K
Reasoning 弱	Chain-of-thought structured prompt	強制分步,單步難度降
Tool use 不穩	function calling 限縮 5-10 個 tools	減少選擇,提升正確率
並行 Agent 跑不動	改 sequential workflow	一個跑完再下一個
跨檔 refactor 弱	限定 working set(≤ 5 檔)	降低 context
Memory 弱	brain markdown 強制 inject	永遠帶 context

而且這只用在 5% A 級任務,其他 95% 還是 cloud。整體生產力下降可控,具體百分比待 SWE-bench Lite 子集 + 真實工作流 case 量化。

八、5 步驟讓你今晚就跑起來

裝 Ollama + 拉模型:

ollama pull qwen3:14b      # A 級主處理(地端最強)
ollama pull qwen3:1.7b     # 可選,當分類器 fail-safe

裝 Python 套件:

pip install --user fastapi uvicorn httpx

存 364 行 gateway.py(本文第三章 + 完整版見 GitHub Gist)

跑起來:

# 沒 API key 也能跑(fallback 地端)
python3 gateway.py &
curl -s http://localhost:4000/health   # 確認 OK

# 有 API key 完整版
ANTHROPIC_API_KEY=sk-ant-... python3 gateway.py &

CC 切過去:

export ANTHROPIC_BASE_URL=http://localhost:4000
export ANTHROPIC_AUTH_TOKEN=sk-walsin-test
claude   # 跟原本一樣寫 code

30-60 分鐘搞定。設定完後 99% 工作跟原本一樣,只有 prompt 命中 A 級字典時自動切地端。

九、跑不起來時會看到什麼(失敗模式排查)

Gist 證明能跑,失敗模式證明跑過。下面是實作過程實際踩過的 7 個錯誤:

錯誤訊息 / 症狀	根本原因	排查指令
`connection reset by peer` + log 完全空	Container 還在 init(LiteLLM 啟動慢 30s-1min),或 Python stdout buffering	`docker exec <container> ps auxf` 看 PID 1 是否還在跑;加 `PYTHONUNBUFFERED=1`
`404 Not Found` from CC	Gateway 用 OpenAI `/v1/chat/completions`,CC 打 Anthropic `/v1/messages`	看 Gateway log 有沒有「POST /v1/messages」;改用本文 Anthropic 原生 endpoint
`httpx.ReadTimeout` 在 forward_to_ollama	Ollama 模型在 CPU 第一次 load 太慢(超過 timeout)	`ollama run <model> "warm"` 先暖機;timeout 從 300 改 600
`OCI runtime exec failed: "curl" not found`	LiteLLM image 沒裝 curl,內部 health check 工具有限	用 host 端 curl 測 `http://localhost:4000/health` 不要 docker exec
`{"detail": "bad master key"}`	CC 設了 ANTHROPIC_AUTH_TOKEN 但 Gateway 沒 match	`echo $ANTHROPIC_AUTH_TOKEN` 跟 Gateway 的 MASTER_KEY 對
CC 卡住沒回應(streaming 不出來)	SSE 翻譯漏了 `message_stop` 事件,client 等不到結束	Gateway log 看最後送出的 event;確認 6 種事件全送(`message_start` → `content_block_start/delta/stop` → `message_delta` → `message_stop`)
A 級 prompt 沒命中字典(看到走 C 級)	字典 keyword 是 case-sensitive 漏了 `re.IGNORECASE`,或字典裡沒這條	`curl -s gateway.../health` 看 keywords_count;`echo $PROMPT \| grep -i <keyword>`

十、Gist 上線前檢查清單(13 條)

從文章第一版到本版踩過的所有雷,清單化:

Authorization header 兩種格式都要兼容:CC 可能送 x-api-key: xxx 或 Authorization: Bearer xxx,Gateway 都要認
anthropic-version header 別漏:Anthropic API 要求 anthropic-version: 2023-06-01(或更新),proxy 過去要保留
system 欄位三種型別都要處理:Anthropic 的 system 可以是 string、list of {type:text,text:…},或 unset
tool_use ID 不能掉:翻譯後對應的 tool_calls 要保留同一個 ID,不然 client 對不上 tool_result
tool_result 在 user message 內,翻譯後要拆成獨立 role:tool message
SSE 6 個事件全送:message_start → content_block_start → content_block_delta(每個 token)→ content_block_stop → message_delta → message_stop,漏一個 client 卡死
SSE event 名稱要寫 event:,data: 兩行:不是只送 data,Anthropic SSE 格式有 event 名
Ollama 連線斷掉時 fallback 邏輯不能 race:用 try/except 包 forward_to_ollama,失敗才 fallback,不要兩個 task 同時跑
timeout 要設 600 秒以上:CPU 跑 14b 慢,300 秒會 timeout
master_key 預設值不要外洩:Gist 上的 sk-walsin-test 是 placeholder,部署前換掉
A 級字典不能放 secret:keyword 本身會出現在 log,別放真實 client name(用 placeholder 例如 [client_alpha])
health endpoint 不檢查 master_key:不然 monitoring 工具會 401
關 Gateway 用 SIGTERM 不要 SIGKILL:kill 不加 -9 讓 uvicorn 優雅關閉,避免 streaming response 中斷

十一、TODO 全部 close(v2.2 update)

原本標的 4 個 TODO 全做完了,本版升 v2.2(620 行)。逐項說:

原 TODO	v2.2 處理	行數
B 級「地端優先 + cloud fallback + 脫敏」	✅ 完整實作:`ollama_alive()` 健康檢查 → 失敗 `sanitize_anthropic_body()` → fallback cloud;sanitize 沒命中拒絕(503)	+90 行
Benchmark	✅ `benchmark_runner.py` 獨立檔(258 行):跑 SWE-bench Lite 子集 + 自家 prompts × 多 model,輸出 markdown 報表。不打分,只跑數據(讓人類自己判斷,避免 premise drift)	258 行新檔
Asciinema 60 秒 demo	✅ `demo_record.sh`:health → C 級 → A 級 → auth fail 4 個 step,可直接跑或 `asciinema rec -c` 包起來錄影	110 行新檔
Token usage 真實計算	✅ 用 tiktoken 估算累積 text + tool args,取代原本的 chunk count(嚴重低估)	+20 行

11.1 v2.1 → v2.2 主要新邏輯

elif decision == "B":
    # v2.2 完整 B 級實作
    if await ollama_alive():
        return await forward_to_ollama(body, MODEL_B_LEVEL, original_model)

    # 地端死了,看能不能 fallback cloud
    if not (ANTHROPIC_API_KEY and B_LEVEL_CLOUD_FALLBACK):
        raise HTTPException(503, "B-level: local unavailable, cloud fallback disabled")

    sanitized_body, hit = sanitize_anthropic_body(body)
    if not hit:
        # 地端死 + 脫敏沒命中 = B 字典跟脫敏字典不一致,寧願報錯
        raise HTTPException(500, "B-level: local down + sanitization mismatch")

    return await forward_to_anthropic(sanitized_body, request, original_model)

11.2 Sanitization 字典(v2.2 新增)

SANITIZE_MAP = {
    r"\[internal_process\]": "[PROCESS]",
    r"\[vendor_quote\]": "[QUOTE]",
    r"\[employee_name\]": "[PERSON]",
    # 通用 PII patterns
    r"\b[\w.+-]+@[\w-]+\.[\w.-]+\b": "[EMAIL]",
    r"\b(?:\d{1,3}\.){3}\d{1,3}\b": "[IP]",
    r"\b\d{4}-\d{4}-\d{4}-\d{4}\b": "[CARD]",
}

實作策略:regex-based 簡單脫敏(快、可審計);生產環境建議升 Microsoft Presidio(NER + checksum + 多語言)。

11.3 Benchmark Runner 跑法

# 跑全部 prompts × 你已 pull 的 ollama 模型
python3 benchmark_runner.py

# 加 cloud Claude 對比(有 ANTHROPIC_API_KEY 才能)
ANTHROPIC_API_KEY=sk-ant-... python3 benchmark_runner.py \
  --models qwen3:14b,qwen3:4b \
  --anthropic-models claude-opus-4-7

# 只跑 SWE-bench Lite 子集
python3 benchmark_runner.py --suite swe --output report.md

跑出來是 markdown 報表,每 model × 每 prompt 的 latency / tokens / 截斷回應。故意不打分 — 因為「能力 = X%」這種宣稱本身就是 review 點過的 premise drift 風險。**跑數據給人看,人類自己判斷**,比 AI 講百分比有 integrity。

11.4 Demo 錄影

# 純跑(看 terminal output)
bash demo_record.sh

# 用 asciinema 錄影
asciinema rec -c "bash demo_record.sh" walsin-demo.cast
asciinema upload walsin-demo.cast   # (可選)上傳分享

4 個 step:health check → C 級 prompt → A 級 prompt(命中字典)→ 沒帶 key 401。每一步都看到 x-gateway-decision + x-gateway-model headers。

11.5 v2.2 → v2.3 self-review 後再清 7 個漏洞

「考試不能邊改邊考」 — 我自己當最嚴格 reviewer 把 v2.2 從頭審一次,找到 7 個應修的(不是別人指出),全清:

優先	問題	v2.3 修法
🔴 P0	Auth substring match 漏洞 — `MASTER_KEY not in auth` 太寬,`sk-test-extra` 也通過	`secrets.compare_digest` 精確比對 + Bearer 解析
🔴 P0	SSE 透傳格式錯 — `aiter_lines + "\n"` 會剝掉 `\n\n` event 結尾	改 `aiter_bytes` 直通,SSE 格式 byte-for-byte 完整
🔴 P0	Sanitize 漏 tool_use input + tool_result content — 只處理 text block	改遞迴 `_sanitize_value` 處理任意巢狀 dict / list / str
🟡 P1	MASTER_KEY 預設 hardcoded,生產環境壞習慣	沒設環境變數時 log warning,提示部署前必設
🟡 P1	`demo_record.sh` 缺 pre-flight,gateway 沒啟動 script crash	開頭加 `curl /health`,失敗給友善提示 + 啟動指令
🟡 P1	`/health` 沒回報 ollama 狀態,monitoring 不夠	加 `ollama: alive/down` + b_level_model + b_cloud_fallback 配置
🟡 P1	B 級走 cloud(脫敏後)client 不知道	回應加 `X-Gateway-Sanitized: 1` header,透明度

11.6 24 個 pytest 全綠(v2.3 新)

$ pip install --user pytest pytest-asyncio
$ MASTER_KEY=sk-test-secret python3 -m pytest test_gateway.py -v

test_gateway.py::TestClassify::test_C_level_default              PASSED
test_gateway.py::TestClassify::test_A_level_keyword_match        PASSED
test_gateway.py::TestClassify::test_A_level_in_system            PASSED
test_gateway.py::TestClassify::test_A_level_in_list_content      PASSED
test_gateway.py::TestClassify::test_B_level_match                PASSED
test_gateway.py::TestClassify::test_A_takes_precedence_over_B    PASSED
test_gateway.py::TestMasterKey::test_correct_bearer              PASSED
test_gateway.py::TestMasterKey::test_correct_bare                PASSED
test_gateway.py::TestMasterKey::test_empty                       PASSED
test_gateway.py::TestMasterKey::test_wrong                       PASSED
test_gateway.py::TestMasterKey::test_substring_extra_suffix_blocked  PASSED  ← v2.3 修
test_gateway.py::TestMasterKey::test_substring_prefix_blocked    PASSED  ← v2.3 修
test_gateway.py::TestMasterKey::test_lower_case_bearer           PASSED
test_gateway.py::TestSanitization::test_string_email             PASSED
test_gateway.py::TestSanitization::test_string_ip                PASSED
test_gateway.py::TestSanitization::test_string_no_hit            PASSED
test_gateway.py::TestSanitization::test_recursive_dict           PASSED
test_gateway.py::TestSanitization::test_recursive_list           PASSED
test_gateway.py::TestSanitization::test_anthropic_body_text_block            PASSED
test_gateway.py::TestSanitization::test_anthropic_body_tool_use_input_v23    PASSED  ← v2.3 修
test_gateway.py::TestSanitization::test_anthropic_body_tool_result_v23       PASSED  ← v2.3 修
test_gateway.py::TestRequestTranslation::test_system_string_to_message       PASSED
test_gateway.py::TestRequestTranslation::test_tool_use_to_tool_calls         PASSED
test_gateway.py::TestRequestTranslation::test_tool_result_becomes_separate_message PASSED

============================== 24 passed in 0.61s ==============================

4 個 v2.3 安全修正關鍵 test 全綠 — 證明 substring 攻擊擋下、tool_use input 真的會被 sanitize。

11.7 真的還剩什麼不會做(誠實)

SWE-bench 完整跑數據:需要 GPU 跑 32B+,我這台 mini PC 不行。Runner 寫好了,你有 GPU 自己跑
真錄 asciinema 公開連結:script 寫好(含 v2.3 pre-flight check),你自己 run + upload
Microsoft Presidio 升級:regex 已夠 demo,生產時換成 NER + checksum
httpx async mock 整合測試:現在的 24 個 unit test 涵蓋純函式,async stream 整合測試還沒寫

策略:能在我環境做的全做,不能做的寫好工具讓你自己做。每一輪迭代都比上一輪誠實。

十二、5 個學到的事(實作後)

Gateway 路由邏輯不複雜(364 行 Python 含完整翻譯層 + SSE),別被 LiteLLM / Portkey / Kong 這些大框架嚇到
CC 工作流不用改(只改 BASE_URL),搬離成本低於想像。但要真接 CC 必須做 Anthropic 原生 endpoint + 完整翻譯層
A 級資料用地端最強,不是最弱。敏感資料因為更重要,需要更可靠回答 — 這條最容易搞反
Mini PC 雖弱但能跑(CPU 跑 14b 約 1-3 tok/s,慢但能用),證明搬離方法論不需要先投資 GPU
Harness 不該硬搬地端(三 agent 並行 + 長 context 是 cloud 的價值,脫敏走 cloud 才是對的)

結語:從藍圖到可執行的搬離

前 8 篇腦子系統告訴你「應該怎樣」。本篇告訴你「實際怎樣」。

364 行 Python + Mini PC + Ollama + Claude Code = 搬離方法論的可執行實作。

這不是教你「怎麼蓋萬人企業 AI 治理」 — 那是另外 8 篇的事。

這是教你「怎麼今晚就在自己電腦上跑通搬離 logic」 — 證明你的方法論不只是紙上的。

有了這個實作,你才有立場跟集團 IT 提 PoC,跟 CFO 提預算,跟法遵提合規。

下一步:你的 mini PC 有沒有變慢?Agent Team 還能 spawn 嗎?Brain 還在嗎?都沒事 — 因為 Gateway 是個獨立 process,不影響任何沒設 BASE_URL 的工作流。你想停掉就 kill 一個 process,連配置都不用改。

這就是搬離方法論的真實樣子:低風險、可逆、漸進、實作在前、規模在後。

標籤: AI

重點摘要

先看這張圖:30 秒看完全部關係

三層,不是一排:正確理解的關鍵

用「員工在公司上班」秒懂每個名詞

最容易搞混的:MCP 與 A2A 差在哪?

A2A 實際怎麼運作:靠一張「名片」

關鍵:知識層為什麼要接「真實資料」,而不是寫死答案

進階:怎麼讓整個團隊在一個平台上共用 agent?

一句話收尾

重點摘要

一、ROI 難算又好算：關鍵在「頻率質變」

二、ROI 要對到戰略本質，不是中階 KPI

三、價值與風險，是一體兩面

四、治理心法：所有人在同一個平台達共識

五、底線：主權 AI

結語：難的不是技術，是人與治理

常見問題 FAQ

怎麼評估 AI 專案的 ROI 才不會低估？

AI 的價值和風險可以分開管嗎？

什麼是主權 AI（Sovereign AI）？

導入企業 AI，最該先想清楚什麼？

📚 本系列：SAP NOW AI Tour 的 4 堂課

重點摘要

一、鋼鐵廠：讓機器狗進 1,200 度的高爐

無人化：機器狗、無人機、無人天車

設備健康指標，就像人的健康指標

二、銀行：把客戶經理變成 AI Agent

三、電子代工：工廠不是實驗場

結語：三個產業，同一個底層邏輯

常見問題 FAQ

AI 怎麼用在設備維護上？

為什麼說「工廠不是實驗場」？

AI 會取代客戶經理或第一線人員嗎？

導入 AI Agent 一開始就會很有效率嗎？

📚 本系列：SAP NOW AI Tour 的 4 堂課

重點摘要

一、先看演進：從 Traditional AI 到 Agentic AI

二、兩個開放協定：MCP 與 A2A

三、實際跨系統流程長怎樣

四、資料層：串接，而不是搬遷

五、官方參考架構：把內外 Agent 安全地串起來

結語：協定先行，骨架才穩

常見問題 FAQ

MCP 和 A2A 有什麼差別？

用 AI Agent 一定要把資料搬上雲嗎？

什麼是 Agentic AI？

MCP 現在可以實際使用了嗎？

📚 本系列：SAP NOW AI Tour 的 4 堂課

重點摘要

一、先承認：80% 的轉型卡在「人與流程」，不是技術

二、四大關鍵核心：人員、流程、應用、數據

三、不能跳步：合理化 → 標準化 → 自動化

四、為什麼「戰情室」做了沒人用

五、把方法論變成步驟：從經營分析到決策機制

結語：轉型是手段，創造價值才是目的

常見問題 FAQ

數位轉型失敗的最主要原因是什麼？

為什麼不能直接導入自動化或 AI？

為什麼很多 BI 戰情室做完就沒人用？

數位化和數位轉型有什麼不同？

📚 本系列：SAP NOW AI Tour 的 4 堂課

重點摘要

一、AI 不是要取代你，而是放大你的價值

二、餐飲業的加薪邏輯：五成四變四成五

三、製造業的跨國解法：集中化加邊緣化

四、整合能力才是護城河

五、平台商的兩個答案：資料留地端、成功靠選擇

問題一：用 AI 一定要把所有資料都搬上雲嗎？

問題二：員工要具備什麼技能、上什麼課才會用？

整場的理論收束：人機協作的三階段

結語：差距落在組織，而不是工具

常見問題 FAQ

企業導入 AI，一定要把資料全部上雲嗎？

員工要會寫程式才能用企業 AI 嗎？

「從自動化到自主化」具體是什麼意思？

跨國企業怎麼把 AI 能力複製到海外廠？

重點摘要

什麼是 monday.com AI Work Platform?

四大 AI 產品線:Sidekick、Agents、Vibe、Notetaker