用 Claude Code 整合舊系統最常踩的坑是什麼？

沒有把舊系統的格式和約束告訴 Claude，讓它在沒有上下文的情況下設計新功能，做出來接不上去。最常見的問題是格式不相容（ID 格式、欄位名稱）和隱性行為（資料庫 trigger、庫存扣減）沒有被發現。

如何讓 Claude Code 在整合舊系統時不亂動現有邏輯？

在 CLAUDE.md 明確列出「不得修改的格式、欄位名稱、計算邏輯」，並在設計文件中把不能動的邊界單獨列出。Claude 會嚴格遵守這些約束，不會因為想讓代碼更整齊而擅自重構。

舊系統文件不齊全，怎麼用 Claude Code 做整合？

先讓 Claude 讀現有代碼，要求它「找出所有對外接口、資料庫 trigger 和隱性行為，不要開始寫代碼」。讓 Claude 反向整理出接口文件，確認後再進行整合設計。

Strangler Fig 模式是什麼？

Strangler Fig（絞殺榕）模式是一種系統遷移策略。不停機修改舊系統，而是在旁邊建立新系統，逐步將流量從舊系統切換到新系統，直到舊系統自然退場。適合無法停機、需要持續服務的生產系統。

舊系統 .env 裡的密碼要怎麼處理？

分兩步：（1）立即輪換所有外部 API Key 和密碼，因為 GitLab/GitHub 可能已有快取；（2）從正在跑的進程（docker inspect 或 /proc/{pid}/environ）抽出真實密碼，搬進 K8s Secrets。不要相信 repo 裡的 .env，可能是舊版本。

遷移過程中團隊還能繼續開發嗎？

可以。舊 repo 繼續正常開發，新 repo 並行建立。重要的 bugfix 透過 cherry-pick 同步到新 repo。不需要凍結開發等待遷移完成，兩條軌道可以同時進行。

AI 在舊系統遷移中能做什麼？

AI 可以閱讀 10 年的舊 code 並產出架構文件、模組依賴圖、技術債清單；在理解舊系統後，用符合現有慣例的方式寫新功能；補充測試覆蓋率；在新舊系統的接縫處寫 adapter。AI 不應直接 push 到 production 分支或接觸生產環境密碼。

一次遷移一個服務的驗證方法是什麼？

使用影子流量（Shadow Traffic）驗證：用 nginx 的 mirror 功能，讓新舊系統同時收到相同的請求。用戶收到的是舊系統的回應，新系統的回應只寫 log 供比對。確認行為一致後，再切換流量到新系統。

標籤: 遺留系統

舊系統整合場景下，會用 vs 不會用 Claude Code 的差距

重點摘要

舊系統整合最大的陷阱：Claude 看不到舊系統，但舊系統的約束決定了新功能能不能用
不會用的人：讓 Claude 在沒有舊系統上下文的情況下做新功能，結果接不上去
會用的人：先讓 Claude 讀關鍵接口，CLAUDE.md 記錄現有約束，設計文件定義接合點
三個場景示範：醫療 HIS 接 LINE 掛號、舊報表接新數據、舊 ERP 接電商平台

上一篇文章講的是新功能開發。但現實是，大多數人面對的不是一張白紙，而是一個已經在跑的舊系統。

舊系統整合比全新開發難十倍，不是因為技術更難，而是因為有一大堆隱性約束 Claude 不知道。格式、命名、邊界、不能動的地方，這些都在舊代碼裡，Claude 看不到就無從遵守。

這篇用三個場景直接模擬：有舊系統在的情況下，會用和不會用 Claude Code 的差距。

根本差距：Claude 的上下文只有你給它的部分

Claude Code 非常聰明，但它只知道你告訴它的東西。在全新專案，你說什麼格式就用什麼格式，問題不大。在整合舊系統時，如果你沒有把舊系統的關鍵結構告訴它，它會做出一個邏輯正確但無法接上的東西。

這不是 Claude 的問題，是你的輸入不完整。

舊系統整合的核心挑戰是：讓 Claude 在動手之前，先理解它不能動的邊界在哪裡。

場景一：醫院 HIS 系統加掛 LINE 預約掛號

情境

一家地區醫院用了十年的 HIS 系統（Windows Server + MSSQL），所有掛號邏輯都在 stored procedures 裡。現在要加 LINE Chatbot 讓患者能線上預約，但 HIS 系統不能動，只能從外部透過 API 呼叫它。

不會用的人怎麼做

幫我寫一個 LINE Chatbot 預約掛號系統，要能讓患者選科別、選醫師、選時段。

Claude 做出一個完整的 LINE bot，資料庫設計清楚，對話流程順暢。

開始對接 HIS 系統時，問題一個接一個：

HIS 的患者 ID 是 8 位數字，Claude 設計的是 UUID — 整個 primary key 要換
HIS 的診次代碼格式是 YYYYMMDD-科別碼-序號（例如 20260325-INT-001），Claude 自己設計了完全不同的格式
HIS 只接受 stored procedure 呼叫，不開放直接讀表，Claude 設計的是直接 SELECT
科別代碼是 HIS 裡的維護資料（內科=INT、外科=SUR），Claude 用了自己的命名

每一個問題單獨看都能修，但修完之後發現下一個格式又不對。最後花了兩天在做格式轉換，而不是做功能。

結果：開發 3 天，對接 2 天，還有格式轉換層要長期維護。

會用的人怎麼做

第一步：先讓 Claude 讀懂舊系統的接口

把 HIS 系統對外開放的 SP 簽名整理成文件，餵給 Claude：

請先閱讀以下 HIS 系統的接口文件，
告訴我你對這個系統的理解，特別是資料格式和呼叫限制，
再討論 LINE bot 的架構設計。

--- HIS 接口文件 ---
sp_GetAvailableSessions
  @DeptCode NCHAR(3)      -- 科別碼，參照 tb_Dept.DeptCode
  @DateFrom NCHAR(8)      -- YYYYMMDD 格式
  @DateTo   NCHAR(8)
  回傳: SessionId NCHAR(16), DoctorName, SessionDate, RemainSlots

sp_CreateBooking
  @PatientId NCHAR(8)     -- 8位數字，不足補0
  @SessionId NCHAR(16)    -- 從 sp_GetAvailableSessions 取得
  @Phone     NVARCHAR(20)
  回傳: BookingNo NCHAR(12), Status (SUCCESS/FULL/DUPLICATE)

sp_CancelBooking
  @BookingNo NCHAR(12)
  @Reason    NVARCHAR(100)
---

第二步：CLAUDE.md 記錄現有系統的約束

## 整合約束（HIS 系統，不可更動）
- PatientId：8 位數字字串，不足補 0（例如 "00012345"）
- SessionId：格式為 YYYYMMDD-DeptCode-NNN（例如 "20260325-INT-001"）
- 所有 HIS 呼叫只能透過 stored procedure，不允許直接查表
- 科別代碼參照 tb_Dept，常用：INT=內科、SUR=外科、PED=小兒科

## 新系統原則
- LINE bot 層只做對話邏輯
- HIS 接口層做格式轉換（HisAdapter class）
- 不在 LINE bot 層直接呼叫 HIS

第三步：設計文件定義接合點，不是重新設計格式

# 功能：LINE 掛號 → HIS 預約對接

## 接合點（Integration Points）
LINE 用戶選擇診次 → HisAdapter.getAvailableSessions(deptCode, dateRange)
  → 呼叫 sp_GetAvailableSessions
  → 回傳格式轉為 LINE flex message 可用的結構

用戶確認掛號 → HisAdapter.createBooking(lineUserId, sessionId, phone)
  → 查詢或建立患者檔（PatientId）
  → 呼叫 sp_CreateBooking
  → 處理 FULL / DUPLICATE 回傳狀態

## 不碰的東西
- HIS 資料庫 schema 完全不動
- 所有 PatientId 維持 8 位補零格式
- SessionId 格式完全繼承 HIS

## Done When
- HisAdapter 有完整的 unit test（mock SP 回傳）
- LINE bot 不包含任何 HIS 格式邏輯（全在 Adapter）

結果：1.5 天完成，無格式轉換層，後續維護只在 HisAdapter 這一層。

場景二：舊版股市報表腳本接新即時數據

情境

一個量化分析師用了三年的 Python 腳本，每天手動下載 CSV，跑一堆計算，輸出報表。現在要改成自動化：自動爬取數據、自動計算、推播到 Line Notify。但舊腳本的計算邏輯非常複雜（含自訂指標、過去三年調整過的參數），不能改，只能把數據來源換掉。

不會用的人怎麼做

幫我把這個股市分析腳本改成自動化，自動抓數據然後推 LINE 通知。

Claude 看了舊腳本，做了一個新的自動化版本。看起來很整齊，比舊腳本乾淨很多。

跑了一週，發現結果跟舊版不一樣：

舊腳本的 RSI 計算用的是 Wilder 平滑法，Claude 預設用了 SMA 版本，數值不同
舊腳本對成交量有一個「過去 20 日剔除最高最低各兩天後的平均」的自訂邏輯，新版沒有
舊腳本在除權息日前後有特別處理，新版沒有
欄位名稱被 Claude 重新命名了（舊版 vol_adj 在新版變成 adjusted_volume），下游所有 Excel 公式全壞

分析師說：「它幫我重寫了，但重寫出來的東西跟我的不一樣，我現在不知道以哪個為準。」

結果：新舊結果不一致，花了一週在驗算差異，反而比手動下載多花時間。

會用的人怎麼做

關鍵原則：計算邏輯一行都不能動，只換數據來源。

第一步：讓 Claude 讀懂舊腳本，先提取它的業務邏輯

請閱讀這個舊腳本，告訴我：
1. 它依賴哪些輸入欄位（欄位名稱和格式）
2. 有哪些自訂計算邏輯（非標準指標）
3. 最後輸出哪些欄位

不要修改任何東西，只告訴我你的理解。

這一步讓 Claude 自己找出所有隱性依賴，避免後面遺漏。

第二步：CLAUDE.md 把舊腳本的約束凍結

## 舊系統相容性約束（不可更動）
- 所有輸出欄位名稱必須與 legacy_report.py 完全一致
  （vol_adj、rsi_wilder、price_adj 等，不得重新命名）
- RSI 計算必須使用 Wilder 平滑法（非 SMA），與舊版等價
- 成交量平均：去掉最高最低各 2 天後的 16 日均量
- 除權息調整邏輯：參見 legacy_report.py 第 87-134 行，禁止修改

## 本次修改範圍
- 只修改數據來源層（DataFetcher class）
- 所有計算邏輯保持不變
- 輸出格式和欄位名稱保持不變

第三步：設計文件只描述「換什麼」，明確說「不換什麼」

# 功能：數據來源自動化

## 要換的
舊：手動下載 CSV 放在 ./data/ 目錄
新：DataFetcher 自動從 TWSE API 抓取，存成相同格式的 DataFrame

## 不換的
- 所有 calculate_*() 函數：一行都不動
- 所有欄位名稱
- 輸出的 Excel 格式和公式

## 驗證方式
用同一天的歷史數據，新舊兩版並排執行，
所有欄位數值差異必須在浮點誤差範圍內（< 0.0001）

「驗證方式」這一段給了 Claude 一個清楚的完成定義：不是「看起來跑得動」，而是「跟舊版數字一樣」。

結果：1 天完成，新舊並排驗算通過，分析師信心十足上線。

場景三：舊訂單系統接新電商平台（Shopee / momo）

情境

一家中型品牌商有自己的後台訂單系統（自建，PHP + MySQL，跑了七年），現在要同時開 Shopee 和 momo 的店，訂單要自動回拋到自建系統，庫存要即時同步。自建系統的代碼文件不齊全，但不能大改，只能在外面包一層。

不會用的人怎麼做

幫我串接 Shopee 和 momo 的訂單，自動同步到我們自己的系統。

Claude 寫了一個整合服務，讀 Shopee/momo 的 webhook，轉換格式，打進自建系統的 API。

測試時發現：

自建系統的商品 SKU 格式是 PRD-XXXXXXXX，但 Shopee 上的 SKU 是當初手動輸入的，有些根本對不上
自建系統的訂單狀態只有 5 種，Shopee 有 12 種，Claude 的對照表做了一半，有幾個狀態沒處理
momo 的訂單金額包含平台折扣，自建系統的商品價格是定價，兩邊金額對不上帳
自建系統在創建訂單時會觸發一個庫存扣減的觸發器，Claude 不知道這件事，導致庫存被扣兩次

最後一個問題最嚴重：庫存被扣兩次，一直到實際出貨才發現。

結果：開發 4 天，測試又 3 天，上線後還是出現庫存問題。

會用的人怎麼做

舊系統不熟，先讓 Claude 幫你挖清楚它的邊界。

第一步：讓 Claude 讀舊系統，主動找隱性行為

請閱讀這個訂單系統的代碼，特別注意：
1. 創建訂單時會觸發哪些副作用（觸發器、事件、其他表的更新）
2. 庫存扣減在哪裡發生（是 API 層還是資料庫層）
3. 訂單狀態的完整清單和流轉規則

告訴我所有你發現的隱性行為，不要開始寫任何代碼。

「隱性行為」這個說法很重要。Claude 在讀舊代碼時會主動找資料庫 trigger、事件監聽器、side effect，這些是最容易被遺漏的整合風險。

第二步：用 Plan Mode 規劃整合架構，重點在「邊界」

【背景】
自建訂單系統（PHP + MySQL），創建訂單時資料庫層會自動扣減庫存（trigger）。
Shopee 和 momo 各有自己的訂單狀態體系。

【目標】
Shopee/momo 新訂單自動進到自建系統，庫存只扣一次，狀態對照完整。

【約束條件】
- 自建系統的 trigger 不能改（沒有完整文件，風險太高）
- SKU 對照表需要人工確認後再上線（不能用 Claude 猜測）
- momo 的折扣金額要分開記錄，不能直接入自建系統的商品價

請制定整合架構計劃，
特別說明如何避免庫存被扣兩次，
等我確認計劃後再開始實作。

Plan Mode 裡，Claude 提出了三個方案，推薦的是：新建一個 OrderBridge 服務，只負責格式轉換和狀態對照，在呼叫自建系統 API 之前先把庫存檢查做在 Bridge 層（避免 API 呼叫失敗後 trigger 已執行的問題）。

第三步：設計文件把 SKU 對照、狀態對照、金額拆分全部定義清楚

## SKU 對照策略
- 對照表存在 sku_mapping 資料表，人工審核後才生效
- 找不到對照的 SKU：訂單進 pending_review 佇列，不自動處理
- 禁止猜測或模糊匹配

## 訂單狀態對照（Shopee → 自建）
UNPAID        → 不同步（等付款）
READY_TO_SHIP → processing
SHIPPED       → shipped
COMPLETED     → completed
CANCELLED     → cancelled
其他狀態      → 記錄 log，不同步，發警報

## momo 金額處理
momo_original_price → 自建系統 unit_price
momo_discount       → 另存 discount_record 資料表
momo_final_price    → 自建系統 actual_amount
（三個欄位分開記錄，不做合併計算）

結果：2 天完成 OrderBridge，庫存零重複扣減，SKU 對照人工審核後上線，穩定運行。

舊系統整合的核心技巧整理

技巧	怎麼做	目的
先讓 Claude 讀現有接口	提供 API 簽名、schema、關鍵函數，要求 Claude 說出理解後再動手	讓 Claude 在正確的上下文下設計，不做無效假設
要求 Claude 找隱性行為	明確說「找出所有 trigger、side effect、副作用，不要開始寫代碼」	在整合前把地雷挖出來，不是做完才踩到
CLAUDE.md 凍結不能動的邊界	在 CLAUDE.md 明確寫「不得修改 X 格式 / Y 欄位名稱 / Z 計算邏輯」	Claude 不會因為「更整齊」而擅自重新命名或重構
設計文件定義接合點，不定義格式	設計文件描述「新舊系統在哪裡接觸」，格式繼承舊系統，不重新設計	避免做一個格式轉換層長期維護
驗證方式要對比舊系統	Done When 裡明確說「與舊系統同樣輸入，輸出結果必須一致」	讓 Claude 自己驗算新舊等價性，不是跑起來就算完成

一個可以直接用的提示模板

每次要在舊系統上加新功能，用這個模板啟動：

【現有系統】
[描述現有系統的技術棧和關鍵接口，附上接口文件或關鍵代碼片段]

【要加的功能】
[一句話描述]

【不能動的邊界】
- [現有系統的格式、欄位名稱、計算邏輯等不能更動的項目]
- [如果有 DB trigger 或其他隱性行為，也列在這裡]

【請先做這兩件事，再開始設計】
1. 告訴我你對現有接口的理解（特別是你覺得可能影響整合的部分）
2. 指出你看到的整合風險（格式衝突、重複操作、狀態對照缺口）

確認理解正確後，我們再討論設計。

這個模板做了三件事：把舊系統的上下文給 Claude、凍結不能動的邊界、要求 Claude 在動手前先說出它的理解和風險判斷。

常見問題

Q：舊系統的代碼很亂，文件也沒有，怎麼辦？

先讓 Claude 讀代碼，問它「這個系統對外暴露了哪些接口？資料庫有哪些關鍵的 table 和 trigger？」讓 Claude 幫你反向整理出一份接口文件，確認沒有遺漏後再進行整合設計。不要跳過這一步，這是整合成功的前提。

Q：整合的範圍不確定，不知道要動到哪裡？

先用 Plan Mode，給 Claude 目標和約束，讓它畫出影響範圍。Plan Mode 的價值在複雜整合場景特別高，因為它會列出所有相關的文件和狀態流，讓你確認範圍是否正確，再決定怎麼切入。

Q：新功能做完，但舊系統有些邏輯說不清楚，怕 Claude 做錯？

這種情況用「新舊並排驗算」：先在測試環境讓舊版和新版用同樣輸入各跑一次，比較輸出。在設計文件裡明確寫出這個驗證條件，Claude 就會把「新舊等價」列為完成定義的一部分。

從不會用到會用：舊系統整合的具體升級路徑

舊系統整合的升級路徑跟全新開發不太一樣：問題不是「我沒說邊界條件」，而是「Claude 根本不知道舊系統長什麼樣」。所以升級的重點是：在動手前把舊系統的關鍵資訊餵給 Claude。

第一步：今天就能做到（一個句子）

在你的提示前面加上這段：

我有一個現有系統，新功能必須跟它相容。

現有系統的關鍵格式：
[把你知道的接口格式、欄位名稱、資料格式貼在這裡]

新功能不能更動上面這些格式。先告訴我你的理解，再開始設計。

就算你只知道一部分格式，先寫一部分。有比沒有好。

醫療 HIS 整合：Level 0 → Level 1

不會用（Level 0）	初步會用（Level 1）
幫我串接 HIS 系統做 LINE 掛號	（見下方）

我有一個舊的 HIS 系統（不能修改），需要在外面接一個 LINE 掛號 bot。

HIS 現有接口（Stored Procedure）：
sp_GetAvailableSessions(@DeptCode NCHAR(3), @DateFrom NCHAR(8), @DateTo NCHAR(8))
sp_CreateBooking(@PatientId NCHAR(8), @SessionId NCHAR(16), @Phone NVARCHAR(20))
  回傳 Status: SUCCESS / FULL / DUPLICATE

格式約束（不能改）：
- PatientId 是 8 位數字字串，不足補 0
- 所有呼叫只能透過 stored procedure，不能直接查表

請先告訴我：
1. 你對這個 HIS 接口的理解
2. 你覺得 LINE bot 和 HIS 之間需要什麼樣的轉換層

確認後再討論架構設計。

舊報表腳本接新數據：Level 0 → Level 1

我有一個舊的 Python 分析腳本，計算邏輯不能動，只要換掉數據來源（從手動 CSV 改成自動抓取）。

舊腳本的輸入依賴（這些欄位名稱不能改）：
- date (YYYY-MM-DD)
- open, high, low, close, volume
- vol_adj（自訂欄位：去掉最高最低各2天的16日均量）

計算邏輯不能動的原因：
- RSI 用的是 Wilder 平滑法（非標準 SMA），三年來的報告都是這個版本
- 改了數值會跟歷史記錄不一致

請先告訴我：
1. 你理解哪些東西不能動
2. 你打算怎麼讓新舊版本在同樣輸入下輸出一致的結果

確認後再開始實作數據來源層。

舊 ERP 接電商平台：Level 0 → Level 1

我有一個舊的訂單系統（PHP + MySQL），要串接 Shopee 的訂單進來。
舊系統不能大改，只能在外面包一層。

已知的舊系統行為：
- 創建訂單時，資料庫層有 trigger 會自動扣庫存
- 訂單狀態：pending / processing / shipped / completed / cancelled（只有這五種）

Shopee 訂單狀態有 12 種，需要做對照。

我擔心的問題：
- 庫存被扣兩次（trigger + 外面的 API 都扣）
- 狀態對照不完整，有些 Shopee 狀態沒有對應的舊系統狀態

請先幫我分析這兩個風險，告訴我你的處理方案，再開始設計架構。

注意最後一段：把你擔心的問題說出來。這讓 Claude 優先處理你知道有風險的地方，而不是從它認為重要的地方開始。

第二步：下週可以做到（CLAUDE.md 記錄舊系統約束）

舊系統整合的 CLAUDE.md 要特別加一個「整合約束」區塊：

# 整合約束（現有系統，不可更動）

## [系統名稱] 的格式規範
- [欄位名稱] 的格式：[說明]
- [接口規範]：[說明]
- 禁止直接操作資料庫，只能透過 [API / SP / 特定方法]

## 已知的隱性行為
- [觸發器 / 事件 / side effect 描述]
- 注意：[操作 X] 會同時觸發 [Y]，不要重複執行

## 新功能的邊界
- 只修改 [Adapter / Bridge / 特定模組]，不動舊系統
- 欄位名稱繼承舊系統，不重新命名

每次發現一個新的隱性行為（觸發器、計算邏輯、格式特例），就加進這個區塊。它會越來越完整，讓你以後的整合工作越來越省力。

第三步：一個月後的進化

進化 A：在開始任何整合前，先讓 Claude 找隱性行為

請閱讀 [現有系統代碼/文件]，找出所有：
1. 資料庫 trigger 和它的作用
2. 創建/更新/刪除記錄時的 side effect
3. 對外暴露的接口（API / SP / 事件）和它們的格式

告訴我你找到的所有隱性行為，不要開始設計，先讓我確認。

這個步驟在整合開始前把地雷挖出來，比做完後踩到省 10 倍時間。

進化 B：複雜整合用 Plan Mode，重點讓 Claude 畫出影響範圍

【現有系統】[描述]
【目標】[一句話]
【不能動的邊界】[列清楚]

請制定整合計劃，特別標出：
- 會影響到的現有功能
- 每個整合點的風險
- 我需要在上線前人工驗證的項目

等我確認計劃後再開始實作。

進化 C：設計文件加「新舊等價性驗證」

舊系統整合的完成定義，永遠要加這一條：

## 驗證方式
用同一份歷史輸入，新舊兩版並排執行，
[關鍵輸出欄位] 的結果差異必須在 [可接受範圍] 內。
新版上線前，提供新舊對比報告。

階段	做什麼	關鍵句
Level 0	直接說要串接什麼	—
Level 1（今天）	把舊系統格式和約束說清楚	「這些格式不能改，告訴我你的理解再開始」
Level 2（下週）	CLAUDE.md 記錄舊系統約束和隱性行為	每次整合後補一條「已知隱性行為」
Level 3（一個月後）	先讓 Claude 挖地雷，再 Plan Mode 確認影響範圍	「找出所有隱性行為，不要開始設計」

2026 年 3 月 25 日

10 年舊系統如何安全導入 AI 開發：Strangler Fig 遷移方法論

重點摘要

10 年的舊系統能跑就是最有價值的資產，不要試圖先修好再遷移
核心方法論：Strangler Fig 模式 — 新軌道在旁邊長起來，舊系統自然退場
AI 第一件事不是寫 code，而是讀懂 10 年的系統邏輯，再動手
四個階段：快照現況 → 建平行新軌 → 一次搬一個服務 → 封存舊系統

你的系統跑了 10 年。它很髒、沒有文件、CI/CD 靠手動、密碼可能在 .env 裡或者在某個工程師的腦袋裡。但它能跑，而且在服務真實的用戶。

現在你想引入 AI 輔助開發，想現代化整個工作流。問題來了：要從哪裡開始？ 要先把舊的修乾淨，還是直接用新方法？

錯誤的答案是：「先把舊的修好。」正確的答案是：不要動正在跑的東西，在旁邊建一條新軌道。

為什麼「先修好再用新方法」行不通？

這個直覺很自然，但在實際工程上幾乎都會失敗，原因有三：

無法停止開發等你修 — 業務不會暫停，新需求還是會進來，你邊修邊開發，舊問題永遠追不完
「修好」的定義會不斷移動 — 一開始說只要加 .gitignore，結果發現歷史有密碼，要 filter-repo，然後發現測試覆蓋率是零…沒有終點
你在修一個不完全理解的系統 — 10 年的系統有太多隱性知識，修的過程中很容易把「能跑的」改成「不能跑的」

工程界有一個著名的模式專門解決這個問題，叫做 Strangler Fig（絞殺榕）模式。

Strangler Fig 模式：不砍舊樹，讓新藤蔓長過去

絞殺榕是一種熱帶植物。它的種子落在老樹上，慢慢向下長出根，包住舊樹，最後舊樹自然退場，絞殺榕站立在原位。整個過程中，舊樹從未停止「提供支撐」，直到新系統完全就緒。

應用到 DevOps 遷移：

❌ 錯誤思維：
舊系統（停機）→ 修好 → 接新流程 → 恢復服務

✅ 正確思維（Strangler Fig）：
舊系統（持續運行，不動）
    ↓
新軌道在旁邊建立（不影響舊系統）
    ↓
一次搬一個服務，驗證後切換流量
    ↓
所有服務搬完，舊系統自然退場

關鍵洞察：能跑的系統是你最有價值的資產，不是問題的來源。遷移的目標是「讓它繼續跑，同時讓新系統在旁邊成長」，不是「讓它停下來修好再說」。

四個階段的完整遷移方法論

階段一：快照現況（不動任何東西）

第一步不是改 code，不是設定 CI/CD，而是把「現在是怎麼跑起來的」完整記錄下來。這份快照是整個遷移過程的地基。

為什麼要快照？因為在 10 年的系統裡，repo 裡的 .env 可能是舊的，文件可能是錯的，只有正在跑的進程才是真相：

# 從正在跑的容器抽出真實的環境變數
docker inspect <container_name> \
  --format='{{range .Config.Env}}{{println .}}{{end}}' \
  > /tmp/real-env-snapshot.txt

# 或直接讀進程的環境變數
cat /proc/$(pgrep java)/environ | tr '\0' '\n' | grep -E "DB_|API_|SECRET_"

# K8s 環境
kubectl get pods -n production -o name | while read pod; do
  echo "=== $pod ==="
  kubectl exec $pod -n production -- env 2>/dev/null
done > /tmp/real-k8s-env-snapshot.txt

同時盤點服務清單和依賴關係：

# 有哪些服務在跑
docker ps --format "table {{.Names}}\t{{.Image}}\t{{.Status}}"

# 服務之間怎麼通訊
docker network inspect bridge

# 對外開放哪些 port
ss -tlnp | grep LISTEN

這個階段的產出是一份真實架構圖和一份真實密碼清單（妥善保管，不進任何 repo）。

階段二：AI 讀懂你的系統

這是大多數人忽略的步驟，也是決定 AI 協作能否成功的關鍵。

AI 第一件事不是寫 code。

在 AI 動手之前，它需要讀你 10 年的系統。這個過程大概需要幾天，但會產出你可能從未有過的東西：

AI 讀完後的產出	為什麼重要
系統架構圖	你們可能自己也沒有，新人上手和遷移規劃的基礎
模組依賴關係	知道改哪個地方會影響哪些服務
高風險區域標記	「這段 code 10 個人改過，有 3 個已知 bug 的修復」
技術債清單（按影響排序）	知道先解決什麼，不是看到髒的就改
新人上手文件	從 code 反推出來，不需要老工程師口傳

這個階段同樣不動任何 code。AI 只是閱讀和理解。等到真正開始寫新功能時，AI 已經知道你的系統慣例是什麼、有哪些地雷不能踩。

階段三：建立平行的新軌道

新建一個乾淨的 repo，在旁邊建立完整的現代化工作流，舊 repo 繼續照舊運作：

舊 GitLab repo（繼續跑，不動）
     │
     │  正在服務用戶的系統
     │
新 repo（乾淨起點）
     │
     ├─ 正確的 .gitignore（.env 全部排除）
     ├─ CI/CD pipeline（gitleaks + build + sign）
     ├─ K8s Secrets（從快照搬進來）
     └─ Branch Protection Rules

把真實密碼從快照搬到 K8s Secrets（不是從舊 repo 搬，是從正在跑的進程抽出來）：

# 從快照建立 K8s Secrets
kubectl create secret generic app-prod-creds \
  --from-literal=DB_PASSWORD="$(grep DB_PASSWORD /tmp/real-env-snapshot.txt | cut -d= -f2)" \
  --from-literal=SHOPEE_KEY="$(grep SHOPEE_KEY /tmp/real-env-snapshot.txt | cut -d= -f2)" \
  -n production

# 建立完成後，安全刪除快照
shred -u /tmp/real-env-snapshot.txt

階段四：一次搬一個服務

這是遷移的主體。原則是：每次只搬一個服務，驗證通過才搬下一個。

服務搬移的優先順序建議：

優先順序	選擇原則	理由
第一批	流量最小的非核心服務	風險最低，可以放心試錯
第二批	獨立性高、依賴少的服務	不會牽一髮動全身
最後	核心業務邏輯（訂單、付款）	等前幾批證明新流程可靠後再動

每個服務的搬移步驟：

AI 在新 repo 重寫該服務的乾淨版本（理解舊 code 後重寫，不是 copy paste）
Jenkins 構建新鏡像，部署到 Staging
用影子流量驗證新舊行為一致（新舊同時收請求，比對回應）
確認無誤，切換這個服務的流量到新系統
觀察 24-48 小時
舊服務下線

影子流量驗證（用 nginx 實現，不影響用戶）：

# nginx 配置：新舊同時收請求，比對行為
location /api/orders {
    mirror /mirror-new;       # 複製請求到新系統
    proxy_pass http://old-api; # 用戶實際收到舊系統的回應
}

location = /mirror-new {
    internal;
    proxy_pass http://new-api;  # 新系統的回應只寫 log，不回傳用戶
}

AI 在整個過程中的實際角色

理解了遷移方法論後，AI 在這個過程中的職責非常清楚：

AI 能做（且做得很好）：
  ✅ 讀 10 年的舊 code，產出架構文件
  ✅ 識別技術債，按優先順序排列
  ✅ 用「符合你們系統慣例」的方式寫新功能
  ✅ 在 feature branch 開發，開 MR，等你 review
  ✅ 補測試（補現有 code 的測試覆蓋率）
  ✅ Debug（分析 log，找根因）
  ✅ 在新服務和舊系統的接縫處寫 adapter

AI 不能做（也不應該做）：
  ❌ 直接 push 到 main 或 production branch
  ❌ 決定什麼時候切換流量
  ❌ 接觸任何密碼或 production secrets
  ❌ 在沒有充分理解舊系統的情況下動手

一個典型的 AI 協作對話長這樣：

你：「我要加一個批次出貨的功能」

AI：「讓我先讀一下現有的出貨相關 code...
     我看到 OrderService.java 的 shipOrder()
     和 ShipmentRepository，還有一個舊的
     BatchJob 在 legacy/ 目錄。

     注意：legacy/BatchJob 有個已知的
     transaction 問題（commit a3f2c1b 的修復紀錄），
     新功能要避開。

     建議的實作方向是...你確認嗎？」

你：「方向對，去做吧」

AI：「好，我開 feature/batch-shipment，
     預計改動：
     - 新增 BatchShipmentService（核心邏輯）
     - 修改 OrderController（加 API endpoint）
     - 不動 legacy/ 目錄
     
     完成後開 MR 給你 review」

AI 因為讀過 10 年的系統，不會做出「不符合你們慣例」的 code，也不會踩進已知的地雷。

最常遇到的三個現實問題

問題一：「不知道哪個 .env 是現在真正在用的」

10 年的系統通常有多個 .env 版本，有的是舊的，有的是工程師自己改過的。以正在跑的進程為準，不要相信文件：

# 找到 Java 進程真正使用的環境變數
cat /proc/$(pgrep java)/environ | tr '\0' '\n' | grep -E "DB_|API_|SECRET_"

# 不要用
cat .env  # 這可能是 6 個月前的版本

問題二：「團隊還在開發，不能凍結」

不需要凍結。舊 repo 繼續用，新 repo 並行開發。重要的 bugfix 透過 cherry-pick 同步：

舊 repo: feature → dev → main（繼續照舊）
              │
              └─ cherry-pick 重要修復
                      │
新 repo:              └─ feature → dev → main（新流程）

問題三：「歷史 commit 有密碼怎麼辦」

分兩步處理：

立即輪換所有洩露的密碼 — 因為 GitHub/GitLab 可能已有快取，這一步不能等
舊 repo 等到遷移完成後再 archive — 不需要現在重寫歷史，新 repo 一開始就是乾淨的

注意：很多人以為 git rm --cached .env 就安全了，但舊 commit 裡的內容仍然可以被 git show <old-commit>:.env 讀出。唯一的技術修復是 git filter-repo，但遷移方法論讓你可以跳過這一步——因為所有新開發都在新的乾淨 repo 上進行。

時間軸規劃

時間	工作	風險
第 1 週	快照現況、輪換外部 API Key、AI 開始讀系統	零（不動任何 code）
第 2-4 週	建新 repo、CI/CD pipeline、K8s Secrets、第一個服務搬過去	低（影子流量驗證）
第 1-3 個月	逐服務遷移，每個驗證 24-48 小時後才繼續	中（每次只影響一個服務）
遷移完成後	舊 repo archive、完整安全強化（RBAC、Audit Log、鏡像簽名）	低（新系統已穩定）

決策樹：你現在該從哪裡開始

你的系統現在能跑嗎？
  │
  ├─ 能跑 → 用 Strangler Fig 模式（本文的方法）
  │           │
  │           ├─ 步驟 1：快照現況（本週就做）
  │           ├─ 步驟 2：AI 讀系統（同步進行）
  │           ├─ 步驟 3：建新軌道（第 2-4 週）
  │           └─ 步驟 4：逐服務遷移（之後）
  │
  └─ 不能跑 → 先讓它跑起來，再回到這裡

這套方法論的本質

Strangler Fig 模式應用在 AI 輔助開發遷移上，核心洞察只有一個：

「10 年的技術債是過去的決策的結果，你無法在不破壞現有價值的情況下一次消除它。但你可以選擇：從今天開始，所有新的工作都用正確的方式做。」

舊系統是你團隊的集體記憶，AI 有能力閱讀並理解這些記憶，然後用現代化的方式繼續往前走。不需要推倒重建，也不需要凍結開發去修舊債——只需要一條平行的新軌道，和耐心地一次移動一個服務。

想了解新軌道的 CI/CD 具體設計，可以參考上一篇文章：AI 輔助開發 CI/CD 工作流：Jenkins、K8s、ISO 27001 完整設計。

2026 年 3 月 21 日