🌏 Read this article in English

Table of Contents

AI 專案該怎麼驗收？大多數團隊都跳過這步

這篇談的是技術層面的驗收框架。組織政治、向上管理是另一個大題目，改天再聊。

為什麼 AI 專案特別難驗收？

傳統軟體專案的驗收很直觀：

功能做完了嗎？✓
測試通過了嗎？✓
用戶能用了嗎？✓

驗收完成，結案。

AI 專案不一樣。你導入了 Copilot、導入了 AI 測試、導入了 RAG 知識庫，然後呢？

「有在用」不代表「有效果」
「感覺變快」不代表「真的變快」
「大家說好」不代表「值得這個投資」

AI 專案的產出是模糊的、漸進的、難以切割的。這讓驗收變得異常困難。

但困難不代表可以跳過。

為什麼會這樣？

因為量化很麻煩，而且短期看不到好處。

沒有人會因為「記錄了開發工時」而被表揚。專案趕的時候，這種事第一個被砍掉。

但長期代價是：你永遠無法證明任何改善。不只是 AI，任何流程改善、工具導入、方法論變革，都無法驗收。

你只能說「感覺有變好」。而「感覺」是最不可靠的東西。

四個今天就能開始追蹤的指標

不需要建置複雜的數據系統。這四個指標，用 Google Form + Excel 就能做：

1. 使用率（Adoption Rate）

最基本的問題：團隊真的在用嗎？

追蹤方式：

每週問一次：「過去一週你用了幾次 AI 工具？」
或者看工具後台的 usage log

如果使用率持續下降，不管 AI 本身多厲害，這個導入就是失敗的。工具沒人用，就是沒有價值。

2. 續用意願（Stickiness）

比使用率更深的問題：如果明天這個工具消失了，團隊會不會抗議？

問法：

「如果明天公司決定停止 AI 工具的授權，你的反應是？」
- 1. 強烈反對，這工具對我很重要
- 1. 有點可惜，但還好
- 1. 無所謂
- 1. 其實拿掉也沒差

這是最誠實的價值測試。如果多數人選 C 或 D，你就知道問題在哪了。

3. 返工率（Rework Rate）

AI 產出的東西，有多少需要人工修正？

追蹤方式：

記錄「AI 產出 → 人工修正」的頻率
或者反過來問：「你採用 AI 建議的比例大概多少？」

如果 AI 產出的東西，80% 都要重寫，那它省的時間可能還不夠你修的。

這個指標也能追蹤趨勢：隨著團隊越來越會下 prompt，返工率應該會下降。如果沒有，代表問題不在 prompt，在工具本身。

4. 信任度（Trust Level）

主觀但重要：團隊對 AI 產出的信任程度。

每週問一次：

「你信任 AI 產出的程式碼/文件/測試嗎？1-5 分」

追蹤這個分數的變化。

信任度上升 → 團隊越來越會用，或 AI 表現越來越穩定
信任度下降 → 可能踩過雷，或期望與現實有落差

給下一個 AI 專案的建議

如果你現在還沒導入，或者準備導入下一個 AI 工具，這是我的建議：

導入前：花一週建立 baseline

不用完美，不用複雜。Excel 就夠。

記錄：

接下來一週，每個任務的類型、耗時、產出品質（主觀 1-5）
這就是你的 baseline

一週的數據不夠精確，但足夠讓你在導入後有個比較基準。

導入時：定義「成功」的樣子

在開始之前，強迫自己回答：

什麼情況下，這個導入算「成功」？
具體一點：省 20% 時間？錯誤率降一半？還是「團隊願意繼續用」就夠了？
用什麼數據來判斷？

把這些寫下來。不用多正式，一個 Slack message 或一封 email 就夠。

重點是「有明確的標準」，而不是「到時候再看」。

導入後：設定驗收時間點

2 週：快速檢視。有沒有明顯的問題？使用率如何？
1 個月：正式驗收。對照 baseline，達到預期了嗎？
3 個月：長期評估。這個工具有在持續產生價值嗎？還是熱度已經消退？

每個時間點，都要有一個簡單的檢討：做得好的、做不好的、下一步。

如果你試了這個框架，或者你有不同的驗收方法，歡迎留言交流。