🌏 Read this article in English
AI 專案該怎麼驗收?大多數團隊都跳過這步
這篇談的是技術層面的驗收框架。組織政治、向上管理是另一個大題目,改天再聊。
為什麼 AI 專案特別難驗收?
傳統軟體專案的驗收很直觀:
- 功能做完了嗎?✓
- 測試通過了嗎?✓
- 用戶能用了嗎?✓
驗收完成,結案。
AI 專案不一樣。你導入了 Copilot、導入了 AI 測試、導入了 RAG 知識庫,然後呢?
- 「有在用」不代表「有效果」
- 「感覺變快」不代表「真的變快」
- 「大家說好」不代表「值得這個投資」
AI 專案的產出是模糊的、漸進的、難以切割的。這讓驗收變得異常困難。
但困難不代表可以跳過。
為什麼會這樣?
因為量化很麻煩,而且短期看不到好處。
沒有人會因為「記錄了開發工時」而被表揚。專案趕的時候,這種事第一個被砍掉。
但長期代價是:你永遠無法證明任何改善。不只是 AI,任何流程改善、工具導入、方法論變革,都無法驗收。
你只能說「感覺有變好」。而「感覺」是最不可靠的東西。
四個今天就能開始追蹤的指標
不需要建置複雜的數據系統。這四個指標,用 Google Form + Excel 就能做:
1. 使用率(Adoption Rate)
最基本的問題:團隊真的在用嗎?
追蹤方式:
- 每週問一次:「過去一週你用了幾次 AI 工具?」
- 或者看工具後台的 usage log
如果使用率持續下降,不管 AI 本身多厲害,這個導入就是失敗的。工具沒人用,就是沒有價值。
2. 續用意願(Stickiness)
比使用率更深的問題:如果明天這個工具消失了,團隊會不會抗議?
問法:
- 「如果明天公司決定停止 AI 工具的授權,你的反應是?」
-
- 強烈反對,這工具對我很重要
-
- 有點可惜,但還好
-
- 無所謂
-
- 其實拿掉也沒差
-
這是最誠實的價值測試。如果多數人選 C 或 D,你就知道問題在哪了。
3. 返工率(Rework Rate)
AI 產出的東西,有多少需要人工修正?
追蹤方式:
- 記錄「AI 產出 → 人工修正」的頻率
- 或者反過來問:「你採用 AI 建議的比例大概多少?」
如果 AI 產出的東西,80% 都要重寫,那它省的時間可能還不夠你修的。
這個指標也能追蹤趨勢:隨著團隊越來越會下 prompt,返工率應該會下降。如果沒有,代表問題不在 prompt,在工具本身。
4. 信任度(Trust Level)
主觀但重要:團隊對 AI 產出的信任程度。
每週問一次:
- 「你信任 AI 產出的程式碼/文件/測試嗎?1-5 分」
追蹤這個分數的變化。
- 信任度上升 → 團隊越來越會用,或 AI 表現越來越穩定
- 信任度下降 → 可能踩過雷,或期望與現實有落差
給下一個 AI 專案的建議
如果你現在還沒導入,或者準備導入下一個 AI 工具,這是我的建議:
導入前:花一週建立 baseline
不用完美,不用複雜。Excel 就夠。
記錄:
- 接下來一週,每個任務的類型、耗時、產出品質(主觀 1-5)
- 這就是你的 baseline
一週的數據不夠精確,但足夠讓你在導入後有個比較基準。
導入時:定義「成功」的樣子
在開始之前,強迫自己回答:
- 什麼情況下,這個導入算「成功」?
- 具體一點:省 20% 時間?錯誤率降一半?還是「團隊願意繼續用」就夠了?
- 用什麼數據來判斷?
把這些寫下來。不用多正式,一個 Slack message 或一封 email 就夠。
重點是「有明確的標準」,而不是「到時候再看」。
導入後:設定驗收時間點
- 2 週:快速檢視。有沒有明顯的問題?使用率如何?
- 1 個月:正式驗收。對照 baseline,達到預期了嗎?
- 3 個月:長期評估。這個工具有在持續產生價值嗎?還是熱度已經消退?
每個時間點,都要有一個簡單的檢討:做得好的、做不好的、下一步。
如果你試了這個框架,或者你有不同的驗收方法,歡迎留言交流。