AI 專案該怎麼驗收?大多數團隊都跳過這步

🌏 Read this article in English


AI 專案該怎麼驗收?大多數團隊都跳過這步

這篇談的是技術層面的驗收框架。組織政治、向上管理是另一個大題目,改天再聊。

為什麼 AI 專案特別難驗收?

傳統軟體專案的驗收很直觀:

  • 功能做完了嗎?✓
  • 測試通過了嗎?✓
  • 用戶能用了嗎?✓

驗收完成,結案。

AI 專案不一樣。你導入了 Copilot、導入了 AI 測試、導入了 RAG 知識庫,然後呢?

  • 「有在用」不代表「有效果」
  • 「感覺變快」不代表「真的變快」
  • 「大家說好」不代表「值得這個投資」

AI 專案的產出是模糊的、漸進的、難以切割的。這讓驗收變得異常困難。

但困難不代表可以跳過。

為什麼會這樣?

因為量化很麻煩,而且短期看不到好處。

沒有人會因為「記錄了開發工時」而被表揚。專案趕的時候,這種事第一個被砍掉。

但長期代價是:你永遠無法證明任何改善。不只是 AI,任何流程改善、工具導入、方法論變革,都無法驗收。

你只能說「感覺有變好」。而「感覺」是最不可靠的東西。

四個今天就能開始追蹤的指標

不需要建置複雜的數據系統。這四個指標,用 Google Form + Excel 就能做:

1. 使用率(Adoption Rate)

最基本的問題:團隊真的在用嗎?

追蹤方式:

  • 每週問一次:「過去一週你用了幾次 AI 工具?」
  • 或者看工具後台的 usage log

如果使用率持續下降,不管 AI 本身多厲害,這個導入就是失敗的。工具沒人用,就是沒有價值。

2. 續用意願(Stickiness)

比使用率更深的問題:如果明天這個工具消失了,團隊會不會抗議?

問法:

  • 「如果明天公司決定停止 AI 工具的授權,你的反應是?」
      1. 強烈反對,這工具對我很重要
      1. 有點可惜,但還好
      1. 無所謂
      1. 其實拿掉也沒差

這是最誠實的價值測試。如果多數人選 C 或 D,你就知道問題在哪了。

3. 返工率(Rework Rate)

AI 產出的東西,有多少需要人工修正?

追蹤方式:

  • 記錄「AI 產出 → 人工修正」的頻率
  • 或者反過來問:「你採用 AI 建議的比例大概多少?」

如果 AI 產出的東西,80% 都要重寫,那它省的時間可能還不夠你修的。

這個指標也能追蹤趨勢:隨著團隊越來越會下 prompt,返工率應該會下降。如果沒有,代表問題不在 prompt,在工具本身。

4. 信任度(Trust Level)

主觀但重要:團隊對 AI 產出的信任程度。

每週問一次:

  • 「你信任 AI 產出的程式碼/文件/測試嗎?1-5 分」

追蹤這個分數的變化。

  • 信任度上升 → 團隊越來越會用,或 AI 表現越來越穩定
  • 信任度下降 → 可能踩過雷,或期望與現實有落差

給下一個 AI 專案的建議

如果你現在還沒導入,或者準備導入下一個 AI 工具,這是我的建議:

導入前:花一週建立 baseline

不用完美,不用複雜。Excel 就夠。

記錄:

  • 接下來一週,每個任務的類型、耗時、產出品質(主觀 1-5)
  • 這就是你的 baseline

一週的數據不夠精確,但足夠讓你在導入後有個比較基準。

導入時:定義「成功」的樣子

在開始之前,強迫自己回答:

  • 什麼情況下,這個導入算「成功」?
  • 具體一點:省 20% 時間?錯誤率降一半?還是「團隊願意繼續用」就夠了?
  • 用什麼數據來判斷?

把這些寫下來。不用多正式,一個 Slack message 或一封 email 就夠。

重點是「有明確的標準」,而不是「到時候再看」。

導入後:設定驗收時間點

  • 2 週:快速檢視。有沒有明顯的問題?使用率如何?
  • 1 個月:正式驗收。對照 baseline,達到預期了嗎?
  • 3 個月:長期評估。這個工具有在持續產生價值嗎?還是熱度已經消退?

每個時間點,都要有一個簡單的檢討:做得好的、做不好的、下一步。

如果你試了這個框架,或者你有不同的驗收方法,歡迎留言交流。

Leave a Comment