Skip to content

doggAI Lab

當 eval 腳本遇上金融法規:一套雙軌評分系統的誕生

doggAI AI Lab-01 實驗紀錄 | 草稿 v0.1 | 2026-05-04


這不是一篇炫技文章

我做了一個評分腳本,用來測試本地 LLM 的法規理解能力。

這句話說起來很平淡,但背後有一個問題我一直想不清楚:

我怎麼知道本地模型的回答,在金融法規的場景下,是否真的「夠好」?

速度可以量。VRAM 可以量。token/s 可以量。但「回答品質」呢?

這就是這套系統想解決的問題。


從一份真實法規開始

測試的基礎文件是《金融機構辦理電子銀行業務安全控管作業基準》(115 年 1 月 7 日版),每一條都有明確的法律效力。

我設計了 10 道題,分四個難度層次:

A 組(基礎理解): 考模型能不能正確讀懂並轉述條文定義。例如「數位身分驗證包含哪三個階段?」、「訊息防護措施的五個特性是什麼?」

B 組(分析應用): 考模型能不能理解條文意涵並做出分析。例如「這四種操作分別是高風險還是低風險交易?」

C 組(推理情境): 考模型能不能處理實際場景並給出有深度的判斷。例如「LINE Bank 想推出這個新功能,設計是否合規?」

D 組(繁中生成): 考模型能否用精準、流暢的繁體中文,為不懂法規的主管寫出一段 300 字摘要。

這不是隨機出題。每一道題背後都有明確的評分依據——題目本身帶有工作現場的溫度,這些問題,就是實際上需要被回答的問題。


雙軌評分:為什麼 AI 自己打分還不夠

v1 的評測腳本只是跑模型、存結果。v2 加了一個重要設計:讓 Claude API 對每一題的回答自動打分,輸出四個構面的分數加上優缺點評語。

但我沒有就此停下。

光有 AI 自動評分,有一個根本問題沒有解決:AI 打的分數,可信嗎?

法規的理解,需要真正具備領域背景的人來判斷。一個模型說它引用了「第六條第三項」,但這個引用是否精確、是否用對了地方——這件事,需要懂這份文件的人來確認,不是另一個 AI。

所以我在報告裡保留了人工評分的空白欄位。

每一題,都並排放了: - AI 自動評分(四個構面:關鍵名詞覆蓋率、事實正確性、邏輯清晰度、條文引用品質) - 人工評分空白欄(同樣四個構面,給領域專家填寫) - 最後一張差異比較表(填完人工評分後,可以直接看 AI vs 人工的分歧在哪)

這樣設計的用意不只是「更嚴謹」。真正的目的是:當 AI 的判斷和人的判斷出現落差,那個落差本身就是值得研究的東西。


今天的初步觀察

今天跑完了 gemma3:4b 和 gemma3:12b 的對比測試,有幾個值得記錄的現象:

速度差異顯著: 4B 平均 42.4 tok/s,12B 平均 18.1 tok/s,速度差了一倍以上。但 12B 的回答長度和完整度明顯更好,尤其在 C 組情境題上,推理鏈更完整。

引用條文的品質落差: Q1 的回答裡,4B 試圖引用「第六條第六項」和「第六條第七項」,但這些條文編號是否存在於原文,需要人工比對。12B 的引用則傾向用描述方式帶過,精確性存疑,但反而比較不容易出現明確錯誤。

情境題是真正的分水嶺: Q7(LINE Bank 新功能是否合規)是這次最有價值的一題。兩個模型都判斷「不合規」,理由也大致正確,但 12B 在說明「為什麼固定密碼不夠」這一段的推理,明顯更有層次。這種差異,是 token/s 數字看不出來的。


這套系統可以成為什麼

我建這套系統,不只是為了測哪個模型比較好。

它真正回答的問題是:在導入本地 LLM 之前,你要用什麼方式評估它是否適任?

現在很多人在討論企業 AI 部署,都停留在「這個模型速度很快」、「這個模型中文很流暢」的層次。但如果你要把模型放進法遵流程、內部稽核、客服問答,你需要的評估維度完全不同。

這套雙軌評分系統,是一個起點:

  • 題組設計對應真實使用場景,不是泛用 benchmark
  • AI 自動評分提供可重複的基準
  • 人工評分引入領域知識的驗證
  • 差異比較讓你看見 AI 評審的偏誤在哪裡

這不是 RAG,這是 RAG 之前的前置工作。你必須先知道模型的邊界在哪,才能設計出合理的 RAG 架構。


下一步

人工評分的部分,請領域專家來填。填完之後,會更新這篇文章,加上 AI vs 人工的差異分析。

下一個版本想加入的功能:讓不同模型回答同一道情境題,然後讓評審不知道哪個回答是哪個模型的,做盲測比較。

這樣的結果,才是可以拿出來說的東西。


gemma3:4b 平均速度 42.4 tok/s | gemma3:12b 平均速度 18.1 tok/s 評測基準:金融機構辦理電子銀行業務安全控管作業基準(115年1月7日版) 工具:eval_runner.py v2 + score_review.py | HP Z2 Mini G1a