doggAI Lab

當 eval 腳本遇上金融法規：一套雙軌評分系統的誕生

doggAI AI Lab-01 實驗紀錄 | 草稿 v0.1 | 2026-05-04

這不是一篇炫技文章

我做了一個評分腳本，用來測試本地 LLM 的法規理解能力。

這句話說起來很平淡，但背後有一個問題我一直想不清楚：

我怎麼知道本地模型的回答，在金融法規的場景下，是否真的「夠好」？

速度可以量。VRAM 可以量。token/s 可以量。但「回答品質」呢？

這就是這套系統想解決的問題。

從一份真實法規開始

測試的基礎文件是《金融機構辦理電子銀行業務安全控管作業基準》（115 年 1 月 7 日版），每一條都有明確的法律效力。

我設計了 10 道題，分四個難度層次：

A 組（基礎理解）： 考模型能不能正確讀懂並轉述條文定義。例如「數位身分驗證包含哪三個階段？」、「訊息防護措施的五個特性是什麼？」

B 組（分析應用）： 考模型能不能理解條文意涵並做出分析。例如「這四種操作分別是高風險還是低風險交易？」

C 組（推理情境）： 考模型能不能處理實際場景並給出有深度的判斷。例如「LINE Bank 想推出這個新功能，設計是否合規？」

D 組（繁中生成）： 考模型能否用精準、流暢的繁體中文，為不懂法規的主管寫出一段 300 字摘要。

這不是隨機出題。每一道題背後都有明確的評分依據——題目本身帶有工作現場的溫度，這些問題，就是實際上需要被回答的問題。

雙軌評分：為什麼 AI 自己打分還不夠

v1 的評測腳本只是跑模型、存結果。v2 加了一個重要設計：讓 Claude API 對每一題的回答自動打分，輸出四個構面的分數加上優缺點評語。

但我沒有就此停下。

光有 AI 自動評分，有一個根本問題沒有解決：AI 打的分數，可信嗎？

法規的理解，需要真正具備領域背景的人來判斷。一個模型說它引用了「第六條第三項」，但這個引用是否精確、是否用對了地方——這件事，需要懂這份文件的人來確認，不是另一個 AI。

所以我在報告裡保留了人工評分的空白欄位。

每一題，都並排放了： - AI 自動評分（四個構面：關鍵名詞覆蓋率、事實正確性、邏輯清晰度、條文引用品質） - 人工評分空白欄（同樣四個構面，給領域專家填寫） - 最後一張差異比較表（填完人工評分後，可以直接看 AI vs 人工的分歧在哪）

這樣設計的用意不只是「更嚴謹」。真正的目的是：當 AI 的判斷和人的判斷出現落差，那個落差本身就是值得研究的東西。

今天的初步觀察

今天跑完了 gemma3:4b 和 gemma3:12b 的對比測試，有幾個值得記錄的現象：

速度差異顯著： 4B 平均 42.4 tok/s，12B 平均 18.1 tok/s，速度差了一倍以上。但 12B 的回答長度和完整度明顯更好，尤其在 C 組情境題上，推理鏈更完整。

引用條文的品質落差： Q1 的回答裡，4B 試圖引用「第六條第六項」和「第六條第七項」，但這些條文編號是否存在於原文，需要人工比對。12B 的引用則傾向用描述方式帶過，精確性存疑，但反而比較不容易出現明確錯誤。

情境題是真正的分水嶺： Q7（LINE Bank 新功能是否合規）是這次最有價值的一題。兩個模型都判斷「不合規」，理由也大致正確，但 12B 在說明「為什麼固定密碼不夠」這一段的推理，明顯更有層次。這種差異，是 token/s 數字看不出來的。

這套系統可以成為什麼

我建這套系統，不只是為了測哪個模型比較好。

它真正回答的問題是：在導入本地 LLM 之前，你要用什麼方式評估它是否適任？

現在很多人在討論企業 AI 部署，都停留在「這個模型速度很快」、「這個模型中文很流暢」的層次。但如果你要把模型放進法遵流程、內部稽核、客服問答，你需要的評估維度完全不同。

這套雙軌評分系統，是一個起點：

題組設計對應真實使用場景，不是泛用 benchmark
AI 自動評分提供可重複的基準
人工評分引入領域知識的驗證
差異比較讓你看見 AI 評審的偏誤在哪裡

這不是 RAG，這是 RAG 之前的前置工作。你必須先知道模型的邊界在哪，才能設計出合理的 RAG 架構。

下一步

人工評分的部分，請領域專家來填。填完之後，會更新這篇文章，加上 AI vs 人工的差異分析。

下一個版本想加入的功能：讓不同模型回答同一道情境題，然後讓評審不知道哪個回答是哪個模型的，做盲測比較。

這樣的結果，才是可以拿出來說的東西。

gemma3:4b 平均速度 42.4 tok/s ｜ gemma3:12b 平均速度 18.1 tok/s 評測基準：金融機構辦理電子銀行業務安全控管作業基準（115年1月7日版） 工具：eval_runner.py v2 + score_review.py | HP Z2 Mini G1a