doggAI Lab

第一週結束：工具到位，流程跑通

doggAI AI Lab-01 Week 1 Review | 2026-05-06

第一週不是在學 AI，是在搭舞台。

這週做了什麼

從 4/22 到 5/6，橫跨兩週的日曆，但這是 doggAI Lab-01 的第一週。

Day	日期	做了什麼
Day 1	4/22	HP Z2 Mini G1a 開箱，基礎環境建立
Day 2	4/23	Claude Desktop MCP 設定，踩了三個坑
Day 3	4/24	Ollama 跑起來，Gemma 3 4B 第一次推論
Day 4	4/25	建立金融法規 Eval Set，eval_runner.py v1→v2
Day 5	5/4	雙軌評分系統完成，gemma3:4b vs 12b 對比測試
Day 6	5/5	lab.tsaichinyu.com 上線，發布流程跑通
Day 7	5/6	工具清單整理，文章推上網站，第一週收尾

一台機器從零到可以跑 AI： 128GB 統一記憶體，最高 96GB VRAM。Gemma 3 4B 跑起來是 42.4 tok/s，12B 是 18.1 tok/s，GPU 溫度穩定在 65°C。數字穩定，才有資格談後面的事。

一套評測系統從無到有： 10 道題目，四個難度層次，AI 自動評分 + 人工評分並排。設計題目的時候，我不是在想「這題能不能難倒模型」，而是在想「這個問題在實際工作裡有沒有人需要答案」。從使用場景倒推評測設計，結果才有意義。

一個發布平台從空白到上線： lab.tsaichinyu.com，MkDocs + GitHub Actions，Obsidian 寫完 → git push → 自動部署。流程的價值不在於省了幾分鐘，而在於它把「想發」和「能發」之間的摩擦力降到最低。

工作流比模型重要。 跑再多模型，如果沒有辦法把結果整理成可以分享的東西，就只是一堆截圖。這週花了很多時間在「搭舞台」——不是最性感的工作，但沒有它，後面的東西都是飄的。

踩坑是學習密度最高的時刻。 MCP 的 JSON vs UI、三個 Claude 環境的差異、GitHub Actions 的權限、CNAME 和 HTTPS 的關係——這些東西任何教學都不會主動說，因為作者早就忘了自己當初踩過。只有親自踩過，才會記得為什麼。

評測要從終點往回設計。 先想清楚「這個結果要給誰看、要回答什麼問題」，再決定出什麼題、怎麼評分。反過來做——先出題再想用途——往往跑完才發現結果沒有說服力。

每週收錄那些「以為懂，其實不懂」或「從來沒想過」的瞬間。

🤦 Day 1 — 廠家來電 → 53歲開箱日原來買這台機器的個人用戶稀有到廠家要親自打電話確認你是不是真的要買。機器是給企業用的，沒人想到有人會拿來「玩」。

🤦 Day 2 — JSON 在哪？ → MCP 設定踩坑全紀錄以為 MCP 設定就是改 JSON，找了半天找不到檔案。Store 版根本走 UI，教學全是錯的——連 Claude 自己也被帶歪了，兩個人一起撞牆。

🤦 Day 2 — 設定對了也沒用 → MCP 設定踩坑全紀錄設定完全正確，但視窗環境選錯，所以一直沒反應。Claude 有三個環境，MCP 只在其中一個生效——這件事沒有任何地方寫清楚。

🤦 Day 6 — DNS 設定怎麼改都沒反應 → 工作流比模型重要：發布流水線建立全紀錄忘了當初把 DNS 託管給第三方，GoDaddy 介面改了半天沒反應。問題不在設定本身，而是名稱伺服器指到別人那邊去了。

🤦 Day 6 — HTTPS 等了很久還是灰色 → 工作流比模型重要：發布流水線建立全紀錄以為是 DNS 還沒生效，繼續等。等了很久才發現 repo 根目錄缺少 CNAME 檔案——這不是等待問題，是設定問題。

🤦 Day 5 — 數字量不到品質 → 當 eval 腳本遇上金融法規速度可以量、VRAM 可以量、token/s 可以量。但「這個回答夠不夠好」量不到。以為有數字就能評估模型，結果發現真正重要的東西根本不在數字裡。

🤦 Day 5 — AI 打的分數，可信嗎？ → 當 eval 腳本遇上金融法規讓 AI 自動評分感覺很嚴謹，但這個問題從來沒想過：評審本身也需要被驗證。AI 評 AI，誰來評 AI？

💡 本週新知識（從沒想過的那種）

進入第二週：本地模型 Benchmark。

舞台搭好了。下週開始正式表演。

HP Z2 Mini G1a | Ollama 0.21.2 | lab.tsaichinyu.com