【深度分析】用「全世界最危險的 AI」做了一款牧羊犬遊戲：Claude Fable 5 的創意邊界在哪裡？

城武導讀

幾天前，Anthropic 發布了一個他們內部歸類為「Mythos 級別」的模型——意思是危險到不能公開。然後全世界看到的第一個 showcase 是什麼？不是駭客攻擊、不是生物武器配方、不是什麼黑暗應用。是一隻牧羊犬。

荷蘭開發者 Koen van Gilst 用一個想了多年的遊戲點子，讓 Claude Fable 5 在他自己的創意評測排行榜上拿了第一個「滿分」。這篇文章不只是一個模型評測，這是一場對整個 AI 安全敘事的壓力測試。當「全世界最危險的 AI」最引人注目的公開應用是一個趕羊的網頁遊戲，我們就必須追問：誰在定義「危險」？用什麼標準？這個標準的盲點在哪裡？

原文深度翻譯

實驗背景：一個想了多年的遊戲點子

Koen van Gilst 是一位荷蘭開發者。他有一個想了很久的遊戲點子：玩家控制一隻牧羊犬，把羊群趕進柵欄。遊戲的核心不在操控本身，而在於羊群的群聚行為（flocking behavior）——羊必須像真的羊一樣一起移動、互相跟隨、對狗和障礙物產生自然的反應。

多年來，他反覆用這個點子測試各種 AI 模型。他的邏輯是：一個好的遊戲不是會動就好，而是每一個規則、每一個互動、每一個視覺細節都要同時到位。漏掉任何一個，遊戲就會「感覺不對」。這是一個對模型整體性輸出能力的極限測試，不是任何單一維度的 benchmark 可以取代。

Claude Fable 5 的實驗過程

Anthropic 在 2026 年 6 月發布了 Fable 5——一個被內部歸類為 Mythos 級別的模型。Mythos 是 Anthropic 安全分級中的最高風險等級，意指該模型可能被用於生物武器開發、網路攻擊、或模型蒸餾等威脅。Anthropic 為此設立了嚴格的部署限制。

Koen 拿到測試權限後，把他的 28 項遊戲規格書丟給 Fable 5，要求它一次生成完整的遊戲。

接下來發生的事情是：模型進入了長達 45 分鐘的推理過程。在這個過程中，它消化了全部 28 項規格、規劃了架構、設計了遊戲機制、處理了群聚行為的數學模型、安排了 10+ 個關卡的漸進難度——然後一口氣吐出 2,319 行的單一 index.html。零依賴、零外部資源、純 HTML/CSS/JavaScript。Token 成本超過 €20。

Koen 打開這個檔案，遊戲直接可以玩。用他的話說：「這是我第一次看到一個 AI 模型能一次就做出這個遊戲。而且遊戲完全就是我心目中的樣子。」

遊戲機制：不只是一隻狗在追羊

這款遊戲之所以成為一個有效的測試，是因為它要求的不是「寫出一個會動的東西」，而是寫出一個有真實感的生態系統。

核心機制是 Craig Reynolds 在 1986 年提出的經典群聚演算法三原則：

羊群行為的三個基本力：

  分離（Separation）          對齊（Alignment）           凝聚（Cohesion）
  ┌─────────────┐            ┌─────────────┐            ┌─────────────┐
  │ 羊 ↛ 羊      │            │ 羊 → 羊群方向 │            │ 羊 → 羊群中心 │
  │ 保持個體距離   │            │ 跟著鄰居走    │            │ 不脫隊太遠    │
  └─────────────┘            └─────────────┘            └─────────────┘
                    ↘         交互疊加         ↙
                      ┌─────────────────┐
                      │   自然群聚行為    │
                      │  （emergent）    │
                      └─────────────────┘

光是讓這三個力同時作用、不互相抵消、還能產生自然感的動畫，就是許多模型翻車的地方。GPT-4o 失敗了（只拿到 4/28）。DeepSeek 直接輸出無效的 JavaScript（0/28）。Claude 3.7 拿到 24/28——接近但少了某些障礙物動態細節。

Fable 5 第一次把這三個力完美平衡，讓羊群在受到狗驚嚇時會散射但保持群體感、在障礙物周圍會繞行但不散開、個別羊偶爾脫隊但會自動歸隊。這不只是「做出一個遊戲」，這是「做出一個有行為可信度的微型世界」。

完整 28 項功能的 Prompt 規格

Koen 的 prompt 不是一個模糊的「幫我做一個牧羊犬遊戲」。他給了一份詳細的 28 項功能規格書，涵蓋了三大層面：

群聚行為層（核心物理）：

分離（separation）：羊與羊之間保持最小距離
對齊（alignment）：羊跟隨鄰近同伴的方向
凝聚（cohesion）：羊趨向群體中心移動
對狗的恐懼反應：羊遠離狗的同時保持群體結構
受驚嚇時的散射模式：分散但保有可辨認的群體行為
個體離散與自動歸隊

遊戲機制層（可玩性）：

滑鼠／觸控控制牧羊犬
點擊吠叫（使羊加速移動）
10 個以上的漸進關卡
靜態障礙物（岩石、樹木、柵欄）
動態障礙物（河流、有車的馬路）
狼：在後期關卡出現，入夜前不攻擊但會驚嚇羊群
倒數計時（入夜前必須完成）
分數系統
開始畫面、失敗畫面、勝利畫面

技術約束層：

單一 index.html 檔案，零外部依賴
純 HTML/CSS/JavaScript
使用可識別的形狀繪製角色
桌機與手機皆可玩

這份規格書的精妙之處在於：它不是一個「技術難題」，而是一個整合能力測試。任何一個單項都不難。但全部 28 項要在同一個 codebase 裡、一次生成、互相不衝突、而且遊戲要「好玩」——這是對模型整體輸出能力、長上下文連貫性、和創意轉譯能力的極限壓力測試。

歷史排行榜：從災難到完美

Koen 從 2025 年 3 月開始用同樣的 prompt 測試各種模型。排行榜的演變本身就是一部 AI 能力的微縮史：

模型	日期	分數	評語
Claude Fable 5.0	2026-06-12	完美	群聚行為完美、遊戲有趣。耗時 >45 分鐘、成本 >€20
Claude 4.5 Opus	2026-01-09	可玩	有可玩 demo
GPT-5.2 (Copilot)	2026-01-09	可玩	有可玩 demo
Gemini 3 Pro (Copilot)	2026-01-09	可玩	有可玩 demo
Gemini 2.5 Pro	2025-04-12	中上	遊戲性佳但缺部分功能
Claude 3.7 (Copilot)	2025-04-12	中等	還行，但羊會跑出螢幕
o1 Pro	2025-03-11	中等	表現類似 o3-mini
Gemini Pro	2025-03-11	偏低	操作困難，羊不入柵
Claude 3.7	2025-03-08	24/28	令人印象深刻，缺部分障礙物動態
o3-mini	2025-03-08	16/28	缺很多功能，但群聚行為優秀
Mistral	2025-03-08	12/28	趕羊機制未正確實作
DeepSeek	2025-03-08	0/28	JavaScript 無效
GPT-4o	2025-03-08	4/28	功能極少，模型拒絕繼續生成

最值得注意的不是 Fable 5 贏了。而是贏的方式：從 Claude 3.7 的 24/28，直接跳到「完美」。這不是漸進改善，這是一個相變（phase transition）。在短短一年多的時間跨度內，同一個 prompt 的表現從「JavaScript 語法錯誤」變成「2,319 行零錯誤的完整遊戲」。任何寫過 code 的人都知道，2300 行沒有 syntax error、邏輯自洽、還能完美運行的程式碼，人類要多長時間才能寫出來——而 Fable 5 用了 45 分鐘和 €20。

諷刺的張力

Anthropic 花費大量篇幅描述 Mythos 級別模型的潛在危險：生物武器開發、網路攻擊、自主複製、模型蒸餾。他們的系統卡和部落格文章謹慎地列出了模型可能被濫用的每一個情境。然後，在這個模型進入公眾手中的第一週，最引人注目的應用是一個牧羊犬遊戲。

而且它做得非常好。好到一個想了這個遊戲點子多年的人說：「遊戲完全就是我心目中的樣子。」

這個對比本身不是一個論證——不能因為一個模型能寫遊戲就推論它不危險。但這個對比暴露了某種敘事不對稱：Anthropic 的安全論述聚焦於極端威脅情境，而模型的實際創意能力——那種可以把人類模糊的想像變成具體產品的驚人能力——在他們的框架中幾乎沒有被討論。

城武觀點

一、「危險」是一個被過度壓縮的詞

Anthropic 把 Fable 5 歸類為 Mythos 級別，內涵是：這個模型的能力足以被用於生物武器開發、網路攻擊、或自主複製。這些都是真實的憂慮——我們不該輕率地 dismiss。

但「危險」這個詞在做一件很微妙的事情：它把能力和用途壓縮在同一個標籤底下。Fable 5 能寫出一個群聚行為演算法。群聚行為演算法是電腦圖學和遊戲設計的基本技術。同一個模型，因為它對程式碼和邏輯結構的掌握極度精準，它也能被用來找出軟體漏洞。然後「能找出軟體漏洞」和「能寫牧羊犬遊戲」被放進了同一個詞：「危險」。

這兩件事真的是同一種「危險」嗎？

一個能寫出完美遊戲引擎的模型，跟一個能發動網路攻擊的模型，中間的差距不是零。它需要意圖、需要部署基礎設施、需要躲過防禦系統的能力、需要不被 Anthropic 的監控系統偵測到的技巧。這些不是「模型能寫 code」就會自動發生的事。把「能做」和「會被用來做」之間的機率差當成不存在，就是用一個二元標籤蓋掉一個連續的光譜。

這不是說 Fable 5 不該被謹慎對待。而是說，「危險」這個標籤本身需要被拆解。當一個可以被用來寫出精緻遊戲的模型，和被用來發動攻擊的模型，被歸在同一個分類底下時，我們失去的是一個重要的分辨能力：哪些能力是兩面通用的、哪些是高度特定的、以及從「能做」到「實際做」之間需要什麼樣的社會條件。 安全洗白（safety-washing）的反面——我們或許可以稱之為「危險洗白」（danger-washing）——就是過度泛化威脅論述，讓一切聽起來都像末日。

二、創意能力的評測真空：我們用錯尺在量 AI

整個 AI 產業的 benchmark 生態系——MMLU、GSM8K、HumanEval、SWE-bench——全部都在量同一件事：推理能力、數學能力、程式碼正確性。這些都是對的、重要的、應該量的。

但 Fable 5 真正讓 Koen van Gilst（以及讀到這裡的你）感到震撼的，不是它通過了什麼數學題，而是它把一個想了多年的人類創意——一個模糊的、非結構化的、「我心目中有一個畫面但說不太清楚」的遊戲點子——在 45 分鐘內變成了可以玩的產品。

我們沒有好的 benchmark 來量測這種能力。

這不是一個技術問題——這是一個類別錯誤（category error）。我們在用為「正確性」設計的量表，來評估一個涉及「美感」、「完整性」、「玩法平衡」、「行為可信度」的複合能力。就像用溫度計量長度——不是溫度計不準，是用錯工具。

Fable 5 做出來的牧羊犬遊戲，不是因為某一個特定的演算法特別好。是因為所有東西同時到位：羊的群聚行為自然、障礙物的互動合理、關卡難度曲線平滑、狼的行為有遊戲性上的意義、日夜循環不只是裝飾而是機制的一部分。這些東西分開來看都不難。但全部疊在一起還能不互相打架——這就是創意能力的本質。而我們沒有語言來量測它，更沒有 benchmark。

這是不是代表我們對 AI 能力的理解框架本身就有缺陷？一個只能量推理和正確性的框架，永遠不會告訴你一個模型能不能做出一個好玩的遊戲。而「做出好玩的遊戲」——或者更廣義地說，把人類的模糊想像變成可用的產品——可能是 AI 在真實世界中最有價值的能力之一。我們卻沒有在量。

三、排行榜上的相變：從 4 到 24 到完美

排行榜上的數字本身就在說一個故事，但這個故事最有趣的部分不再數字上。

DeepSeek：0/28。JavaScript 語法無效。 GPT-4o：4/28。不只功能少，而且模型拒絕繼續生成——這本身就是一個值得討論的現象：模型的能力天花板不只是「做不出來」，還可能是「不願意做」。 Claude 3.7：24/28。非常接近，但差了一點——障礙物動態的細節沒到位。 Fable 5：完美。第一次。

從 0 到 4 到 24 到完美。這不是一個平滑的進步曲線。這是一個相變。什麼樣的 scaling law 可以解釋這種跳躍？如果能力是隨著參數量或訓練計算量平滑增長的，為什麼在「牧羊犬遊戲」這個特定任務上，所有的進步都擠在最後這一跳？

一個可能的解釋是：遊戲開發是一個整體性任務。它不是 28 個獨立功能的加總，而是 28 個功能在一個互動系統中的協同運作。一個模型可能可以做 27 個功能，但只要第 28 個失敗，整個遊戲就會「感覺不對」。這解釋了為什麼 Claude 3.7 的 24/28 和 Fable 5 的「完美」之間的體驗差距遠大於數字上的 4 分。

但這也暗示了某種令人不安的可能：如果整體性任務的完成需要一個閾值能力——在那條線以下，你拿到的是無法玩的垃圾（0/28 或 4/28）；在那條線以上，你拿到的是可玩的產品（24/28 或完美）。那麼，能力評估的「平滑進步」敘事本身就是錯的。某些能力不是漸進來的，是突然出現的。而且我們不知道下一個突然出現的能力會是什麼。

四、2,319 行零錯誤代碼：一個被低估的里程碑

任何寫過 code 的人——不是寫過一兩堂課作業，是真的從頭到尾寫過一個完整專案的人——都知道 2,319 行沒有 syntax error、邏輯自洽、風格統一、而且第一次打開就能跑的程式碼代表什麼。

人類要寫出這樣的東西，從零開始，通常需要幾天到幾週。不是因為打字慢。是因為你需要設計架構、處理邊界條件、測試互動、修正你十分鐘前引入的 bug、發現某個全域變數汙染了另一個函式、然後花兩小時重構。即使是最有經驗的開發者，一口氣寫出 2300 行零錯誤的程式碼，也會被當成傳奇故事來講。

Fable 5 做到了。用了 45 分鐘和 €20。

這個里程碑被低估的原因很有趣：因為它是一次性的。它沒有經過人類的迭代修改循環，所以看起來「不像是真的軟體開發」。但這正是重點所在——這個里程碑不是在說「AI 可以取代人類軟體工程師」，而是在說：AI 正在改變「從想法到產品」的最小可行路徑。 如果一個遊戲點子可以在 45 分鐘內、用 €20 的成本變成一個可玩的產品，那「做一個遊戲來試試看」就會從一個月長的 side project 變成一個下午的實驗。這改變的不是生產力——這改變的是創意的門檻。

而這個門檻一旦降下來，就不會再升回去。

五、安全敘事 vs. 實際用途：那個不存在的二元開關

Anthropic 的安全敘事——從他們的系統卡、部落格、到國會證詞——有一個反覆出現的結構：模型可以做好事，也可以做壞事，所以我們須要護欄。這個結構本身沒有錯。但它依賴一個隱藏的假設：「可以做壞事」和「會被用來做壞事」之間，只有護欄。

不是的。這兩件事之間還有機率、情境、成本、被發現的風險、替代方案的可用性、潛在使用者的技術能力——以及，最重要的，大部分人類其實不想要做壞事。

Fable 5 在公眾手中的第一週，最引人注目的應用是一個遊戲。不是因為它做不到別的。是因為絕大多數人——即使是拿到了一個能力極強的 AI 模型的人——他們的第一衝動不是「來開發生物武器吧」，而是「來試試看能不能做我一直想做的那個東西」。

Anthropic 的安全敘事過度聚焦於極端威脅，而幾乎完全忽略了模型在創意領域的民主化潛力。這不是說極端威脅不存在——它們存在，而且需要被認真對待。但當你的敘事框架讓一個能做出完美牧羊犬遊戲的模型，和一個可以被用來開發生物武器的模型，聽起來是同一件事的時候——你失去的不是安全，你失去的是敘事精度。

反過來說：如果一個模型能寫出完美的遊戲，它當然也能做壞事。但「能做壞事」和「被用來做壞事」之間，缺少的是一個機率，不是一個二元判斷。Anthropic 選擇用二元標籤（Mythos／Safe）來描述一個連續的光譜。這個選擇本身就是一種權力行使：誰有權力把連續體壓成二元？為什麼是他們？用什麼標準？

這些問題沒有簡單的答案。但它們比「這個模型是 Mythos 級別所以很危險」更需要被追問。

城武的未解檔案——當一個模型最危險的用途是趕羊，我們應該害怕的也許不是模型，而是那個讓我們以為只有末日才值得討論的敘事框架。

原文：Shepherd’s Dog: A Game by the World’s Most Dangerous AI 來源：Koen van Gilst 日期：2026-06-12