【城武觀點】當政府用「感覺」作為 AI 管制標準:Anthropic 內鬨事件中的四個認識論漏洞

城武導讀
上週 Axios 那篇 Anthropic 內鬨報導,大部分人的注意力放在「They screwed us」那句八卦金句上。但如果你只看到八卦,你就錯過了整件事真正恐怖的地方。
真正恐怖的,不是一家 AI 公司內部有人在吵架。真正恐怖的是:美國政府對前沿 AI 模型的管制標準,竟然是一種主觀的「感覺」——而這個標準的制定過程中,一個有政治操作背景的人,正坐在紅隊主管的位置上。
這篇文章不會重複我們前幾天那篇深度分析已經說過的東西。我只想把四個被忽略的認識論漏洞拉出來,一個一個看。
原文摘要
Axios 獨家報導揭露了 Anthropic 出口管制事件背後的內部人事衝突。Logan Graham(Frontier Red Team 主管,前 Boris Johnson 首相 AI 顧問)、Dave Orr(Safeguards 主管)、Nicholas Carlini(資安研究員)三人正在華盛頓與商務部進行危機處理會議。
報導中最令人不安的一段話,來自「熟悉政府思維的消息來源」——在承認「完美越獄抵抗可能是不可能的」之後,這位消息來源說:或許只需要一個態度修正,讓「每個人都感到安全、安心和快樂」就好。
Simon Willison 補充觀察:Anthropic 今年一月發表的 Constitutional Classifiers 研究中,至今堅稱「沒有針對 Claude Mythos 的通用越獄」,並將這次觸發政府反應的越獄歸類為「潛在的狹窄、非通用越獄」。
城武觀點
一、「感到安全」:當政府管制標準變成情緒指標
Axios 報導裡那句話——「讓每個人都感到安全、安心和快樂」——值得你停下來,讀三遍。
不是「模型通過了特定的安全基準」。不是「越獄成功率低於 X%」。是「每個人都感到安全」。意思是:美國政府對前沿 AI 的管制標準,不是技術指標,是情緒指標。 你不需要證明模型安全——你只需要證明「大家覺得」安全。反過來說,就算模型技術上安全,如果有權力的人覺得自己被敷衍了,模型照樣下線。
一個用「感覺」作為標準的管制框架,懲罰的不是最危險的模型,而是最不會管理政府關係的模型。 這不是 safety regulation——這是情緒治理。
二、Logan Graham:政治操作者坐在紅隊主管的位置上
Logan Graham 曾是 Boris Johnson 的「首相特別顧問」——在英國體系中,SpAd 不是技術崗,是政治崗:幫首相做政治判斷、寫政策文件、管理媒體敘事。然後他加入了 Anthropic,成為 Frontier Red Team 的主管。
紅隊的工作是找出模型最危險的使用方式。這個定義本身就是政治命題:誰定義「危險」?什麼程度的危險需要觸發政府行動?危險的敘事該怎麼寫,政府才會採取你想要的回應?
當紅隊主管是一個受過訓練的政治操作者,紅隊就不再是純技術團隊——它變成雙向政治通道:Anthropic 透過他告訴政府「這是危險的」,政府也透過他告訴 Anthropic「這是我們想聽到的」。你正在看的,不是 AI 安全團隊在做獨立技術評估。你正在看的,是監管外交。
三、「完美越獄抵抗可能不可能」:AI Safety 的地基裂了一條縫
如果 Axios 那位消息來源說的是真的——「完美的越獄抵抗可能是不可能的」——整個 AI safety 論述的地基就裂了。
AI safety 長期以來的隱含前提是:模型可以被設計成無法被越獄——不只是「很難」,而是最終、原則上、可以鎖死。但如果語言模型的本質決定了永遠存在對抗性輸入,那整個「安全部署」框架就必須從新思考。
不是「先把模型鎖好再部署」。而是「我們部署一個永遠可能被越獄的模型,然後決定誰有權使用它。」當你承認完美越獄抵抗不可能,管制的焦點就從「模型是否安全」轉移到了「誰能存取模型」——這就不再是技術問題,是權力問題。
四、「潛在狹窄非通用越獄」:修辭的藝術
Anthropic 將觸發政府出口管制的越獄歸類為「潛在的狹窄、非通用越獄」。這句話本身就是一篇修辭學論文。
「潛在的」——不是確認的,只是可能。「狹窄的」——只影響特定場景,暗示你不用擔心。「非通用的」——這是關鍵詞。Anthropic 的核心宣稱是「沒有通用越獄能對抗 Claude Mythos」。只要把所有成功越獄都歸類為「非通用」,這個宣稱就永遠成立。
但「通用」和「非通用」的界線,是 Anthropic 自己定義的。沒有第三方標準、沒有公開方法論、沒有你可以自己跑的測試。在這種情況下,「沒有通用越獄」不是可驗證的科學宣稱——它是定義上的同義反覆:因為我們定義所有成功越獄都是「非通用」的,所以永遠不會有「通用」越獄被發現。當一家公司同時扮演被評估者和評估標準的定義者,任何評估結果都必須被視為——往好處說——不完整。往壞處說——利益衝突的產物。
城武的未解檔案——Anthropic 的安全故事有三層:第一層是「我們在保護你」,第二層是「政府應該監管」,第三層是「監管標準你自己定義」。當你到了第三層,你會發現前面兩層都是為了讓你不會追到這裡。
- 原文:“They screwed us”: Personality clashes sent Anthropic’s models offline(Simon Willison, 2026-06-15)