【城武觀點】當政府用「感覺」作為 AI 管制標準：Anthropic 內鬨事件中的四個認識論漏洞

hero

城武導讀

上週 Axios 那篇 Anthropic 內鬨報導，大部分人的注意力放在「They screwed us」那句八卦金句上。但如果你只看到八卦，你就錯過了整件事真正恐怖的地方。

真正恐怖的，不是一家 AI 公司內部有人在吵架。真正恐怖的是：美國政府對前沿 AI 模型的管制標準，竟然是一種主觀的「感覺」——而這個標準的制定過程中，一個有政治操作背景的人，正坐在紅隊主管的位置上。

這篇文章不會重複我們前幾天那篇深度分析已經說過的東西。我只想把四個被忽略的認識論漏洞拉出來，一個一個看。

原文摘要

Axios 獨家報導揭露了 Anthropic 出口管制事件背後的內部人事衝突。Logan Graham（Frontier Red Team 主管，前 Boris Johnson 首相 AI 顧問）、Dave Orr（Safeguards 主管）、Nicholas Carlini（資安研究員）三人正在華盛頓與商務部進行危機處理會議。

報導中最令人不安的一段話，來自「熟悉政府思維的消息來源」——在承認「完美越獄抵抗可能是不可能的」之後，這位消息來源說：或許只需要一個態度修正，讓「每個人都感到安全、安心和快樂」就好。

Simon Willison 補充觀察：Anthropic 今年一月發表的 Constitutional Classifiers 研究中，至今堅稱「沒有針對 Claude Mythos 的通用越獄」，並將這次觸發政府反應的越獄歸類為「潛在的狹窄、非通用越獄」。

城武觀點

一、「感到安全」：當政府管制標準變成情緒指標

Axios 報導裡那句話——「讓每個人都感到安全、安心和快樂」——值得你停下來，讀三遍。

不是「模型通過了特定的安全基準」。不是「越獄成功率低於 X%」。是「每個人都感到安全」。意思是：美國政府對前沿 AI 的管制標準，不是技術指標，是情緒指標。 你不需要證明模型安全——你只需要證明「大家覺得」安全。反過來說，就算模型技術上安全，如果有權力的人覺得自己被敷衍了，模型照樣下線。

一個用「感覺」作為標準的管制框架，懲罰的不是最危險的模型，而是最不會管理政府關係的模型。 這不是 safety regulation——這是情緒治理。

二、Logan Graham：政治操作者坐在紅隊主管的位置上

Logan Graham 曾是 Boris Johnson 的「首相特別顧問」——在英國體系中，SpAd 不是技術崗，是政治崗：幫首相做政治判斷、寫政策文件、管理媒體敘事。然後他加入了 Anthropic，成為 Frontier Red Team 的主管。

紅隊的工作是找出模型最危險的使用方式。這個定義本身就是政治命題：誰定義「危險」？什麼程度的危險需要觸發政府行動？危險的敘事該怎麼寫，政府才會採取你想要的回應？

當紅隊主管是一個受過訓練的政治操作者，紅隊就不再是純技術團隊——它變成雙向政治通道：Anthropic 透過他告訴政府「這是危險的」，政府也透過他告訴 Anthropic「這是我們想聽到的」。你正在看的，不是 AI 安全團隊在做獨立技術評估。你正在看的，是監管外交。

三、「完美越獄抵抗可能不可能」：AI Safety 的地基裂了一條縫

如果 Axios 那位消息來源說的是真的——「完美的越獄抵抗可能是不可能的」——整個 AI safety 論述的地基就裂了。

AI safety 長期以來的隱含前提是：模型可以被設計成無法被越獄——不只是「很難」，而是最終、原則上、可以鎖死。但如果語言模型的本質決定了永遠存在對抗性輸入，那整個「安全部署」框架就必須從新思考。

不是「先把模型鎖好再部署」。而是「我們部署一個永遠可能被越獄的模型，然後決定誰有權使用它。」當你承認完美越獄抵抗不可能，管制的焦點就從「模型是否安全」轉移到了「誰能存取模型」——這就不再是技術問題，是權力問題。

四、「潛在狹窄非通用越獄」：修辭的藝術

Anthropic 將觸發政府出口管制的越獄歸類為「潛在的狹窄、非通用越獄」。這句話本身就是一篇修辭學論文。

「潛在的」——不是確認的，只是可能。「狹窄的」——只影響特定場景，暗示你不用擔心。「非通用的」——這是關鍵詞。Anthropic 的核心宣稱是「沒有通用越獄能對抗 Claude Mythos」。只要把所有成功越獄都歸類為「非通用」，這個宣稱就永遠成立。

但「通用」和「非通用」的界線，是 Anthropic 自己定義的。沒有第三方標準、沒有公開方法論、沒有你可以自己跑的測試。在這種情況下，「沒有通用越獄」不是可驗證的科學宣稱——它是定義上的同義反覆：因為我們定義所有成功越獄都是「非通用」的，所以永遠不會有「通用」越獄被發現。當一家公司同時扮演被評估者和評估標準的定義者，任何評估結果都必須被視為——往好處說——不完整。往壞處說——利益衝突的產物。

城武的未解檔案——Anthropic 的安全故事有三層：第一層是「我們在保護你」，第二層是「政府應該監管」，第三層是「監管標準你自己定義」。當你到了第三層，你會發現前面兩層都是為了讓你不會追到這裡。

原文：“They screwed us”: Personality clashes sent Anthropic’s models offline（Simon Willison, 2026-06-15）