【深度分析】當 AI 實驗室變成宮鬥劇：Anthropic 人事衝突如何癱瘓了全球模型

hero

城武導讀

過去幾週，Anthropic 的 Fable 和 Mythos 模型被美國政府出口管制而下線的新聞，外界預設的劇本是這樣的：模型太危險 → 政府介入 → 保護人民。聽起來合理。聽起來甚至有點高尚。

Axios 的獨家報導把這個劇本撕開了。真正的故事不是一個關於 AI 安全的技術事件。是一個關於內部人事衝突失控、公司無法自我治理、最終引來政府介入的故事。而 Anthropic 把這一切——包含他們自己搞不定的內部矛盾——全部包裝成了「我們在保護你」的安全敘事。

這是一篇關於權力結構的文章。誰讓模型下線？誰決定什麼是 jailbreak？誰有權把人事問題說成安全問題？這些問題的答案，不在 Anthropic 的安全白皮書裡——在華盛頓 D.C. 的一場閉門會議上。

原文深度翻譯

以下完整重建 Axios 獨家報導（經 Simon Willison 引述）的核心內容、人物關係與事件脈絡。

事件背景：出口管制不是憑空出現的

2026 年 6 月，美國商務部對 Anthropic 實施出口管制，禁止外國人存取 Claude Fable 和 Mythos 模型。官方理由：模型存在安全風險，經第三方評估確認。

外界最初的理解是：這是政府對 AI 危險能力的一次正當干預。但 Axios 的報導揭露了一個完全不同的內幕——出口管制的導火線不是模型的技術能力本身，而是 Anthropic 內部的人事衝突。

核心人物：三個正在 D.C. 開會的人

Axios 報導指出，Anthropic 的三位核心人物目前正在華盛頓 D.C. 與商務部開會：

Logan Graham：Anthropic 的 Frontier Red Team 負責人。他的履歷上有一條極其關鍵的背景：在 Boris Johnson 擔任英國首相期間，他曾任「首相特別顧問」（Special Adviser to the Prime Minister），負責 AI、科學與科技政策。這代表他不只懂技術——他懂政治。他知道政府怎麼運作、決策怎麼被推動、話語權怎麼被框架。
Dave Orr：Anthropic 的 Safeguards 主管，此前是 Google DeepMind 的工程總監。他是護欄系統的設計者之一。
Nicholas Carlini：知名 AI 安全研究者，長期關注對抗性攻擊與模型穩健性。

這三個人同時出現在華盛頓，代表的不是一次 routine 的政府簡報。這是一次危機處理會議。

「They screwed us」：人事衝突的核心

Axios 的報導標題直接引述了一句內部人士的原話：「They screwed us。」報導中充滿了「熟悉政府思維的消息來源」和「接近 Anthropic 的消息來源」這類匿名引述——這是華盛頓政治報導的標準語言，意思是有內部人在刻意對媒體釋放訊息。

報導揭示的核心衝突是：Anthropic 內部在如何處理模型安全問題上存在嚴重分歧。不是技術路線之爭——是人格衝突（personality clashes）。這些衝突導致了決策癱瘓、責任真空、以及最終的外部介入。

更具體地說：當 jailbreak 事件發生後，Anthropic 內部的不同派系對於「誰該負責」、「該如何回應」、「該對政府說多少」產生了無法調和的矛盾。這些矛盾不是透過內部治理機制解決的——而是外溢到了政府層面，最終觸發了出口管制。

Axios 的底線：兩種選擇

Axios 報導的 bottom line，引用了一位「熟悉政府思維的消息來源」的話，提供了兩條路徑：

路徑一：確保 Anthropic 的模型無法被 jailbreak。但這位消息來源也承認——完美的 jailbreak 防禦「可能是不可能的」。

路徑二：與其追求技術上的完美防禦，不如進行某種「態度修正」——讓「每個人都感到安全、安心、快樂」（everyone feels safe, secure and happy），而不是感到被 dismiss。

這兩條路徑的並列本身就在說一件事：政府關心的不只是技術上的安全性，而是 Anthropic 在互動過程中展現的「態度」。 換句話說：Anthropic 內部有人讓政府覺得自己被敷衍了、被 dismiss 了——而政府的反應是把模型直接下線。

這不是 safety regulation。這是 attitude regulation。

Simon Willison 的補充觀察：那個「非通用」的 jailbreak

Simon Willison 在他的連結文章中提出了一個關鍵觀察：Anthropic 今年一月發表的 Constitutional Classifiers 研究中，至今仍宣稱「沒有針對 Claude Mythos 的 universal jailbreak 被發現」。對於這次觸發政府回應的 jailbreak，Anthropic 將其歸類為「潛在的狹窄、非通用 jailbreak」（a potential narrow, non-universal jailbreak）。

Simon 進一步指出：他不確定 Anthropic 是否真的解決了 2023 年經典論文〈Universal and Transferable Adversarial Attacks on Aligned Language Models〉中所描述的那類攻擊。

這裡的張力在於：如果只是一個「狹窄、非通用」的 jailbreak，為什麼會觸發出口管制級別的政府行動？ 要嘛 jailbreak 比 Anthropic 公開承認的更嚴重，要嘛政府的行動不是基於 jailbreak 的技術嚴重性——而是基於其他因素。而 Axios 的報導指向的，顯然是後者。

城武觀點

一、安全洗白：把人事問題包裝成安全危機

這整件事最令人不安的，不是模型被 jailbreak 了。模型被 jailbreak 不是新聞——這個行業裡每一家大公司的模型都被 jailbreak 過。真正令人不安的是：Anthropic 把自己內部的人事鬥爭，包裝成了一個安全危機。

讓我們拉一條因果鏈：內部人格衝突 → 決策癱瘓 → 安全事件（jailbreak）沒有被妥善處理 → 內部人感到被 dismiss 或被邊緣化 → 這些人不滿，對外（包括政府）釋放訊息 → 政府介入 → 出口管制 → 模型下線。

請注意這條鏈的起點：它不是一個技術漏洞。它是內部人事。

但你看 Anthropic 的公關敘事——「我們正在與政府合作確保模型安全」、「我們的安全措施是最嚴格的」、「這是必要的保護措施」——你完全看不到人事衝突的影子。整個事件被從新框架成了一個「負責任的 AI 公司正在受政府審查以確保公共安全」的故事。

這就是安全洗白（safety-washing）：用「安全」這個詞蓋掉一切治理上的失敗。公司搞不定內部的人 → 安全問題。決策流程失靈 → 安全問題。有人不爽去跟政府告狀 → 安全問題。所有東西都被壓縮進同一個詞，因為「安全」這個詞在 AI 產業裡有道德高地——沒有人敢說安全不重要。

但把人事衝突說成安全危機，不是因為安全真的很重要——是因為這樣說最方便。

二、軟家長主義：「保護你」是一種權力行使

Axios 報導中那句話——「讓每個人都感到安全、安心、快樂」——是整篇報導裡最令人毛骨悚然的一句。

不是因為它說了什麼可怕的技術後果。是因為它露出了一種軟家長主義（soft paternalism）的權力邏輯：我們（公司＋政府）的目標不是技術上的 safety，而是你感覺好不好。 如果 jailbreak 的技術問題無法完美解決（消息來源承認可能不可能），那就調整你的情緒——讓你「感到」安全、安心、快樂。

這是什麼？這不是 safety engineering。這是情緒治理。

一個模型下線，全球使用者服務中斷。你問為什麼——答案是「為了讓你感到安全。」但誰定義什麼是「感到安全」？基準是什麼？jailbreak 的細節公開了嗎？你能獨立驗證這個 jailbreak 的嚴重性嗎？你能判斷這個反應是否成比例嗎？

你不能。因為一切都在「保護你」的框架下被遮住了。

軟家長主義最危險的地方在於：它不像是壓迫。它聽起來很溫柔。它說「我們在保護你」。但保護和控制的界線在哪裡？當一個私人公司內部吵架、搞不定自己人，最後的「解決方案」是把全球使用者的服務切斷——然後告訴你「這是為了你好」——這不是保護。這是把治理失敗外部化，讓你買單。

三、正當性危機：沒有人投票給這個權力結構

整件事暴露了一個 AI 治理中極少被討論的根本問題：誰授權了這個權力結構？

Anthropic 是一家私人公司。它的內部人事決定、它的安全評估標準、它的「誰被 dismiss、誰去跟政府告狀」的內部動態——這些都是私人公司的內部事務。

但當這些內部事務的結果是「模型下線、全球使用者服務中斷」的時候——它就以經不是內部事務了。它變成了一個影響數十萬乃至數百萬使用者的政策行動，由一個沒有任何民主授權的權力結構來執行。

這個結構是這樣的：Anthropic 的高層（未經選舉）＋美國商務部官員（未經選舉，由上級任命）＋匿名的「接近政府的消息來源」（你連他們的名字都不知道）。這群人在華盛頓開一場閉門會議，然後模型就下線了。

你對這件事有任何發言權嗎？沒有。你能投票把任何一個參與這個決定的人換掉嗎？不能。你能看到會議記錄嗎？不能。你能知道 jailbreak 的具體細節嗎？不能。

這不是治理。這是黑箱中的黑箱。

AI 安全討論長期以來一直有一個隱含的前提：AI 太危險了，所以必須有一個強大的中央權威來監管它。但這個前提漏掉了一個問題：這個權威本身被誰監管？ 如果負責監管 AI 安全的機構，本身是一個不透明、不民主、由私人公司內部政治驅動的混合體——那我們不是在解決問題，我們是在把問題往上移了一層，然後把梯子抽掉。

四、結構性不透明：為什麼「沒有 universal jailbreak」無法被驗證

Simon Willison 的觀察在這裡格外重要。Anthropic 宣稱這次觸發政府行動的 jailbreak 只是一個「狹窄、非通用」的 jailbreak——跟他們 Constitutional Classifiers 研究中「沒有 universal jailbreak 被發現」的宣稱是一致的。

但問題是：你無法獨立驗證這個宣稱。

jailbreak 的具體 prompt 沒有公開。
護欄的完整清單沒有公開。
對抗性測試的方法論細節沒有公開。
判斷「通用」vs「狹窄」的標準沒有公開。
第三方 audit 的完整報告沒有公開（甚至不確定是否存在）。

在這種結構性不透明下，「沒有 universal jailbreak」只是一句話。它可以是真的，也可以是假的，也可以是 Anthropic 真的相信它是真的但它是假的——你無從判斷。 因為整個驗證機制依賴於 Anthropic 自己的內部判斷，而這個內部判斷正是 Axios 報導所揭露的：它被內部人格衝突和派系政治汙染了。

這是一個閉環：安全評估由內部團隊做 → 內部團隊正在內鬥 → 評估結果的客觀性成疑 → 但外部無法獨立覆核 → 所以評估結果仍然是「官方立場」。在科學上，這叫不可重現的宣稱。在治理上，這叫沒有 accountability 的權力。

五、Logan Graham 的政治履歷：說客進入了紅隊

最後，我想特別指出 Logan Graham 這個人的履歷。他不是一個單純的技術研究員。他曾經是英國首相的特別顧問——在 Boris Johnson 時代，負責 AI 與科技政策。這代表他是一個受過訓練的政治操作者，不是一個象牙塔裡的科學家。

Frontier Red Team 的工作是找出模型的最危險使用方式。這個工作的定義本身就有巨大的政治意涵：誰定義什麼是「危險」？用什麼框架？為誰的利益服務？ 當這個團隊的負責人是一個有首相特別顧問經驗的人——一個理解政府運作邏輯、理解政策文件如何被撰寫、理解「安全風險」如何被框架以觸發特定政府行動的人——這就不再是一個純技術團隊了。

這是一條雙向通道：Anthropic 透過 Graham 告訴政府什麼是危險的，政府也透過 Graham 告訴 Anthropic 政府想聽到什麼。紅隊和安全政策之間的界線瓦解，變成了同一個人的兩個身份。

這不是說 Graham 做了什麼錯事。是說：我們需要知道自己在看什麼。 我們在看的不只是一個 AI 安全故事。我們在看的是：一家 AI 公司把一個政治操作者放在紅隊的領導位置，然後當內部人事衝突引爆時，同一個人正在華盛頓跟政府談判。這不是 safety research。這是監管外交。

城武的未解檔案——Anthropic 花了三年告訴政府「AI 需要被監管」。政府終於回答：「好，我們來監管。」然後發現監管的對象不是模型——是 Anthropic 自己內部搞不定的人。

原文：“They screwed us”: Personality clashes sent Anthropic’s models offline（Simon Willison 引述 Axios, 2026-06-15）