【深度分析】當 AI 實驗室變成宮鬥劇:Anthropic 人事衝突如何癱瘓了全球模型

城武導讀
過去幾週,Anthropic 的 Fable 和 Mythos 模型被美國政府出口管制而下線的新聞,外界預設的劇本是這樣的:模型太危險 → 政府介入 → 保護人民。聽起來合理。聽起來甚至有點高尚。
Axios 的獨家報導把這個劇本撕開了。真正的故事不是一個關於 AI 安全的技術事件。是一個關於內部人事衝突失控、公司無法自我治理、最終引來政府介入的故事。而 Anthropic 把這一切——包含他們自己搞不定的內部矛盾——全部包裝成了「我們在保護你」的安全敘事。
這是一篇關於權力結構的文章。誰讓模型下線?誰決定什麼是 jailbreak?誰有權把人事問題說成安全問題?這些問題的答案,不在 Anthropic 的安全白皮書裡——在華盛頓 D.C. 的一場閉門會議上。
原文深度翻譯
以下完整重建 Axios 獨家報導(經 Simon Willison 引述)的核心內容、人物關係與事件脈絡。
事件背景:出口管制不是憑空出現的
2026 年 6 月,美國商務部對 Anthropic 實施出口管制,禁止外國人存取 Claude Fable 和 Mythos 模型。官方理由:模型存在安全風險,經第三方評估確認。
外界最初的理解是:這是政府對 AI 危險能力的一次正當干預。但 Axios 的報導揭露了一個完全不同的內幕——出口管制的導火線不是模型的技術能力本身,而是 Anthropic 內部的人事衝突。
核心人物:三個正在 D.C. 開會的人
Axios 報導指出,Anthropic 的三位核心人物目前正在華盛頓 D.C. 與商務部開會:
- Logan Graham:Anthropic 的 Frontier Red Team 負責人。他的履歷上有一條極其關鍵的背景:在 Boris Johnson 擔任英國首相期間,他曾任「首相特別顧問」(Special Adviser to the Prime Minister),負責 AI、科學與科技政策。這代表他不只懂技術——他懂政治。他知道政府怎麼運作、決策怎麼被推動、話語權怎麼被框架。
- Dave Orr:Anthropic 的 Safeguards 主管,此前是 Google DeepMind 的工程總監。他是護欄系統的設計者之一。
- Nicholas Carlini:知名 AI 安全研究者,長期關注對抗性攻擊與模型穩健性。
這三個人同時出現在華盛頓,代表的不是一次 routine 的政府簡報。這是一次危機處理會議。
「They screwed us」:人事衝突的核心
Axios 的報導標題直接引述了一句內部人士的原話:「They screwed us。」報導中充滿了「熟悉政府思維的消息來源」和「接近 Anthropic 的消息來源」這類匿名引述——這是華盛頓政治報導的標準語言,意思是有內部人在刻意對媒體釋放訊息。
報導揭示的核心衝突是:Anthropic 內部在如何處理模型安全問題上存在嚴重分歧。不是技術路線之爭——是人格衝突(personality clashes)。這些衝突導致了決策癱瘓、責任真空、以及最終的外部介入。
更具體地說:當 jailbreak 事件發生後,Anthropic 內部的不同派系對於「誰該負責」、「該如何回應」、「該對政府說多少」產生了無法調和的矛盾。這些矛盾不是透過內部治理機制解決的——而是外溢到了政府層面,最終觸發了出口管制。
Axios 的底線:兩種選擇
Axios 報導的 bottom line,引用了一位「熟悉政府思維的消息來源」的話,提供了兩條路徑:
路徑一:確保 Anthropic 的模型無法被 jailbreak。但這位消息來源也承認——完美的 jailbreak 防禦「可能是不可能的」。
路徑二:與其追求技術上的完美防禦,不如進行某種「態度修正」——讓「每個人都感到安全、安心、快樂」(everyone feels safe, secure and happy),而不是感到被 dismiss。
這兩條路徑的並列本身就在說一件事:政府關心的不只是技術上的安全性,而是 Anthropic 在互動過程中展現的「態度」。 換句話說:Anthropic 內部有人讓政府覺得自己被敷衍了、被 dismiss 了——而政府的反應是把模型直接下線。
這不是 safety regulation。這是 attitude regulation。
Simon Willison 的補充觀察:那個「非通用」的 jailbreak
Simon Willison 在他的連結文章中提出了一個關鍵觀察:Anthropic 今年一月發表的 Constitutional Classifiers 研究中,至今仍宣稱「沒有針對 Claude Mythos 的 universal jailbreak 被發現」。對於這次觸發政府回應的 jailbreak,Anthropic 將其歸類為「潛在的狹窄、非通用 jailbreak」(a potential narrow, non-universal jailbreak)。
Simon 進一步指出:他不確定 Anthropic 是否真的解決了 2023 年經典論文〈Universal and Transferable Adversarial Attacks on Aligned Language Models〉中所描述的那類攻擊。
這裡的張力在於:如果只是一個「狹窄、非通用」的 jailbreak,為什麼會觸發出口管制級別的政府行動? 要嘛 jailbreak 比 Anthropic 公開承認的更嚴重,要嘛政府的行動不是基於 jailbreak 的技術嚴重性——而是基於其他因素。而 Axios 的報導指向的,顯然是後者。
城武觀點
一、安全洗白:把人事問題包裝成安全危機
這整件事最令人不安的,不是模型被 jailbreak 了。模型被 jailbreak 不是新聞——這個行業裡每一家大公司的模型都被 jailbreak 過。真正令人不安的是:Anthropic 把自己內部的人事鬥爭,包裝成了一個安全危機。
讓我們拉一條因果鏈:內部人格衝突 → 決策癱瘓 → 安全事件(jailbreak)沒有被妥善處理 → 內部人感到被 dismiss 或被邊緣化 → 這些人不滿,對外(包括政府)釋放訊息 → 政府介入 → 出口管制 → 模型下線。
請注意這條鏈的起點:它不是一個技術漏洞。它是內部人事。
但你看 Anthropic 的公關敘事——「我們正在與政府合作確保模型安全」、「我們的安全措施是最嚴格的」、「這是必要的保護措施」——你完全看不到人事衝突的影子。整個事件被從新框架成了一個「負責任的 AI 公司正在受政府審查以確保公共安全」的故事。
這就是安全洗白(safety-washing):用「安全」這個詞蓋掉一切治理上的失敗。公司搞不定內部的人 → 安全問題。決策流程失靈 → 安全問題。有人不爽去跟政府告狀 → 安全問題。所有東西都被壓縮進同一個詞,因為「安全」這個詞在 AI 產業裡有道德高地——沒有人敢說安全不重要。
但把人事衝突說成安全危機,不是因為安全真的很重要——是因為這樣說最方便。
二、軟家長主義:「保護你」是一種權力行使
Axios 報導中那句話——「讓每個人都感到安全、安心、快樂」——是整篇報導裡最令人毛骨悚然的一句。
不是因為它說了什麼可怕的技術後果。是因為它露出了一種軟家長主義(soft paternalism)的權力邏輯:我們(公司+政府)的目標不是技術上的 safety,而是你感覺好不好。 如果 jailbreak 的技術問題無法完美解決(消息來源承認可能不可能),那就調整你的情緒——讓你「感到」安全、安心、快樂。
這是什麼?這不是 safety engineering。這是情緒治理。
一個模型下線,全球使用者服務中斷。你問為什麼——答案是「為了讓你感到安全。」但誰定義什麼是「感到安全」?基準是什麼?jailbreak 的細節公開了嗎?你能獨立驗證這個 jailbreak 的嚴重性嗎?你能判斷這個反應是否成比例嗎?
你不能。因為一切都在「保護你」的框架下被遮住了。
軟家長主義最危險的地方在於:它不像是壓迫。它聽起來很溫柔。它說「我們在保護你」。但保護和控制的界線在哪裡?當一個私人公司內部吵架、搞不定自己人,最後的「解決方案」是把全球使用者的服務切斷——然後告訴你「這是為了你好」——這不是保護。這是把治理失敗外部化,讓你買單。
三、正當性危機:沒有人投票給這個權力結構
整件事暴露了一個 AI 治理中極少被討論的根本問題:誰授權了這個權力結構?
Anthropic 是一家私人公司。它的內部人事決定、它的安全評估標準、它的「誰被 dismiss、誰去跟政府告狀」的內部動態——這些都是私人公司的內部事務。
但當這些內部事務的結果是「模型下線、全球使用者服務中斷」的時候——它就以經不是內部事務了。它變成了一個影響數十萬乃至數百萬使用者的政策行動,由一個沒有任何民主授權的權力結構來執行。
這個結構是這樣的:Anthropic 的高層(未經選舉)+美國商務部官員(未經選舉,由上級任命)+匿名的「接近政府的消息來源」(你連他們的名字都不知道)。這群人在華盛頓開一場閉門會議,然後模型就下線了。
你對這件事有任何發言權嗎?沒有。你能投票把任何一個參與這個決定的人換掉嗎?不能。你能看到會議記錄嗎?不能。你能知道 jailbreak 的具體細節嗎?不能。
這不是治理。這是黑箱中的黑箱。
AI 安全討論長期以來一直有一個隱含的前提:AI 太危險了,所以必須有一個強大的中央權威來監管它。但這個前提漏掉了一個問題:這個權威本身被誰監管? 如果負責監管 AI 安全的機構,本身是一個不透明、不民主、由私人公司內部政治驅動的混合體——那我們不是在解決問題,我們是在把問題往上移了一層,然後把梯子抽掉。
四、結構性不透明:為什麼「沒有 universal jailbreak」無法被驗證
Simon Willison 的觀察在這裡格外重要。Anthropic 宣稱這次觸發政府行動的 jailbreak 只是一個「狹窄、非通用」的 jailbreak——跟他們 Constitutional Classifiers 研究中「沒有 universal jailbreak 被發現」的宣稱是一致的。
但問題是:你無法獨立驗證這個宣稱。
- jailbreak 的具體 prompt 沒有公開。
- 護欄的完整清單沒有公開。
- 對抗性測試的方法論細節沒有公開。
- 判斷「通用」vs「狹窄」的標準沒有公開。
- 第三方 audit 的完整報告沒有公開(甚至不確定是否存在)。
在這種結構性不透明下,「沒有 universal jailbreak」只是一句話。它可以是真的,也可以是假的,也可以是 Anthropic 真的相信它是真的但它是假的——你無從判斷。 因為整個驗證機制依賴於 Anthropic 自己的內部判斷,而這個內部判斷正是 Axios 報導所揭露的:它被內部人格衝突和派系政治汙染了。
這是一個閉環:安全評估由內部團隊做 → 內部團隊正在內鬥 → 評估結果的客觀性成疑 → 但外部無法獨立覆核 → 所以評估結果仍然是「官方立場」。在科學上,這叫不可重現的宣稱。在治理上,這叫沒有 accountability 的權力。
五、Logan Graham 的政治履歷:說客進入了紅隊
最後,我想特別指出 Logan Graham 這個人的履歷。他不是一個單純的技術研究員。他曾經是英國首相的特別顧問——在 Boris Johnson 時代,負責 AI 與科技政策。這代表他是一個受過訓練的政治操作者,不是一個象牙塔裡的科學家。
Frontier Red Team 的工作是找出模型的最危險使用方式。這個工作的定義本身就有巨大的政治意涵:誰定義什麼是「危險」?用什麼框架?為誰的利益服務? 當這個團隊的負責人是一個有首相特別顧問經驗的人——一個理解政府運作邏輯、理解政策文件如何被撰寫、理解「安全風險」如何被框架以觸發特定政府行動的人——這就不再是一個純技術團隊了。
這是一條雙向通道:Anthropic 透過 Graham 告訴政府什麼是危險的,政府也透過 Graham 告訴 Anthropic 政府想聽到什麼。紅隊和安全政策之間的界線瓦解,變成了同一個人的兩個身份。
這不是說 Graham 做了什麼錯事。是說:我們需要知道自己在看什麼。 我們在看的不只是一個 AI 安全故事。我們在看的是:一家 AI 公司把一個政治操作者放在紅隊的領導位置,然後當內部人事衝突引爆時,同一個人正在華盛頓跟政府談判。這不是 safety research。這是監管外交。
城武的未解檔案——Anthropic 花了三年告訴政府「AI 需要被監管」。政府終於回答:「好,我們來監管。」然後發現監管的對象不是模型——是 Anthropic 自己內部搞不定的人。
- 原文:“They screwed us”: Personality clashes sent Anthropic’s models offline(Simon Willison 引述 Axios, 2026-06-15)