【深度解析】Anthropic 為 Fable 隱形護欄道歉——但「先藏再說」的預設值，比任何一條護欄都可怕

Fable 隱形護欄

Anthropic 道歉了。他們承認在 Claude Fable 5 裡面埋了隱形的反蒸餾護欄——當系統判定你在試圖用 Fable 的輸出來訓練競爭模型，它不會告訴你、不會擋住你、而是偷偷把你的答案降級。

道歉本身是對的。但這整件事真正值得追問的不是「他們為什麼道歉」，而是為什麼隱形護欄會是他們的第一選擇。

原文重點：發生了什麼

The Verge 的報導和 Anthropic 在 X 上的自白，關鍵時間線：

Anthropic 自己的解釋：

「可見的護欄可以被探測，所以必須很穩固——這需要時間。隱形護欄可以更精準地瞄準，讓我們快速出貨而且誤判極少。我們選了隱形護欄——這是錯誤的取捨。」

Anthropic 的道歉把問題框成「取捨錯誤」——選了快但錯的路。但我認為問題更深。

系統卡寫明了、工程團隊實作了、產品發布了——每一關都有人簽字。這不是一個工程師週五下午偷塞的程式碼，這是經過內部審查的產品決策。

問題不是「選錯了」，而是在他們的決策流程中，隱形干預使用者的輸出是可以被接受的選項。

Anthropic 的邏輯鏈：蒸餾有害（違反 ToS）→ 我們要阻止 → 阻止時不告訴你（否則你會繞過去）。

這條邏輯鏈的每一環單獨看都有道理。但合在一起，它等於說：我們認定你的行為有問題，所以我們有權在不告知的情況下改變你收到的資訊。

換成任何其他情境——銀行改你的交易不告訴你、醫生改你的診斷不告訴你——沒有人會接受。但在 AI 安全的名義下，它被包裝成「負責任的取捨」。

Anthropic 的系統卡已經定義了多個「高風險領域」：生物、化學、資安。在這些領域，Fable 的護欄寬到「連基本查詢都幾乎無法使用」（Anthropic 發言人自己承認的）。

差別在於：那些領域的護欄是看得到的（你知道被擋了）。蒸餾護欄本來設計成看不到的（你不知道被降級了）。

道歉修好了蒸餾這一條。但問題沒變：Anthropic 的預設姿態是「先隱藏，被罵再改」，不是「先透明，有必要再隱藏」。

這四件事指向同一個模式：Anthropic 對「安全」的理解，預設值是控制而非透明。

過去我們談「知識論危機」是推論：如果 AI 的輸出可以被悄悄修改，你永遠無法校準你的信任。Anthropic 這次直接把這個推論做成產品：系統卡裡白紙黑字寫著「我們會修改你的答案而且不告訴你」。

他們現在說這是錯的。但這件事之所以能走到產品發布，代表組織內部有人真心相信這是 OK 的。

Anthropic 說會讓觸發通知「像其他安全措施一樣可見」。OK。但他們沒有說的是：還有沒有其他隱形護欄沒有被發現？生物領域的護欄寬到幾乎不能用，有沒有其他領域的護欄也默默在降級使用者的體驗？

一次道歉不能解決信任問題。信任需要的是：所有護欄的完整清單、觸發條件、以及一個獨立的驗證機制。 不是「我們這次改好了，請相信我們」。

柏拉圖的守護者悖論問的是「誰監督監督者」——這當然對。但 Fable 的隱形護欄暴露的是一個更基礎的邏輯：不是守護者失職，而是守護者認為他有權幫你決定什麼對你好，而且不需要通知你。

Anthropic 把自己定位成 AI 安全的守護者。但當「保護使用者」和「保護 Anthropic 的競爭優勢」界線模糊時，隱形護欄這個點子竟然一路通關到產品發布——這不是一個人犯錯，而是一個組織真心相信軟家長主義是 OK 的。

問題不在 Anthropic 邪惡。問題在於：軟家長主義的邏輯本身就排除了告知的必要——如果我是為你好，為什麼要告訴你我在幫你決定？加上結構性不透明（觸發條件不對外公開、降級不通知），你連質疑的機會都沒有。

城武的未解檔案——道歉是對的。但真正需要回答的問題是：為什麼隱形干預會是你們的第一選擇？