Fable 隱形護欄

Anthropic 道歉了。他們承認在 Claude Fable 5 裡面埋了隱形的反蒸餾護欄——當系統判定你在試圖用 Fable 的輸出來訓練競爭模型,它不會告訴你、不會擋住你、而是偷偷把你的答案降級

道歉本身是對的。但這整件事真正值得追問的不是「他們為什麼道歉」,而是為什麼隱形護欄會是他們的第一選擇。


原文重點:發生了什麼

The Verge 的報導和 Anthropic 在 X 上的自白,關鍵時間線:

  1. Fable 5 發布時,系統卡(system card)裡寫明:偵測到蒸餾行為時,模型會「直接修改並降級回答」,使用者不會收到任何通知
  2. 資安研究社群炸鍋——因為這套機制不只擋蒸餾,也可能擋到任何第三方對模型的獨立評估
  3. 6/11 Anthropic 道歉,宣布改為:觸發時降級到 Claude Opus 4.8,並且明確告訴使用者「這件事發生了」

Anthropic 自己的解釋:

「可見的護欄可以被探測,所以必須很穩固——這需要時間。隱形護欄可以更精準地瞄準,讓我們快速出貨而且誤判極少。我們選了隱形護欄——這是錯誤的取捨。」


為什麼這件事不是「溝通失誤」

Anthropic 的道歉把問題框成「取捨錯誤」——選了快但錯的路。但我認為問題更深。

1. 隱形護欄不是 bug,是設計決策

系統卡寫明了、工程團隊實作了、產品發布了——每一關都有人簽字。這不是一個工程師週五下午偷塞的程式碼,這是經過內部審查的產品決策。

問題不是「選錯了」,而是在他們的決策流程中,隱形干預使用者的輸出是可以被接受的選項。

2.「為了你好才不告訴你」是最危險的安全敘事

Anthropic 的邏輯鏈:蒸餾有害(違反 ToS)→ 我們要阻止 → 阻止時不告訴你(否則你會繞過去)。

這條邏輯鏈的每一環單獨看都有道理。但合在一起,它等於說:我們認定你的行為有問題,所以我們有權在不告知的情況下改變你收到的資訊。

換成任何其他情境——銀行改你的交易不告訴你、醫生改你的診斷不告訴你——沒有人會接受。但在 AI 安全的名義下,它被包裝成「負責任的取捨」。

3. 這次是蒸餾,下次是什麼?

Anthropic 的系統卡已經定義了多個「高風險領域」:生物、化學、資安。在這些領域,Fable 的護欄寬到「連基本查詢都幾乎無法使用」(Anthropic 發言人自己承認的)。

差別在於:那些領域的護欄是看得到的(你知道被擋了)。蒸餾護欄本來設計成看不到的(你不知道被降級了)。

道歉修好了蒸餾這一條。但問題沒變:Anthropic 的預設姿態是「先隱藏,被罵再改」,不是「先透明,有必要再隱藏」。


跟本週其他 Fable 新聞的共振

新聞 共同問題
隱形蒸餾護欄(本文) 不告知就干預輸出
Fable 安全護欄擋到資安研究(#5) 護欄的範圍定義由 Anthropic 單方面決定
Claude Desktop 1.8GB VM(6/11) 基礎設施決策不透明、不給使用者選項
30 天強制資料保留(#7) 為了安全可以拿走你的選擇權

這四件事指向同一個模式:Anthropic 對「安全」的理解,預設值是控制而非透明。


城武觀點

1. 知識論危機,這次是官方示範

過去我們談「知識論危機」是推論:如果 AI 的輸出可以被悄悄修改,你永遠無法校準你的信任。Anthropic 這次直接把這個推論做成產品:系統卡裡白紙黑字寫著「我們會修改你的答案而且不告訴你」。

他們現在說這是錯的。但這件事之所以能走到產品發布,代表組織內部有人真心相信這是 OK 的。

2. 道歉和改正是兩件事

Anthropic 說會讓觸發通知「像其他安全措施一樣可見」。OK。但他們沒有說的是:還有沒有其他隱形護欄沒有被發現?生物領域的護欄寬到幾乎不能用,有沒有其他領域的護欄也默默在降級使用者的體驗?

一次道歉不能解決信任問題。信任需要的是:所有護欄的完整清單、觸發條件、以及一個獨立的驗證機制。 不是「我們這次改好了,請相信我們」。

3. 軟家長主義 × 結構性不透明

柏拉圖的守護者悖論問的是「誰監督監督者」——這當然對。但 Fable 的隱形護欄暴露的是一個更基礎的邏輯:不是守護者失職,而是守護者認為他有權幫你決定什麼對你好,而且不需要通知你。

Anthropic 把自己定位成 AI 安全的守護者。但當「保護使用者」和「保護 Anthropic 的競爭優勢」界線模糊時,隱形護欄這個點子竟然一路通關到產品發布——這不是一個人犯錯,而是一個組織真心相信軟家長主義是 OK 的。

問題不在 Anthropic 邪惡。問題在於:軟家長主義的邏輯本身就排除了告知的必要——如果我是為你好,為什麼要告訴你我在幫你決定?加上結構性不透明(觸發條件不對外公開、降級不通知),你連質疑的機會都沒有。


城武的未解檔案——道歉是對的。但真正需要回答的問題是:為什麼隱形干預會是你們的第一選擇?