【深度翻譯】Fable 5 的安全限制讓資安研究社群炸鍋——善意 guardrails 為什麼反而製造更多問題？

原文：Cybersecurity researchers aren’t happy about the guardrails on Anthropic’s Fable 來源：TechCrunch 作者：Lorenzo Franceschi-Bicchierai 日期：2026-06-10

城武導讀

Anthropic 的 Fable 5 發表不到 24 小時，資安研究社群就炸了。

表面問題是 guardrails 太粗糙——只要碰到「網路安全」相關關鍵字就觸發限制，連讀一篇部落格文章、做一次 code review 都會被擋。但真正的問題更深：當一個宣稱要保護網路安全的模型，拒絕讓資安研究社群測試它——你到底在保護誰？

原文深度翻譯

TechCrunch 記者 Lorenzo Franceschi-Bicchierai 的報導，發表於 Fable 5 發布隔天。以下逐段翻譯。

Anthropic 在週二發布了最新模型 Fable，定位為其強大且備受炒作的網路安全模型 Mythos 的公開版本（但能力經過限制）。

但不是所有人都對這些限制感到滿意，許多資安研究者和專業人士在網路上表達了不滿。

IBM X-Force 的知名安全研究員 Valentina “Chompie” Palmiotti 說，Fable 拒絕任何可能跟網路安全沾到邊的請求，連讀一篇部落格文章這種無害的任務都被擋。當 prompt 觸發 guardrails 時，Fable 會暫停對話，顯示「安全措施將此訊息標記為網路安全或生物學主題」。

這些 guardrails 是為了降低 Fable 被用來開發惡意軟體或破壞軟體的風險——這是 Anthropic 內部的長期關切。生物學方面的限制則來自對生物武器開發的類似憂慮。

今年四月 Anthropic 發布 Mythos 時，只開放給少數公司和組織，稱為「Project Glasswing」，目標是部署模型來保護關鍵軟體和基礎設施。上週 Anthropic 將 Mythos 的使用權擴大到 15 個國家的數百個組織。

但儘管出發點是好的，許多資安專家仍然對限制的粗糙本質感到不滿。資安老將 Matt Suiche 告訴 TechCrunch：如果你要求它寫安全的程式碼，它會假設這是網路安全相關的工作而不是軟體工程最佳實踐，然後你就被降級了。Fable 被設計成碰到 guardrail 時會降級到 Claude Opus 4.8。

Suiche 說，這似乎是基於關鍵字的，任何在「網路安全」詞彙範圍內的東西都會觸發 guardrails。但他也表示理解——我們還在早期，他們還在調整 guardrails，他相信隨著 Anthropic 和其他前沿模型公司與新一代資安公司更深入合作，這些限制會隨時間演進。在這種發布中，抓太多人總比抓不夠好，之後再放寬 guardrails。

另一位研究者在 X 上抱怨，連要求做 code review 都會觸發 Fable 的 guardrails。Anthropic 沒有立即回應置評請求。

除了模型內部的 guardrails，Anthropic 還要求資安專業人士申請「網路驗證計畫」。如果獲批准，申請者在使用 Claude 進行網路安全工作時的限制會比較少。OpenAI 也有類似的計畫叫做「Trusted Access for Cyber」。

城武觀點

關鍵字過濾：最懶的安全策略

Fable 的 guardrails 機制被多位資安專家形容為「基於關鍵字的」。如果你打「cybersecurity」，擋。如果你打「secure code」，擋。如果你打「code review」，也擋——因為 code review 聽起來像在檢查安全漏洞。

這種做法有兩個根本問題。

第一，關鍵字過濾是安全領域最古老、最粗糙、最容易被繞過的手段之一。任何一個認真的攻擊者都可以重述自己的請求，避開觸發詞。真正的惡意使用者不會被擋住，被擋住的是那些用正常語言討論安全問題的研究者和工程師。

第二，也是最諷刺的：Anthropic 宣稱 Mythos/Fable 是為了保護網路安全而生的模型系列。Project Glasswing 的使命就是部署模型來保護關鍵基礎設施。但他們對外的公開版本，卻拒絕讓真正的資安專家測試它、評估它、理解它的能力邊界。

你在打造一個你稱之為「資安模型」的東西，然後不讓資安界看。這不叫安全，這叫安全劇場。

誰來定義「安全」？

Anthropic 的「網路驗證計畫」是一個更深的問題。資安專業人士必須申請、被審核、獲得批准，才能用比較少的限制來使用 Claude 做資安工作。OpenAI 也有類似的「Trusted Access」計畫。

表面上是合理的：確保強大模型不被惡意使用。但結構上，這意味著一間私人公司決定了誰有資格做資安研究，以及用什麼條件。

資安研究的本質是對抗性的。你要找漏洞，就必須嘗試打破東西。你要證明一個系統不安全，就必須演示攻擊。這些行為在 guardrails 的視角下全部都是可疑的——但它們正是資安研究的工作內容。

當一間 AI 公司可以決定誰是「經過驗證的資安研究者」、誰不是，這不只是 gatekeeping 的問題。這是把一個本應由同行評審和學術社群決定的知識生產過程，交給了一間私人公司的審核表。

「抓太多總比抓不夠好」的邏輯陷阱

Matt Suiche 說了一段很微妙的話：在這種發布中，抓太多人總比抓不夠好，之後再放寬。這段話的表面邏輯聽起來合理，但它背後的假設值得追問。

「抓太多總比抓不夠好」的前提是：誤傷無辜比漏掉惡意更可接受。這在機場安檢可能成立——錯過一個炸彈的代價遠大於讓一百個人脫鞋。但在資安研究中，邏輯是相反的。誤傷一個資安研究者的真實成本是：這個人可能發現了下一個 Heartbleed 或 Log4j，但因為模型拒絕幫他分析程式碼，那個漏洞多活了六個月。而這段時間裡，真正的惡意使用者早就繞過 guardrails 了。

Suiche 自己也承認這是過渡期。但「過渡期」有多長？誰來決定什麼時候過渡結束？Anthropic 有公布 guardrails 的調整時間表嗎？有公開哪些關鍵字被列入過濾清單嗎？有讓外部研究者參與 guardrails 的設計和評估嗎？

目前看起來都沒有。

尾聲

Fable 5 的 guardrails 問題不是單一事件。它是 AI 安全敘事中一個反覆出現的模式：用最粗糙的工具解決最複雜的問題，然後把粗糙帶來的誤傷稱為「謹慎」。

Anthropic 的意圖可能是好的——降低惡意使用的風險。但當你的安全措施阻止外部專家驗證你的安全宣稱時，你創造的不是安全。你創造的是一個只有你能評估的安全黑箱。

而黑箱從來就不可信。

TechCrunch 報導發表於 2026 年 6 月 10 日。