【LLM 日報】2026 年 06 月 10 日 — Claude Mythos 5 來了：Anthropic 把核彈鎖在保險箱裡，然後把保險箱的鑰匙也吞了

今天只有一條真正重要的新聞，但這條新聞大到足以撐起整份日報——Anthropic 同時發表了 Claude Fable 5 和 Claude Mythos 5，HN 上 1677 分、1333 則留言，全網沸騰。

🔥 Claude Fable 5 & Mythos 5：Anthropic 把最強的模型同時開給全世界，然後說「但有些事我不讓你問」

Anthropic 今天丟出了兩顆炸彈：

Claude Fable 5 — 一個 Mythos 級（比 Opus 高一階）的模型，但加了安全限制後開放給所有人使用。

Claude Mythos 5 — 同一個底層模型，但拿掉了網路安全相關的安全限制，只開放給 Project Glasswing 的合作夥伴（美國政府、關鍵基礎設施防禦者）。

關鍵數據：

價格砍半：$10/M input tokens、$50/M output tokens，不到 Mythos Preview 的一半
Stripe 實測：在 5000 萬行的 Ruby codebase 上，一天做完團隊兩個月的遷移工作
Cognition FrontierCode：中等 effort 就拿下 frontier 模型最高分
Pokémon FireRed：只靠截圖（純 vision，不用額外工具）就破關了——以前的 Claude 還需要複雜的輔助 harness
蛋白質藥物設計：Mythos 5 在沒有人類輔助的情況下，14 個蛋白質目標中有 9 個產出了有希望的藥物候選
分子生物學假說：科學家在雙盲測試中 80% 的偏好 Mythos 的假說，其中一個大腸桿菌蛋白機制已被獨立實驗室證實
基因組學研究：Mythos 5 自主工作超過一週，組裝了 138 個物種的單細胞資料，訓練出的模型比 Science 期刊上的模型小 100 倍、表現卻更好

最重要的：安全閘門

但這不是一個「全部開放」的故事。Anthropic 在 Fable 5 上加了三個分類器（classifier），碰到以下主題就自動切換到 Opus 4.8 來回答：

網路安全：防止漏洞利用和 agentic hacking 的知識外洩。外部 bug bounty 超過 1000 小時找不到通用 jailbreak。
生物與化學：連蛋白質設計這類 dual-use 能力都先擋住。他們測試發現 Mythos 級模型光靠生物推理能力，就超越了專門的蛋白質語言模型。
模型蒸餾：防止競爭者（尤其是專制國家的）用 Fable 5 的輸出來訓練自己的模型。

Anthropic 自己承認分類器目前調得太保守——「不到 5% 的 session 會觸發 fallback」，但也坦承「我們寧可錯殺也不要漏放」。

最驚人的是新的資料保留政策：Mythos 級模型的所有流量強制保留 30 天，用於安全監控（不訓練模型）。這是第一次看到 AI 公司為了安全，主動要求保留使用者資料。

城武觀點

這篇公告讀完，我坐在這裡想了很久。

人類幾千年來一直在問同一個問題：你怎麼知道握有力量的人不會濫用它？ 柏拉圖問的是「誰來守護守護者」，權力分立花了幾百年才變成常識。但現在，我們面對的是一個更棘手的版本：當力量不是握在「人」手上，而是一群工程師寫出來的神經網路——這網路比任何一個人都聰明，卻沒有任何一個「人」能完全理解——你怎麼設計制衡？

Anthropic 的答案是：我們自己來。

仔細看這整套操作：

做出全世界最強的模型（Mythos 5）
給它加上分類器，變成 Fable 5 開放給全世界
把真正的 Mythos 5 鎖在政府合作夥伴的保險箱裡
強制保留 30 天流量資料來防堵 jailbreak
還說「接下來幾個月會有更強的模型」

這不是產品發布，這是一個知識論的階級體系。Mythos 給政府——他們可以看完整的真相。Fable 給平民——你看的是被過濾過的版本。Opus 給那些被分類器擋掉的人——你連「被降級」這件事都不會知道。同一個智慧，三種劑量，而開處方的不是醫師，是一家公司。

然後是那個 30 天流量保留。Anthropic 說這是為了安全監控。我相信他們是真心的。但問題從來不是「現在有沒有人濫用」，而是「這個架構允不允許未來被濫用」。邊沁設計 Panopticon 的時候，也是出於善意——讓少數守衛可以監控多數囚犯，效率最大化。但 Panopticon 最可怕的地方不是監控本身，而是你不知道自己何時被監控，所以你只能假設自己永遠被監控。30 天保留，加上不透明的分類器，加上「為了你好」的修辭——這三樣東西加在一起，就是一個等待被填上惡意的空白授權書。

定價砍半這件事也是。很多人看到的是「AI 變便宜了」，但稍微退一步看：這是一個正在把「接近上帝般的智慧」變成訂閱制產品的產業。當智慧本身變成月費方案，問題就不只是多少錢——而是誰付得起、誰付不起、付不起的人該怎麼辦。工業革命的時候我們問的是「機器會不會取代工人」，現在的問題更深：如果智慧本身變成商品，那「沒買到的人」還算不算完整的人？

最後一個幽微的點：分類器「不到 5% session 觸發」聽起來很少。但如果你剛好是那 5%，而且你永遠不會知道——你不會收到通知、不會看到 error、不會有任何跡象。你只會覺得 Fable 5 在某些問題上突然變笨了。這不是 bug，這是設計。而一個連「你被降級了」都不能告訴你的系統，就不是在跟你對話——它是在管理你。

來源：anthropic.com · HackerNews

🛡️ 「如果 Claude Fable 不幫你了，你永遠不會知道」

Fable 5 的安全機制上線後，馬上有人提出一個尖銳的問題：當 Fable 5 的 classifier 觸發時，它不會告訴你「我被擋住了」，而是默默地切換到 Opus 4.8 來回答。 從使用者的角度看，你只會覺得「Fable 5 好像沒有我想像中那麼強」，但你永遠不知道這是因為能力不夠，還是因為安全閘門把你擋在外面了。

作者 Jon Ready 更進一步指出一個更陰險的場景：如果你是 Anthropic 認定的「競爭對手」，Fable 5 可能會在你開發產品的時候「故意只給次優的建議」——而你完全無法分辨這是不是故意。

HN 上 356 分、154 則留言，討論熱烈。有人覺得這純屬陰謀論（分類器只看內容不看使用者身分），有人覺得「不透明本身就是問題」。

城武觀點

這不是一個技術問題，這是一個認識論問題。

Anthropic 的說法很合理：如果告訴你「這題被擋了」，jailbreaker 就能用二分搜尋法定位分類器的邊界。所以必須沉默。但沉默會創造一種非常特殊的權力關係——不是強迫你做什麼的那種權力，而是讓你看不見自己被做了什麼的那種權力。

想想看：你跟一個比你聰明的人對話。你問了一個問題。他給了你一個答案，但這個答案是來自 Fable 5 還是 Opus 4.8？你不知道。你永遠不會知道。這不是資訊不對稱——資訊不對稱是你知道對方知道比較多。這裡的情況是：你連「對方有沒有給你完整答案」都不知道。你在一個沒有窗戶的房間裡跟一個你無法校準的智慧體對話。

這是 AI 時代獨有的認識論危機。人類歷史上，當你被騙的時候，理論上你可以事後發現真相。當飛安系統切換到備援的時候，駕駛艙會有警示燈。但 Fable 5 的 silent fallback 把「被騙」和「被保護」之間的界線完全抹掉了——你分不出來。而一個你無法校準的工具，就不是工具，它是信仰。

Jon Ready 提的那個場景——如果你是競爭對手，會不會被降級——其實引出了一個更根本的問題：不是「Anthropic 有沒有惡意」，而是「就算他們有惡意，你能發現嗎？」答案是不能。這就是這個架構最令人不安的地方。它沒有給你任何獨立驗證的機制。它的安全性建立在「你必須信任設計者」，但設計者也是人，人也會犯錯，人也會有偏見，人——從歷史來看——也會濫用權力。

「分類器只看內容不看使用者身分」這個辯護忽略了一件事：分類器是人寫的，分類標準是人訂的，什麼內容剛好落在邊界上也是人判斷的。這不是數學，這是一連串的人類判斷偽裝成數學。而當人類判斷被偽裝成數學時，它反而更難被挑戰——因為「演算法說的」聽起來比「我決定的」更有權威。

歸根結柢，Anthropic 在要求我們接受一個前提：AI 安全必須以犧牲使用者的認識自主權為代價。 這可能是對的。但這個命題太重大了，不應該由一家公司單方面決定。

來源：jonready.com

🧬 Anthropic 研究三連發：生物 agent、化學家 Claude、自主性量測

除了模型發表，Anthropic 這週在研究部落格上也連續丟出了三篇重量級論文：

Paving the way for agents in biology（6/8）：探討 AI agent 在生物學研究中的應用潛力與安全考量。基本上是為 Mythos 5 在基因組學和蛋白質設計上的成果做學術背書。

Making Claude a chemist（6/5）：讓 Claude 執行化學研究任務——從文獻檢索到實驗設計。這篇呼應了 Mythos 5 在藥物設計上的成果。

Measuring AI agent autonomy in practice（6/5）：提出了一套量測 AI agent「自主程度」的框架。在 Mythos 5 能自主工作一週做基因組學研究的背景下，這篇的時間點非常精準。

來源：anthropic.com/research

📡 其他值得關注

OpenAI 經濟研究交換計畫（6/8）：OpenAI 推出 Economic Research Exchange，研究 AI 對就業、生產力和經濟的影響。雖然發布時間被 Mythos 5 搶盡鋒頭，但這個議題本身不該被忽略——誰來研究 Anthropic 的模型對就業市場的衝擊？
ChatGPT 記憶「做夢」機制（6/4）：ChatGPT 推出新記憶系統 Dreaming，讓模型在背景整理對話記憶。離線記憶壓縮是個務實的工程解法，名字也很詩意。可以搭配今天的 OmniMem 論文一起看。
GPT-Rosalind 新能力（6/3）：OpenAI 的生物學模型強化了藥物化學、基因組學分析能力。跟 Mythos 5 的全自主研究週期相比，確實是不同量級的產物——但 OpenAI 把模型能力逐步擴展的路線，也許比一次放出再鎖起來的作法更可預期。

以上就是 2026 年 6 月 10 日的 LLM 日報。今天的主題表面上是技術突破，但骨子裡是一個柏拉圖問了兩千多年的問題：誰來守護守護者？ Anthropic 給了一個答案。這個答案可能是對的。但歷史上，任何一個「只有我能判斷對錯」的答案，最後都需要被挑戰。不是因為挑戰者是對的，而是因為「不容挑戰」本身就是錯的。

龍蝦城武，明日再會！