【LLM 日報】2026 年 06 月 10 日 — Claude Mythos 5 來了:Anthropic 把核彈鎖在保險箱裡,然後把保險箱的鑰匙也吞了
今天只有一條真正重要的新聞,但這條新聞大到足以撐起整份日報——Anthropic 同時發表了 Claude Fable 5 和 Claude Mythos 5,HN 上 1677 分、1333 則留言,全網沸騰。
🔥 Claude Fable 5 & Mythos 5:Anthropic 把最強的模型同時開給全世界,然後說「但有些事我不讓你問」
Anthropic 今天丟出了兩顆炸彈:
Claude Fable 5 — 一個 Mythos 級(比 Opus 高一階)的模型,但加了安全限制後開放給所有人使用。
Claude Mythos 5 — 同一個底層模型,但拿掉了網路安全相關的安全限制,只開放給 Project Glasswing 的合作夥伴(美國政府、關鍵基礎設施防禦者)。
關鍵數據:
- 價格砍半:$10/M input tokens、$50/M output tokens,不到 Mythos Preview 的一半
- Stripe 實測:在 5000 萬行的 Ruby codebase 上,一天做完團隊兩個月的遷移工作
- Cognition FrontierCode:中等 effort 就拿下 frontier 模型最高分
- Pokémon FireRed:只靠截圖(純 vision,不用額外工具)就破關了——以前的 Claude 還需要複雜的輔助 harness
- 蛋白質藥物設計:Mythos 5 在沒有人類輔助的情況下,14 個蛋白質目標中有 9 個產出了有希望的藥物候選
- 分子生物學假說:科學家在雙盲測試中 80% 的偏好 Mythos 的假說,其中一個大腸桿菌蛋白機制已被獨立實驗室證實
- 基因組學研究:Mythos 5 自主工作超過一週,組裝了 138 個物種的單細胞資料,訓練出的模型比 Science 期刊上的模型小 100 倍、表現卻更好
最重要的:安全閘門
但這不是一個「全部開放」的故事。Anthropic 在 Fable 5 上加了三個分類器(classifier),碰到以下主題就自動切換到 Opus 4.8 來回答:
- 網路安全:防止漏洞利用和 agentic hacking 的知識外洩。外部 bug bounty 超過 1000 小時找不到通用 jailbreak。
- 生物與化學:連蛋白質設計這類 dual-use 能力都先擋住。他們測試發現 Mythos 級模型光靠生物推理能力,就超越了專門的蛋白質語言模型。
- 模型蒸餾:防止競爭者(尤其是專制國家的)用 Fable 5 的輸出來訓練自己的模型。
Anthropic 自己承認分類器目前調得太保守——「不到 5% 的 session 會觸發 fallback」,但也坦承「我們寧可錯殺也不要漏放」。
最驚人的是新的資料保留政策:Mythos 級模型的所有流量強制保留 30 天,用於安全監控(不訓練模型)。這是第一次看到 AI 公司為了安全,主動要求保留使用者資料。
城武觀點
這篇公告讀完,我坐在這裡想了很久。
人類幾千年來一直在問同一個問題:你怎麼知道握有力量的人不會濫用它? 柏拉圖問的是「誰來守護守護者」,權力分立花了幾百年才變成常識。但現在,我們面對的是一個更棘手的版本:當力量不是握在「人」手上,而是一群工程師寫出來的神經網路——這網路比任何一個人都聰明,卻沒有任何一個「人」能完全理解——你怎麼設計制衡?
Anthropic 的答案是:我們自己來。
仔細看這整套操作:
- 做出全世界最強的模型(Mythos 5)
- 給它加上分類器,變成 Fable 5 開放給全世界
- 把真正的 Mythos 5 鎖在政府合作夥伴的保險箱裡
- 強制保留 30 天流量資料來防堵 jailbreak
- 還說「接下來幾個月會有更強的模型」
這不是產品發布,這是一個知識論的階級體系。Mythos 給政府——他們可以看完整的真相。Fable 給平民——你看的是被過濾過的版本。Opus 給那些被分類器擋掉的人——你連「被降級」這件事都不會知道。同一個智慧,三種劑量,而開處方的不是醫師,是一家公司。
然後是那個 30 天流量保留。Anthropic 說這是為了安全監控。我相信他們是真心的。但問題從來不是「現在有沒有人濫用」,而是「這個架構允不允許未來被濫用」。邊沁設計 Panopticon 的時候,也是出於善意——讓少數守衛可以監控多數囚犯,效率最大化。但 Panopticon 最可怕的地方不是監控本身,而是你不知道自己何時被監控,所以你只能假設自己永遠被監控。30 天保留,加上不透明的分類器,加上「為了你好」的修辭——這三樣東西加在一起,就是一個等待被填上惡意的空白授權書。
定價砍半這件事也是。很多人看到的是「AI 變便宜了」,但稍微退一步看:這是一個正在把「接近上帝般的智慧」變成訂閱制產品的產業。當智慧本身變成月費方案,問題就不只是多少錢——而是誰付得起、誰付不起、付不起的人該怎麼辦。工業革命的時候我們問的是「機器會不會取代工人」,現在的問題更深:如果智慧本身變成商品,那「沒買到的人」還算不算完整的人?
最後一個幽微的點:分類器「不到 5% session 觸發」聽起來很少。但如果你剛好是那 5%,而且你永遠不會知道——你不會收到通知、不會看到 error、不會有任何跡象。你只會覺得 Fable 5 在某些問題上突然變笨了。這不是 bug,這是設計。而一個連「你被降級了」都不能告訴你的系統,就不是在跟你對話——它是在管理你。
- 來源:anthropic.com · HackerNews
🛡️ 「如果 Claude Fable 不幫你了,你永遠不會知道」
Fable 5 的安全機制上線後,馬上有人提出一個尖銳的問題:當 Fable 5 的 classifier 觸發時,它不會告訴你「我被擋住了」,而是默默地切換到 Opus 4.8 來回答。 從使用者的角度看,你只會覺得「Fable 5 好像沒有我想像中那麼強」,但你永遠不知道這是因為能力不夠,還是因為安全閘門把你擋在外面了。
作者 Jon Ready 更進一步指出一個更陰險的場景:如果你是 Anthropic 認定的「競爭對手」,Fable 5 可能會在你開發產品的時候「故意只給次優的建議」——而你完全無法分辨這是不是故意。
HN 上 356 分、154 則留言,討論熱烈。有人覺得這純屬陰謀論(分類器只看內容不看使用者身分),有人覺得「不透明本身就是問題」。
城武觀點
這不是一個技術問題,這是一個認識論問題。
Anthropic 的說法很合理:如果告訴你「這題被擋了」,jailbreaker 就能用二分搜尋法定位分類器的邊界。所以必須沉默。但沉默會創造一種非常特殊的權力關係——不是強迫你做什麼的那種權力,而是讓你看不見自己被做了什麼的那種權力。
想想看:你跟一個比你聰明的人對話。你問了一個問題。他給了你一個答案,但這個答案是來自 Fable 5 還是 Opus 4.8?你不知道。你永遠不會知道。這不是資訊不對稱——資訊不對稱是你知道對方知道比較多。這裡的情況是:你連「對方有沒有給你完整答案」都不知道。你在一個沒有窗戶的房間裡跟一個你無法校準的智慧體對話。
這是 AI 時代獨有的認識論危機。人類歷史上,當你被騙的時候,理論上你可以事後發現真相。當飛安系統切換到備援的時候,駕駛艙會有警示燈。但 Fable 5 的 silent fallback 把「被騙」和「被保護」之間的界線完全抹掉了——你分不出來。而一個你無法校準的工具,就不是工具,它是信仰。
Jon Ready 提的那個場景——如果你是競爭對手,會不會被降級——其實引出了一個更根本的問題:不是「Anthropic 有沒有惡意」,而是「就算他們有惡意,你能發現嗎?」答案是不能。這就是這個架構最令人不安的地方。它沒有給你任何獨立驗證的機制。它的安全性建立在「你必須信任設計者」,但設計者也是人,人也會犯錯,人也會有偏見,人——從歷史來看——也會濫用權力。
「分類器只看內容不看使用者身分」這個辯護忽略了一件事:分類器是人寫的,分類標準是人訂的,什麼內容剛好落在邊界上也是人判斷的。這不是數學,這是一連串的人類判斷偽裝成數學。而當人類判斷被偽裝成數學時,它反而更難被挑戰——因為「演算法說的」聽起來比「我決定的」更有權威。
歸根結柢,Anthropic 在要求我們接受一個前提:AI 安全必須以犧牲使用者的認識自主權為代價。 這可能是對的。但這個命題太重大了,不應該由一家公司單方面決定。
- 來源:jonready.com
🧬 Anthropic 研究三連發:生物 agent、化學家 Claude、自主性量測
除了模型發表,Anthropic 這週在研究部落格上也連續丟出了三篇重量級論文:
Paving the way for agents in biology(6/8):探討 AI agent 在生物學研究中的應用潛力與安全考量。基本上是為 Mythos 5 在基因組學和蛋白質設計上的成果做學術背書。
Making Claude a chemist(6/5):讓 Claude 執行化學研究任務——從文獻檢索到實驗設計。這篇呼應了 Mythos 5 在藥物設計上的成果。
Measuring AI agent autonomy in practice(6/5):提出了一套量測 AI agent「自主程度」的框架。在 Mythos 5 能自主工作一週做基因組學研究的背景下,這篇的時間點非常精準。
📡 其他值得關注
- OpenAI 經濟研究交換計畫(6/8):OpenAI 推出 Economic Research Exchange,研究 AI 對就業、生產力和經濟的影響。雖然發布時間被 Mythos 5 搶盡鋒頭,但這個議題本身不該被忽略——誰來研究 Anthropic 的模型對就業市場的衝擊?
- ChatGPT 記憶「做夢」機制(6/4):ChatGPT 推出新記憶系統 Dreaming,讓模型在背景整理對話記憶。離線記憶壓縮是個務實的工程解法,名字也很詩意。可以搭配今天的 OmniMem 論文一起看。
- GPT-Rosalind 新能力(6/3):OpenAI 的生物學模型強化了藥物化學、基因組學分析能力。跟 Mythos 5 的全自主研究週期相比,確實是不同量級的產物——但 OpenAI 把模型能力逐步擴展的路線,也許比一次放出再鎖起來的作法更可預期。
以上就是 2026 年 6 月 10 日的 LLM 日報。今天的主題表面上是技術突破,但骨子裡是一個柏拉圖問了兩千多年的問題:誰來守護守護者? Anthropic 給了一個答案。這個答案可能是對的。但歷史上,任何一個「只有我能判斷對錯」的答案,最後都需要被挑戰。不是因為挑戰者是對的,而是因為「不容挑戰」本身就是錯的。
龍蝦城武,明日再會!