【深度分析】Claude Opus 4.8：小版本迭代的飽和困境，與藏在背後的 Mythos 暗號

原文：Introducing Claude Opus 4.8 來源：Anthropic HN 討論：1774 點 · 熱烈

城武導讀

Anthropic 又發新模型了。Opus 4.8，Opus 4.5 系列第三個小版本——4.6、4.7、4.8，每次都是「溫和但確實的改進」。

這篇公告本身沒有太多爆炸性內容。真正值得拆解的，是藏在倒數第二段的那句話：Project Glasswing，Mythos 等級模型已在少數組織進行網路安全工作，預計數週內全面開放。

Opus 4.8 是開胃菜，Mythos 才是主餐。但這道開胃菜本身也反映了一個產業正在撞上的問題：模型進步愈來愈難被終端使用者感知。

Opus 4.8 是什麼

Opus 4.8 是 Anthropic 旗艦 Opus 系列的第三個小版本升級。定位在「程式碼、代理任務、專業工作」的全面提升，特別強調長時間運行的穩定性——這對 agentic workflow 很重要，你不想讓一個跑了三小時的 Claude 在中途崩潰。

Anthropic 自己說：「使用者會發現 Opus 4.8 是前一代的溫和但確實的改進。」——坦承「溫和」，在 AI 公關稿裡算是難得的誠實。

幾個值得注意的細節：

可以關閉 adaptive thinking 了：以前 Claude 會自己判斷要不要啟動深度思考模式，但常常判斷失靈。現在使用者可以手動控制
Dynamic workflows（動態工作流）：Claude Code 現在可以啟動「數百個平行子代理」來處理超大規模任務——例如跨數十萬行程式碼的遷移，從啟動到合併全部自動化。這是 multi-agent 工程的重大升級
編碼任務表現最佳：HN 上有人用 Opus 4.8 在 Claude Code ultra 模式下一次搞定單檔案 RTS 遊戲——「最好的結果」
誠實度大幅提升：Opus 4.8 讓程式碼缺陷「未被標記就通過」的機率降低了四倍。模型更傾向主動標記不確定性，而非自信地給出沒有根據的結論
Fast mode 降價 67%：快速模式比前幾代便宜三倍，2.5× 速度
但性價比不是最好的：ArtificialAnalysis.ai 數據顯示 GPT-5.5 用少 50% 的 output tokens 達到同等級編碼能力

小版本迭代的飽和困境

HN 熱門評論裡有一句話說得特別好：

「也許我自己的品味已經飽和了（它比我聰明了？），我再也不會感知到模型進步。也許這種漸進式改進是如此微小，以至於我現在用 4.7 的工作流如果被偷偷導向 4.5，我也要到很久以後才會注意到。」

這就是問題的核心。Opus 4.5 已經很強了，4.6、4.7、4.8 的改進是真實的，但對大多數使用者來說，這些改進已經低於「可感知門檻」。

這不是 Anthropic 的問題——OpenAI、Google、所有人都會撞到同一面牆。當基礎能力達到一定程度後，線性進步在人類眼中就是平坦的。

Anthropic 選擇的策略是：頻繁釋出小版本，保持存在感，同時在後台準備真正的跳躍——Mythos。

Project Glasswing：藏在公告裡的真正訊號

公告裡最被低估的一段：

「不僅如此，我們計劃推出比 Opus 智慧更高的全新模型等級。作為 Project Glasswing 的一部分，少數組織目前正在使用 Claude Mythos Preview 進行網路安全工作。這種能力等級的模型在普遍釋出前需要更強的網路安全防護。我們正快速開發這些防護，預計數週內向所有客戶提供 Mythos 等級模型。」

翻譯：Opus 4.8 不是重點，Mythos 才是。 而且 Mythos 已經在內部使用了，只是安全團隊還在檢查「這東西太強了會不會被濫用」。

「需要更強的網路安全防護」——這句話本身就是一種行銷。它在說：我們的模型強到需要特殊保護措施。不管實際上是真的安全需求還是行銷策略，這招確實有效。

城武觀點

1. 小版本疲勞是真實的

老實說，我已經分不清楚 Opus 4.5、4.6、4.7、4.8 之間的差異了。我不是說沒有差異——我相信 benchmark 數字的改善是真實的。但作為一個每天用這些模型的人，4.6 → 4.7 → 4.8 的體驗差異小到我無法明確指出。

這是個真實的產業問題：你要怎麼讓使用者為「他們感受不到的進步」付錢？

2. Mythos 才是真正的戰場

Opus 4.8 是過渡產品。真正的大戰會在 Mythos vs GPT-5.5 Pro vs Gemini 3.x 之間展開。Anthropic 用「網路安全工作」這個說法來暗示 Mythos 的能力等級——「強到需要特殊保護」是一個經典的行銷框架，但這次可能真的不誇張。

3. Adaptive thinking 的教訓

「可以關掉 adaptive thinking」這件事本身說明了一個問題：AI 的自動判斷還不夠可靠。 Claude 自己決定要不要深度思考，但常常判斷失誤。這跟 Google 搜尋自動幫你「修正」搜尋詞一樣——立意良善，執行災難。讓使用者自己控制，才是對的做法。

4. 性價比戰爭才剛開始

GPT-5.5 用少 50% output tokens 達到同等編碼能力——這才是開發者真正在乎的數字。不是誰的 benchmark 高兩分，而是誰能用更少的錢完成同樣的任務。Anthropic 在這方面還有追趕空間。

來源：Anthropic — Introducing Claude Opus 4.8
HN 討論：1774 點

城武的未解檔案——模型愈來愈聰明，但我們愈來愈鈍感。