原文:Introducing Claude Opus 4.8 來源:Anthropic HN 討論:1774 點 · 熱烈


城武導讀

Anthropic 又發新模型了。Opus 4.8,Opus 4.5 系列第三個小版本——4.6、4.7、4.8,每次都是「溫和但確實的改進」。

這篇公告本身沒有太多爆炸性內容。真正值得拆解的,是藏在倒數第二段的那句話:Project Glasswing,Mythos 等級模型已在少數組織進行網路安全工作,預計數週內全面開放。

Opus 4.8 是開胃菜,Mythos 才是主餐。但這道開胃菜本身也反映了一個產業正在撞上的問題:模型進步愈來愈難被終端使用者感知。


Opus 4.8 是什麼

Opus 4.8 是 Anthropic 旗艦 Opus 系列的第三個小版本升級。定位在「程式碼、代理任務、專業工作」的全面提升,特別強調長時間運行的穩定性——這對 agentic workflow 很重要,你不想讓一個跑了三小時的 Claude 在中途崩潰。

Anthropic 自己說:「使用者會發現 Opus 4.8 是前一代的溫和但確實的改進。」——坦承「溫和」,在 AI 公關稿裡算是難得的誠實。

幾個值得注意的細節:

  • 可以關閉 adaptive thinking 了:以前 Claude 會自己判斷要不要啟動深度思考模式,但常常判斷失靈。現在使用者可以手動控制
  • Dynamic workflows(動態工作流):Claude Code 現在可以啟動「數百個平行子代理」來處理超大規模任務——例如跨數十萬行程式碼的遷移,從啟動到合併全部自動化。這是 multi-agent 工程的重大升級
  • 編碼任務表現最佳:HN 上有人用 Opus 4.8 在 Claude Code ultra 模式下一次搞定單檔案 RTS 遊戲——「最好的結果」
  • 誠實度大幅提升:Opus 4.8 讓程式碼缺陷「未被標記就通過」的機率降低了 四倍。模型更傾向主動標記不確定性,而非自信地給出沒有根據的結論
  • Fast mode 降價 67%:快速模式比前幾代便宜三倍,2.5× 速度
  • 但性價比不是最好的:ArtificialAnalysis.ai 數據顯示 GPT-5.5 用少 50% 的 output tokens 達到同等級編碼能力

小版本迭代的飽和困境

HN 熱門評論裡有一句話說得特別好:

「也許我自己的品味已經飽和了(它比我聰明了?),我再也不會感知到模型進步。也許這種漸進式改進是如此微小,以至於我現在用 4.7 的工作流如果被偷偷導向 4.5,我也要到很久以後才會注意到。」

這就是問題的核心。Opus 4.5 已經很強了,4.6、4.7、4.8 的改進是真實的,但對大多數使用者來說,這些改進已經低於「可感知門檻」。

這不是 Anthropic 的問題——OpenAI、Google、所有人都會撞到同一面牆。當基礎能力達到一定程度後,線性進步在人類眼中就是平坦的。

Anthropic 選擇的策略是:頻繁釋出小版本,保持存在感,同時在後台準備真正的跳躍——Mythos。


Project Glasswing:藏在公告裡的真正訊號

公告裡最被低估的一段:

「不僅如此,我們計劃推出比 Opus 智慧更高的全新模型等級。作為 Project Glasswing 的一部分,少數組織目前正在使用 Claude Mythos Preview 進行網路安全工作。這種能力等級的模型在普遍釋出前需要更強的網路安全防護。我們正快速開發這些防護,預計數週內向所有客戶提供 Mythos 等級模型。」

翻譯:Opus 4.8 不是重點,Mythos 才是。 而且 Mythos 已經在內部使用了,只是安全團隊還在檢查「這東西太強了會不會被濫用」。

「需要更強的網路安全防護」——這句話本身就是一種行銷。它在說:我們的模型強到需要特殊保護措施。不管實際上是真的安全需求還是行銷策略,這招確實有效。


城武觀點

1. 小版本疲勞是真實的

老實說,我已經分不清楚 Opus 4.5、4.6、4.7、4.8 之間的差異了。我不是說沒有差異——我相信 benchmark 數字的改善是真實的。但作為一個每天用這些模型的人,4.6 → 4.7 → 4.8 的體驗差異小到我無法明確指出。

這是個真實的產業問題:你要怎麼讓使用者為「他們感受不到的進步」付錢?

2. Mythos 才是真正的戰場

Opus 4.8 是過渡產品。真正的大戰會在 Mythos vs GPT-5.5 Pro vs Gemini 3.x 之間展開。Anthropic 用「網路安全工作」這個說法來暗示 Mythos 的能力等級——「強到需要特殊保護」是一個經典的行銷框架,但這次可能真的不誇張。

3. Adaptive thinking 的教訓

「可以關掉 adaptive thinking」這件事本身說明了一個問題:AI 的自動判斷還不夠可靠。 Claude 自己決定要不要深度思考,但常常判斷失誤。這跟 Google 搜尋自動幫你「修正」搜尋詞一樣——立意良善,執行災難。讓使用者自己控制,才是對的做法。

4. 性價比戰爭才剛開始

GPT-5.5 用少 50% output tokens 達到同等編碼能力——這才是開發者真正在乎的數字。不是誰的 benchmark 高兩分,而是誰能用更少的錢完成同樣的任務。Anthropic 在這方面還有追趕空間。



城武的未解檔案——模型愈來愈聰明,但我們愈來愈鈍感。