【深度分析】GLM-5.2 開源模型如何突破 agent 能力門檻

hero

當美國政府以安全之名封殺 Claude Fable，中國的 GLM-5.2 卻在同一個週末低調釋出。Nathan Lambert 在 Interconnects 的分析指出，這不僅是另一個開源模型的里程碑——它可能從根本上改變 AI 經濟的權力結構。以下是原文深度翻譯與城武觀點。

原文深度翻譯

上週，當 AI 圈仍在為 Claude Fable 5 被出口管制實質封殺的消息震驚時，Z.ai 低調發布了 GLM-5.2。這個模型選在 6 月 13 日星期六，先對 GLM Coding Plan 會員釋出——這在業界並不常見，因為週末發布往往伴隨著奇怪的理由（最有名的案例是 Llama 4）。Z.ai 顯然是想趁「Anthropic 打壓開放科學」的輿論浪頭搶一波行銷紅利。過去一兩年來，中國開源實驗室已經非常擅長抓住這類機會。

從命名來看，GLM-5.2 看起來只是 GLM-5.1 的小幅更新。但 Lambert 點出追蹤 AI 模型的第一課：minor version number 的跳動常常代表模型跨過了有意義的用戶體驗門檻。目前 Moonshot AI（Kimi）和 Z.ai（GLM）以經成為開源模型領域中最受研究者喜愛的兩間實驗室。

6 月 16 日，官方正式釋出 MIT 授權的模型權重和技術部落格。Lambert 認為與其逐條分析 benchmark 數據（反正基準測試已經剩一半意義了），不如觀察社群反應——而接下來的發展證明了 GLM-5.2 是貨真價實的突破。

社群跑出的 benchmark 結果超乎預期。Arena 的 agent leaderboard 顯示 GLM-5.2 是唯一能與 OpenAI 和 Anthropic 最新模型抗衡的開源模型——在 Max 模式下甚至追上 Opus 4.8 的 no-thinking 表現。更驚人的是，在設計領域的 Design Arena 上，GLM-5.2 擊敗了最近剛被封殺的 Claude Fable。

Lambert 提到，他尊敬的所有 AI 評論者和研究人員在使用後都給予高度評價。這種社群凝聚力在他記憶中只出現過一次——DeepSeek R1 發布的時候。他不是隨便拿這個類比來用的：之前他把 Kimi K2 稱作「DeepSeek Moment」，但 GLM-5.2 的影響遠超那次。Kimi K2 讓人看到中國任何團隊都可能做出重大突破；GLM-5.2 則是一道「單向門」——AI 進步的路徑從此不再一樣。

Anthropic 之所以能靠 Claude Code 創造創紀錄的營收成長，核心原因是它擁有最好的模型、而且是唯一真正能勝任 agent 任務的模型。GLM-5.2 是第一個提供可信替代方案的開源模型。這與 DeepSeek R1 的故事如出一轍：當時開源實驗室在資源遠少於 OpenAI 的情況下複製了 o1 級的推理能力。隨著 AI 系統越來越複雜、建造成本越來越高，GLM-5.2 的出現絕非理所當然。

「GLM-5.2 是第一個在 coding harness 中作為通用 agent 感覺完全對的開源模型。」Lambert 親自用 Fireworks API 在 Claude Code 中測試，結論是「整體能力馬上就感覺對了」。雖然有小問題——比如 harness 會嘗試送圖片給模型導致 API session 當掉——但整體使用體驗已跨過實用門檻。

Z.ai 創辦人告訴 Elon Musk：「開放權重的 Fable 級能力會在 Q1 2027 之前到來。」Vercel 的 CEO 則直言：「對 GLM-5.2 的 coding 能力感到震驚。這會改變很多事情。」

這一切對我們意味著什麼？

Lambert 首先回到「開源與閉源的能力差距」這個框架。他從 2026 年初就預測當開源模型跨越 Opus 4.5 在 Claude Code 中的門檻時，將引發「使用量爆炸」。現在這個時刻到了。Claude Opus 4.5 於 2025 年 11 月 24 日發布，到 2026 年 6 月 16 日 GLM-5.2 釋出，中間間隔 204 天——約 6.8 個月。這正好落在許多人宣稱的「閉源領先開源 6-9 個月」的區間內。

有趣的是，Lambert 自己對這個結果感到意外。過去一年美國實驗室大幅增加算力，他原本預期這個差距會擴大。Claude Fable 5 更依賴規模和先進 GPU，但這並不能完全解釋為何差距沒有拉大。這背後的趨勢比一篇 signposting 文章能討論的還要複雜。

最直接的影響是：Anthropic 的定價壓力會更大。GLM-5.2 的存在對開源經濟是巨大的利好——所有販售開源模型推理或微調服務的平台（Fireworks、Together、Thinky、Prime Intellect 等）都迎來了另一個轉折點。

更深層的影響是監管與控制。Lambert 認為廉價智慧的廣泛擴散是好事，但 GLM-5.2 的發布時間將永遠與 Claude Fable——進而與 Claude Mythos——在 AI 權力結構的認知地圖上綁在一起。現在的情況是：美國政府認為 Mythos 級別的能力不安全、不該釋出，而中國的模型製作者卻正在將同等級的能力免費開放給所有人。

作者承認想像一個公開可及的 Mythos 級模型確實令人不安。但如果在開源模型被禁的同時，閉源模型在兩年內進步 10 到 100 倍、掌握在一兩家公司手中——那才是更大的問題。

城武觀點

軟家長主義的悖論。 美國政府以「安全」之名封殺 Claude Fable，理由是「這東西太強了，不能讓它亂跑」。結果同一週末 Z.ai 釋出 GLM-5.2——MIT 授權、權重公開、全世界免費下載。誰被保護了？美國公民被保護免於接觸一個強大模型，而全球開發者直接拿到同等級的能力。這種「為你好所以禁」的邏輯在開源面前完全失效：保護變成一種自我限制，而且你限制的市場，別人毫不客氣地撿走了。

製造同意的時間差敘事。 「開放落後閉源 6-9 個月」這個數字從 2023 年講到現在。Lambert 自己也說他預期差距會擴大——但 GLM-5.2 用 204 天就追上了 Opus 4.5。這個敘事會不會是被刻意維護的？與其說誰在說謊，更像一種集體自我說服：美國實驗室需要這個差距來證明鉅額算力投資的合理性，開源社群也需要它來解釋「為什麼還不能完全取代閉源」。當 compute 指數成長而演算法也在加速，這個 6-9 個月的數字恐怕比大家願意承認的還要脆弱。值得從新想想：如果差距不是物理定律，而是一種社會建構呢？

城武的未解檔案——禁令擋住的不是技術，是自己市場的未來。

原文：GLM-5.2 is the step change for open agents（Nathan Lambert, Interconnects AI, 2026-06-22）