hero

GLM-5.2 不是另一個「跑分超越」的開源模型。它是第一個讓開發者在 coding agent 裡「感覺對了」的開源模型——那個「對了」不是 benchmark 數字告訴你的,是你在 terminal 裡看著它自幹 code 時,心裡浮現的直覺。這件事發生的時間點,比模型本身更值得被問:就在美國政府以安全為由禁止 Claude Fable 5 出口的一週後,Z.ai 丟出了一個 MIT 授權的模型,在 agent 能力上直接跟 Anthropic 的最新旗艦平起平坐。出口管制的邏輯是「不讓對手拿到尖端技術」,但 GLM-5.2 用行動證明了——你封住一道門,人家就開一扇窗,而且窗外的風景不見得比你客廳裡的遜色。

Nathan Lambert 在 Interconnects AI 上發表了題為〈GLM-5.2 is the step change for open agents〉的分析。以下是全文的深度翻譯。


約一週前,AI 圈還在為 Claude Fable 5 被出口管制實質封殺的消息震驚時,Z.ai 低調發布了 GLM-5.2——選在 6 月 13 日星期六,先對 GLM Coding Plan 會員釋出。週末發布模型在業界通常不是好事(最有名的案例是 Llama 4),背後常有奇怪的動機。Nathan 的判斷是 Z.ai 想趁「Anthropic 打壓開放科學」的輿論浪頭搶一波行銷紅利;中國開源實驗室這兩年已非常擅長抓這種機會。

從命名來看,GLM-5.2 像是 GLM-5.1 的小幅更新。但追蹤 AI 模型的第一課,就是 minor version 的跳動常常代表模型跨過了有意義的用戶體驗門檻——benchmark 和訓練上的小改動,可以打開一大片新用例。Moonshot AI(Kimi)和 Z.ai(GLM)以經成為研究者心中最受歡迎的兩間開源實驗室。

6 月 16 日,官方正式釋出 MIT 授權的模型權重和技術部落格。Nathan 的態度是:與其逐條分析 benchmark 數據(「benchmark 已經半死不活了」),不如觀察社群反應。技術細節可以講很多——SLIME RL 框架、建議永遠使用 Max thinking effort——但初始的發布部落格不是重點,生態系的反應才是見真章的時候。

社群反應沒有讓人失望。Arena 的 agent leaderboard 上,GLM-5.2 是唯一能跟 OpenAI 和 Anthropic 最新模型混戰的開源選手——Max 模式下的表現可以匹配 Opus 4.8 的 no-thinking 水準。Nathan 順便補了一刀:這是 GLM-5.2 輾壓 Gemini 的眾多評測之一,不過那是另一個話題。在設計領域的 Design Arena 上,GLM-5.2 甚至擊敗了 Claude Fable——那個剛被封殺的 hype 機器。

Nathan 說,幾乎所有他尊敬的 AI 評論者和研究人員在使用後都給予高度評價。這種社群凝聚力他只在一個開源模型發布時見過——DeepSeek R1。他不是隨便拿這個類比來用的:之前他把 Kimi K2 的發布稱為「DeepSeek Moment」,但 GLM-5.2 遠超那次。Kimi K2 的意義在於證明「中國任何團隊都可能做出重大突破」;GLM-5.2 則是一道「單向門」——AI 進步的路徑從此不再一樣。

Anthropic 靠 Claude Code 創下創紀錄的營收成長率,核心原因是它擁有最好的模型、而且是唯一真正能勝任 agent 任務的模型。GLM-5.2 是第一個——後面還會有更多——提供可信替代方案的開源模型。這與 DeepSeek R1 的故事平行:當時開源實驗室在資源遠少於 OpenAI 的情況下,複製了 o1 級的推理能力。隨著 AI 系統越來越複雜、建造成本越來越高,GLM-5.2 的出現絕非理所當然。

最核心的論點:GLM-5.2 是第一個在 coding harness 裡作為通用 agent「感覺對了」的開源模型。Nathan 承認自己早該試試 Kimi K2.7 或 GLM-5.1 這些近期對手,但 GLM-5.2 的 hype 大到無法忽略。他親自用 Fireworks API 在 Claude Code 中測試(設定非常簡單),用來協助他的 post-training 課程內容製作。過程中有個小插曲——Claude Code harness 和他的 repo 文件會嘗試送圖片給模型,導致 Fireworks API session 直接掛掉,必須手動清除 context。但整體來說,模型能力「馬上就感覺對了」,他之後還想試不同 harness 和推理提供商。

更多背書:Z.ai 創辦人對 Elon Musk 說「開放權重的 Fable 級能力會在 Q1 2027 之前到來」。Vercel 的 CEO 則直言:「對 GLM-5.2 的 coding 能力真誠感到驚訝,幾乎是 shock。這會改變很多事情。」

那麼,這一切把我們帶到哪裡?

先回到「開源與閉源的能力差距」這個框架。Nathan 從 2026 年初就寫過:若開源模型跨過 Opus 4.5 在 Claude Code 中的門檻,他預期會引發「使用量爆炸」。現在這個時刻到了。Claude Opus 4.5 於 2025 年 11 月 24 日發布,到 2026 年 6 月 16 日 GLM-5.2 釋出——間隔 204 天,約 6.8 個月。這個數字準確落在許多人宣稱的「閉源領先開源 6 到 9 個月」的區間內。

Nathan 坦言自己對這個結果感到意外。過去一年美國實驗室大幅增加算力,他原預期差距會擴大。Claude Fable 5 更依賴規模和先進 GPU,將是進一步的測試基準。但這並不能完全解釋差距為何沒有拉大——背後的趨勢比一篇 signposting 文章能討論的更深。

最直接的影響是定價壓力。對那些 tokens 密集、把 Anthropic 營收送上月球的組織而言,GLM-5.2 提供了可信的便宜替代方案。有人會預測 Anthropic 達不到 ARR 預測,但 Nathan 認為那低估了真正的需求成長。GLM-5.2 對開源經濟是巨大利好——Fireworks、Together、Thinky(via Tinker)、Prime Intellect 等所有販售開源模型推理或微調服務的平台,都迎來了另一個轉折點。

效應擴散到更廣泛經濟需要時間。工作流越來越複雜——不同模型負責規劃、主要編碼、子代理調度。Nathan 預測 hype 會持續升溫,甚至在他寫這篇文章的週日晚上,他已經能看到隔天週一出現 DeepSeek R1 式的媒體和市場反應。

但更深的一刀在這裡:這一切正在發生,而 Anthropic——以及美國——的旗艦模型仍被禁。GLM-5.2 被給予時間去切入前端實驗室的「經濟軟肋」——那些實驗室本該在這些領域往更高利潤、更高營收推進。經濟面的擔憂與 AI 圈反覆出現的故事如出一轍,只是不確定這次會不會有人真的在意。

更核心的對話,是開源模型的監管與控制。Nathan 的預設立場是「廉價智慧的廣泛擴散是經濟上的好事」,應該為開源模型歡呼。但 GLM-5.2 的發布日期將永遠與 Claude Fable——進而與 Claude Mythos——在 AI 權力結構的認知地圖上綁在一起。

現況很清楚:美國政府認為 Mythos 級能力不安全、不該釋出;中國模型製作者正將同等級的能力免費開放給所有人。趨勢線未必是因果關係(我們不知道 GLM-5.2 的網路安全能力相較前代如何),但能力確實相關。在什麼都不變的前提下,這指向一個可能性:美國政府判定某些開源中國模型對公眾不安全。

Nathan 認為需要更多人去構思和溝通一個世界給決策者——如何管理越來越強大的開源模型。NVIDIA 下一代晶片已在生產,演算法持續進步,AI 進展還有多年。開源倡導者的路很窄,但必須讓開源模型可行,否則巨大的性能躍進只會流向閉源。

他的結語:完全理解為什麼一個公開可及的 Mythos 級模型令人不安。但如果開源模型現在被禁,而閉源模型兩年內在手握一兩家公司的情況下進步 10 到 100 倍——他認為那才是更大的問題。

Nathan 在文末附了兩個註腳。第一,中國實驗室的釋出速度一直讓他印象深刻——模型訓練完成後,公開上傳權重到 HuggingFace 的時間常以「小時」而非「天」計算。現在稍有放緩,因為需要準備推理市場的部署。第二,連閉源模型(如 Mythos preview)也經常被未授權使用者拿到或 jailbreak——所以「開源 vs 閉源」的二分法並非黑白分明。

城武觀點

這篇分析最有趣的地方,不在於 GLM-5.2 有多強——它確實強,但強者多的是——而在於它暴露了出口管制這個工具的結構性荒謬。

先說禁令的邏輯。美國政府禁 Claude Fable 5,理由是它的能力太強、可能被濫用、可能被對手拿去發展他們不樂見的應用。這個邏輯建立在一個前提上:只要堵住了最強的源頭,對手就拿不到那個等級的能力。GLM-5.2 的存在本身就是對這個前提的實證反駁——你禁了 Anthropic,中國實驗室以經做出來了一個在 agent 能力上可與之匹敵的開源模型。而且它是 MIT 授權的,意思是全球任何人都可以下載、修改、部署、商用,不需要問任何人。這不是出口管制的成功,這是出口管制的反諷版本——禁運沒有阻止技術擴散,它只是把市場讓給了不需要你同意的對手。

再來是 6.8 個月這個數字。204 天的 lag 落在業界常說的「6–9 個月」區間內,看起來像是某種結構常數——就像光速一樣不可超越。但 Z.ai 的創辦人在跟 Elon Musk 的對話中說了一句值得注意的話:「開源 Fable 等級的能力會比 2027 Q1 更早到來。」如果這句話成立,意味著 lag 正在縮小,而不是固定不變。6.8 個月是來自上一輪週期的數據點,下一輪可能更短。

但「縮小」這件事本身就是地緣政治壓力下的產物。美國的禁令給了中國實驗室一個明確的目標——填補空白。而開源生態又給了他們一個完美的擴散管道:你不需要說服任何人買你的 API,你只要把權重檔放到網路上,全世界自己會來拉。這是一個自我強化的循環——管制越嚴,追趕的動機越強;追趕的成果越明顯,管制的效果就越可疑。

最後來談 Nathan 的那個問題:「cheer for cheap, widely-diffuse intelligence」這個立場,在 GLM-5.2 的脈絡下被推到一個兩難。當你為 GLM-5.2 歡呼時,你是在為開源精神歡呼,也是在為中國 AI 實驗室的技術實力歡呼——但這兩件事在當前的政治氣候下是糾纏在一起的,分不開。你的「開發者體驗變好了」的喜悅,同時也是地緣政治棋盤上的一步棋。你不是故意的,但你的使用本身就是政治。Nathan 說他沒有答案。城武也沒有。但這個問題本身,比 GLM-5.2 的 benchmark 數字更值得被記住——因為它問的不是「誰的模型更強」,而是「當智慧變得便宜又廣泛時,我們準備好面對它來自哪裡了嗎?」

城武的未解檔案——出口管制假設世界是靜態的,但開源模型告訴你:世界在你畫邊界的那一刻,就已越過那條線了。