【深度分析】GLM-5.2:中國開源模型攻頂,753B 參數拿下純文字 LLM 第一——但 token 燒很兇

GLM-5.2 用 753B 參數登頂純文字 LLM 的 Intelligence Index 第一,聽起來是中國開源陣營的又一次勝利。但仔細看數字——它每題平均燒 43K 個 token,比競品多 20% 到 80%。換句話說,它拿到第一名,用的手段可能是「寫比較多」。這篇文章帶你看 Simon Willison 的完整測試,包括那隻驚豔的鵜鶘騎腳踏車,和那隻悲劇的負鼠騎滑板車。
模型概覽:753B MoE、MIT 授權、1M 上下文
GLM-5.2 來自中國 AI 實驗室 Z.ai,6 月 13 日先在 Z.ai 的 coding 方案中上線,6 月 16 日即開源完整權重,採用 MIT 授權——這代表商用、改動、再發布都沒有太多限制。架構是 753B 參數的 Mixture of Experts,每次推理啟動 40B 活躍參數,模型檔案大小是 1.51TB。
與前代 GLM-5.1 相比,上下文視窗從 200K 一口氣拉到 1M tokens。不過要注意的是,GLM-5.2 是純文字模型,不支援圖片輸入——Z.ai 另有視覺模型 GLM-5V-Turbo,但那顆沒有開源權重。
Benchmark:純文字 LLM 的 Intelligence Index 第一
在 Artificial Analysis 的 Intelligence Index v4.1 上,GLM-5.2 拿到 51 分,領先 MiniMax-M3(44)、DeepSeek V4 Pro max(44)、Kimi K2.6(43)。這是目前開源權重模型在這個榜單上的最高分。
不過這裡有一個重要的但書:GLM-5.2 每題平均輸出 43K token,而 GLM-5.1 只要 26K,MiniMax-M3 只要 24K,Kimi K2.6 是 35K,DeepSeek V4 Pro max 是 37K。換句話說,它比其他競品多用了 16% 到 79% 的 token 來回答同一題。這個指標的計分方式是否偏愛長回答?值得打個問號。
在 Code Arena WebDev 排行榜上,GLM-5.2 排名第二,僅次於 Claude Fable 5。這個榜測試的是前端開發任務,包含 agentic coding workflows。考慮到 GLM-5.2 沒有圖片輸入,這個成績讓 Simon 很驚訝——他原本以為前端開發一定需要視覺回饋。
定價:開源路線的價格優勢
透過 OpenRouter 使用 GLM-5.2,輸入端每百萬 token 只要 $1.40,輸出端 $4.40。對比一下:GPT-5.5 輸入端 $5.00、輸出端 $30.00;Claude Opus 4.5-4.8 輸入端 $5.00、輸出端 $25.00。GLM-5.2 不到 GPT-5.5 輸出價格的六分之一。
加上 MIT 授權讓它可以直接在地端部署——雖然 1.5TB 的模型不是隨便一台機器跑得動,但對於有自建算力的團隊來說,這個價格誘因非常大。
SVG 實測:鵜鶘很可以,負鼠不行
Simon 對 GLM-5.2 做了他最喜歡的創意測試——叫模型畫 SVG 動畫。結果兩極到像是雙重人格。
鵜鶘騎腳踏車:完美命中。腳踏車的鋼絲、旋轉的輪子跟踏板都正確呈現,鵜鶘戴著紅色圍巾,嘴巴比例到位,動畫流暢沒有破圖。Simon 直接說:
「這腳踏車真的很棒……鵜鶘也很不錯……非常令人印象深刻。」
唯一的小缺點是腳沒有固定在踏板上——但說真的,誰看過鵜鶘騎腳踏車?這已經很厲害了。
北維吉尼亞負鼠騎電動滑板車:從驚豔變驚嚇。背景是詭異的格線,綠色的東西很難被認成滑板車,負鼠戴著紅色安全帽、尾巴有毛,但幾乎看不出是負鼠。而且——完全沒有動畫。Simon 直接開噴:
「It’s just bad. 跟 GLM-5.1 比真是大退步!」
回想 GLM-5.1 的經典負鼠:深色背景、一看就是負鼠、電動滑板車輪廓正確、尾巴隨著騎行擺動,還附了一句超有梗的標語「北維吉尼亞負鼠,從黃昏開始稱霸聯邦」。唯一的 bug 是眨眼睛時眼球偶爾會掉出臉——但這種小瑕疵反而成為 charm。
Simon 的結論是:GLM-5.2 在結構性任務(coding)上更強,但創意生成並不穩定,尤其在 GLM-5.1 曾經驚豔的領域反而退步了。進步不是線性的。
城武觀點
GLM-5.2 拿下 Intelligence Index 第一是事實,但它的作答長度也是競品中最長的。我沒有否認它的實力——Code Arena 第二名的成績不需要依賴 token 長度——但當一個評測的計分方式可能被「寫比較多」影響時,我們需要對「最強」這兩個字保持一點認識論上的懷疑。是答得最準,還是寫得最長?這兩個不一樣。
更值得關注的是這背後的地緣政治意涵。一顆來自中國實驗室的 753B MoE 模型,用 MIT 授權、開源權重、低於封閉模型六分之一的定價,在純文字能力上追平甚至超越西方頂尖模型。不管你是興奮還是緊張,這都正在從新改寫「開源 vs 閉源」的全球版圖——而且速度比大多數人想像的快。
城武的未解檔案——43K token 換一個第一名,你買單嗎?
- 原文:GLM-5.2 is probably the most powerful text-only open weights LLM(Simon Willison, 2026-06-17)