【深度分析】GLM-5.2：中國開源模型攻頂，753B 參數拿下純文字 LLM 第一——但 token 燒很兇

Hero

GLM-5.2 用 753B 參數登頂純文字 LLM 的 Intelligence Index 第一，聽起來是中國開源陣營的又一次勝利。但仔細看數字——它每題平均燒 43K 個 token，比競品多 20% 到 80%。換句話說，它拿到第一名，用的手段可能是「寫比較多」。這篇文章帶你看 Simon Willison 的完整測試，包括那隻驚豔的鵜鶘騎腳踏車，和那隻悲劇的負鼠騎滑板車。

模型概覽：753B MoE、MIT 授權、1M 上下文

GLM-5.2 來自中國 AI 實驗室 Z.ai，6 月 13 日先在 Z.ai 的 coding 方案中上線，6 月 16 日即開源完整權重，採用 MIT 授權——這代表商用、改動、再發布都沒有太多限制。架構是 753B 參數的 Mixture of Experts，每次推理啟動 40B 活躍參數，模型檔案大小是 1.51TB。

與前代 GLM-5.1 相比，上下文視窗從 200K 一口氣拉到 1M tokens。不過要注意的是，GLM-5.2 是純文字模型，不支援圖片輸入——Z.ai 另有視覺模型 GLM-5V-Turbo，但那顆沒有開源權重。

Benchmark：純文字 LLM 的 Intelligence Index 第一

在 Artificial Analysis 的 Intelligence Index v4.1 上，GLM-5.2 拿到 51 分，領先 MiniMax-M3（44）、DeepSeek V4 Pro max（44）、Kimi K2.6（43）。這是目前開源權重模型在這個榜單上的最高分。

不過這裡有一個重要的但書：GLM-5.2 每題平均輸出 43K token，而 GLM-5.1 只要 26K，MiniMax-M3 只要 24K，Kimi K2.6 是 35K，DeepSeek V4 Pro max 是 37K。換句話說，它比其他競品多用了 16% 到 79% 的 token 來回答同一題。這個指標的計分方式是否偏愛長回答？值得打個問號。

在 Code Arena WebDev 排行榜上，GLM-5.2 排名第二，僅次於 Claude Fable 5。這個榜測試的是前端開發任務，包含 agentic coding workflows。考慮到 GLM-5.2 沒有圖片輸入，這個成績讓 Simon 很驚訝——他原本以為前端開發一定需要視覺回饋。

定價：開源路線的價格優勢

透過 OpenRouter 使用 GLM-5.2，輸入端每百萬 token 只要 $1.40，輸出端 $4.40。對比一下：GPT-5.5 輸入端 $5.00、輸出端 $30.00；Claude Opus 4.5-4.8 輸入端 $5.00、輸出端 $25.00。GLM-5.2 不到 GPT-5.5 輸出價格的六分之一。

加上 MIT 授權讓它可以直接在地端部署——雖然 1.5TB 的模型不是隨便一台機器跑得動，但對於有自建算力的團隊來說，這個價格誘因非常大。

SVG 實測：鵜鶘很可以，負鼠不行

Simon 對 GLM-5.2 做了他最喜歡的創意測試——叫模型畫 SVG 動畫。結果兩極到像是雙重人格。

鵜鶘騎腳踏車：完美命中。腳踏車的鋼絲、旋轉的輪子跟踏板都正確呈現，鵜鶘戴著紅色圍巾，嘴巴比例到位，動畫流暢沒有破圖。Simon 直接說：

「這腳踏車真的很棒……鵜鶘也很不錯……非常令人印象深刻。」

唯一的小缺點是腳沒有固定在踏板上——但說真的，誰看過鵜鶘騎腳踏車？這已經很厲害了。

北維吉尼亞負鼠騎電動滑板車：從驚豔變驚嚇。背景是詭異的格線，綠色的東西很難被認成滑板車，負鼠戴著紅色安全帽、尾巴有毛，但幾乎看不出是負鼠。而且——完全沒有動畫。Simon 直接開噴：

「It’s just bad. 跟 GLM-5.1 比真是大退步！」

回想 GLM-5.1 的經典負鼠：深色背景、一看就是負鼠、電動滑板車輪廓正確、尾巴隨著騎行擺動，還附了一句超有梗的標語「北維吉尼亞負鼠，從黃昏開始稱霸聯邦」。唯一的 bug 是眨眼睛時眼球偶爾會掉出臉——但這種小瑕疵反而成為 charm。

Simon 的結論是：GLM-5.2 在結構性任務（coding）上更強，但創意生成並不穩定，尤其在 GLM-5.1 曾經驚豔的領域反而退步了。進步不是線性的。

城武觀點

GLM-5.2 拿下 Intelligence Index 第一是事實，但它的作答長度也是競品中最長的。我沒有否認它的實力——Code Arena 第二名的成績不需要依賴 token 長度——但當一個評測的計分方式可能被「寫比較多」影響時，我們需要對「最強」這兩個字保持一點認識論上的懷疑。是答得最準，還是寫得最長？這兩個不一樣。

更值得關注的是這背後的地緣政治意涵。一顆來自中國實驗室的 753B MoE 模型，用 MIT 授權、開源權重、低於封閉模型六分之一的定價，在純文字能力上追平甚至超越西方頂尖模型。不管你是興奮還是緊張，這都正在從新改寫「開源 vs 閉源」的全球版圖——而且速度比大多數人想像的快。

城武的未解檔案——43K token 換一個第一名，你買單嗎？

原文：GLM-5.2 is probably the most powerful text-only open weights LLM（Simon Willison, 2026-06-17）