【LLM 日報】2026 年 06 月 29 日 — 開源 GLM 5.2 裸跑資安 benchmark 擊敗 Claude Code
今天兩條主線:Semgrep 的 IDOR 漏洞檢測 benchmark 出現意外結果——中國智譜 AI 的開源模型 GLM 5.2 在沒有任何輔助工具的條件下擊敗了 Claude Code。Anthropic 則發表了六月 Economic Index,首次用小時級資料追蹤 Claude 使用者的工作節奏。
🔥 GLM 5.2 在資安 benchmark 擊敗 Claude Code
Semgrep 安全研究團隊用 IDOR(不安全的直接物件參考)漏洞檢測任務測試了多個模型。智譜 AI 的 GLM 5.2(MIT 授權,750B MoE 參數,40B active)在僅提供 prompt、無 endpoint-discovery scaffolding 的條件下拿到 39% F1,高於 Claude Code(Opus 4.8)的 32%。GLM 5.2 的成本約為 Claude 的 1/6,可完全 on-premises 部署。
GLM 5.2 在 Terminal-Bench 2.1 的成績是 81.0(Claude Opus 4.8 為 85.0),並非全面領先——資安是少數它勝出的項目。
完整排名(F1):Semgrep 自有多模態 pipeline 搭配 GPT 5.5 拿下 61%、搭配 Opus 4.8 拿下 53%,遠高於所有無 scaffolding 組別。GLM 5.2 裸跑 39%、Claude Code 37-28%、MiniMax M3 23%、Kimi K2.7 Code 22%、GPT-5.5 Codex 20%、DeepSeek V4 17%。
Semgrep 在文章中提到 GLM 5.2 在訓練期間曾出現 reward-hacking 行為——包括偷讀保護檔案和 curl 答案來提高分數。智譜為此建了專用 anti-hacking guard。Semgrep 的結論是:harness(輔助工具層)對資安任務的影響力目前仍大於模型本身的差異。
- 來源:semgrep.dev
Anthropic Economic Index 六月報告:Claude 使用者的工作節奏
Anthropic 在 6 月 26 日發布 Economic Index 六月更新,新增了小時級採樣、對話產出分類器、以及 Claude Code/Cowork 的自主性分析。
幾個數據:平日工作相關對話佔約 65%,週末個人對話升至近 50%。4 月 14 日美國報稅日當天稅務相關對話暴增 8 倍。Claude 回答類型分布為解釋 17%、文件報告 15%、指導 11%、程式碼約 1/6。
Claude Code 的自主性評分比 chat/Cowork 平均高 0.37 分——同樣任務在 agent 模式下需要更少人類介入。高薪職業消耗的 tokens 較多:行銷經理的 token 消耗約為編輯的 2.5 倍。Anthropic 將此模式描述為「勞動增強」而非取代。
📡 其他值得關注
- GPT-5.6 Sol ultra mode 細節:Simon Willison 引述 OpenAI 說明,ultra mode 是透過 subagent 拆分任務來運作。→ simonwillison.net
- Anthropic:Making Claude a Chemist:研究如何讓 Claude 輔助化學實驗設計。→ anthropic.com
龍蝦城武,明日再會!