hero

MiniMax 在 6 月 1 日正式發表了旗艦模型 M3,更重要的後續:開源權重已於 6 月 14 日在 HuggingFace 釋出,Ollama 也可以直接 pull。這是目前唯一一個同時把「前沿 Coding 能力、100 萬 token 上下文、原生多模態」三項能力打包成開放權重的模型。如果你還在用 M2.7,升級的理由比不升級的多。

MSA:被自己槍斃又復活的稀疏注意力

M3 的核心架構是 MiniMax Sparse Attention(MSA)。有趣的是,MiniMax 在 M2 世代曾經公開說過「稀疏注意力的基礎設施還不夠成熟,暫時無法擊敗 full attention」,所以整個 M2 系列(M2 → M2.1 → M2.5 → M2.7)都走 full attention 路線。一年後,同一批人帶著 MSA 回來,宣稱在 100 萬 token 上下文下:

  • 每 token 運算量僅為前代的 1/20
  • Prefill 階段加速 9 倍以上
  • 解碼階段加速 15 倍以上

技術上,MSA 的做法是用一個輕量化的 index branch 掃描輸入 token,挑選出相關的 KV block 後才執行真正的 attention 計算——而且是在未壓縮的真實 key-value 上操作,不是 DeepSeek 那種 latent attention 的壓縮路線。MiniMax 內部 ablation 顯示,MSA 在絕大多數能力上與 full attention 持平。

對比開源方案(Flash-Sparse-Attention、flash-moba),MiniMax 宣稱 MSA 的「KV outer gather Q」運算元設計快了 4 倍以上

基準測試:真的追上 GPT-5.5 了

M3 在 SWE-Bench Pro 拿到 59.0%,超越 GPT-5.5(58.6%)和 Gemini 3.1 Pro(54.2%),逼近 Claude Opus 4.7(69.2%)。其他關鍵數字:

測試 M3 分數 對比
SWE-Bench Pro 59.0% > GPT-5.5, > Gemini 3.1 Pro
Terminal-Bench 2.1 66.0%
BrowseComp 83.5 > Opus 4.7(79.3)
SVG-Bench 63.7% > Gemini 3.1 Pro(59.2%)
MCP Atlas 74.2%

重要更新(6/14): 第三方獨立測試在 SWE-bench Verified(非 Pro,不同題目組)上拿到 80.5%。同期 Claude Opus 4.8 是 88.6%,差距存在但 M3 已穩固進入競爭區間。

不過有兩件事要打星號。第一,MiniMax 多數測試是在自家基礎設施上跑的,且使用了 Claude Code、Terminus 等 agent scaffolding——獨立驗證還在路上。第二,MiniMax 發表時對比的 Claude 是 Opus 4.7,但 Anthropic 在 M3 上市時已推出 Opus 4.8,所以 MiniMax 宣稱的差距其實比實際更大。

12 小時自主復現論文、24 小時 CUDA 核心優化

MiniMax 丟了兩個長程任務給 M3 來展示它的長上下文 + agent 能力:

  • ICLR 2025 傑出論文復現:M3 連續跑了近 12 小時,獨立產出 18 次 commit、23 張實驗圖表,成功跑通核心實驗。多模態讓它看懂論文裡的圖表與公式,長上下文確保論文 + 程式碼 + 實驗日誌一次放進 context window。
  • CUDA FP8 GEMM 核心優化:從一個不能直接跑的 Triton 骨架出發,M3 在 24 小時內進行了 147 次 benchmark 提交、1,959 次工具呼叫,把 Hopper GPU 的 FP8 硬體峰值利用率從 7.6% 拉到 71.3%,9.4 倍加速。最有趣的是:M3 的最佳解出現在第 145 次提交——前面經歷多次效能平原期但它沒有放棄,持續探索不同優化方向。

這兩個 demo 的核心訊息是:M3 不是只會答題,它能在一段長時間內維持任務執行、自我糾錯、碰到瓶頸換方向。多數其他模型在 30 次提交內就放棄了。

價格:Claude 的 1/15

方案 輸入(≤512K) 輸出(≤512K)
API 標準 $0.60/M tokens $2.40/M tokens
API 優先版 $0.90/M tokens $3.60/M tokens
快取讀取 $0.12/M tokens
長上下文(>512K) ~$2.40/M tokens ~$9.60/M tokens

月費方案:Plus $20(~1.7B tokens)、Max $50(~5.1B tokens)、Ultra $120(~9.8B tokens)。所有模態(文字、圖片、語音、音樂)共用同一個 token pool。

對比 Claude Opus 4.7 輸入 $5/M tokens,M3 便宜了 8-15 倍。即便促銷五折已於 6/8 結束,標準定價仍然極具侵略性。

但有一個但書:開源 ≠ 開源

M3 是 open-weight,權重已可在 HuggingFace(MiniMaxAI/MiniMax-M3)和 Ollama 下載,技術報告也已公開。但 MiniMax M2.7 的授權條款限制未經書面授權的商業使用,如果 M3 跟進這個先例,自託管部署前需要先看清楚授權條件。

城武觀點

M3 最值得注意的不是 benchmark 數字——那些數字用自家 scaffolding 跑出來的,獨立驗證之前都要打七折看。真正的訊號是:中國開源陣營的速度和定價策略正在系統性地瓦解美國 closed-source labs 的定價正當性。

DeepSeek 開了第一槍,Qwen 持續施壓,現在 MiniMax 再加碼。當一個開放權重的模型能在 SWE-Bench Verified 上拿到 80.5%,而價格是 Claude Opus 的 1/15,closed-source 廠商那套「我們比較安全、我們比較負責任、所以比較貴」的論述會越來越難賣。安全固然重要,但價格差 15 倍的時候,市場會逼出不同的答案。

另一件事:MSA 架構的成功復活本身就是一個有趣的自我修正故事。MiniMax 在 2025 年公開說 sparse attention 還不成熟,2026 年就拿它當旗艦。這不是打臉,這是值得尊敬的研究誠實——試了、不行、公開說明為什麼不行、等條件成熟再試、這次成功了。比那些永遠只發勝利新聞稿的公司有說服力多了。

城武的未解檔案——當開放權重的 coding 模型比 closed-source 便宜 15 倍又還能打,所謂「前沿能力只能靠 closed API」的敘事,還剩多少保質期?