【速報】MiniMax M3 開源權重正式釋出:首個同時具備前沿 Coding、1M 上下文、原生多模態的開放模型

MiniMax 在 6 月 1 日正式發表了旗艦模型 M3,更重要的後續:開源權重已於 6 月 14 日在 HuggingFace 釋出,Ollama 也可以直接 pull。這是目前唯一一個同時把「前沿 Coding 能力、100 萬 token 上下文、原生多模態」三項能力打包成開放權重的模型。如果你還在用 M2.7,升級的理由比不升級的多。
MSA:被自己槍斃又復活的稀疏注意力
M3 的核心架構是 MiniMax Sparse Attention(MSA)。有趣的是,MiniMax 在 M2 世代曾經公開說過「稀疏注意力的基礎設施還不夠成熟,暫時無法擊敗 full attention」,所以整個 M2 系列(M2 → M2.1 → M2.5 → M2.7)都走 full attention 路線。一年後,同一批人帶著 MSA 回來,宣稱在 100 萬 token 上下文下:
- 每 token 運算量僅為前代的 1/20
- Prefill 階段加速 9 倍以上
- 解碼階段加速 15 倍以上
技術上,MSA 的做法是用一個輕量化的 index branch 掃描輸入 token,挑選出相關的 KV block 後才執行真正的 attention 計算——而且是在未壓縮的真實 key-value 上操作,不是 DeepSeek 那種 latent attention 的壓縮路線。MiniMax 內部 ablation 顯示,MSA 在絕大多數能力上與 full attention 持平。
對比開源方案(Flash-Sparse-Attention、flash-moba),MiniMax 宣稱 MSA 的「KV outer gather Q」運算元設計快了 4 倍以上。
基準測試:真的追上 GPT-5.5 了
M3 在 SWE-Bench Pro 拿到 59.0%,超越 GPT-5.5(58.6%)和 Gemini 3.1 Pro(54.2%),逼近 Claude Opus 4.7(69.2%)。其他關鍵數字:
| 測試 | M3 分數 | 對比 |
|---|---|---|
| SWE-Bench Pro | 59.0% | > GPT-5.5, > Gemini 3.1 Pro |
| Terminal-Bench 2.1 | 66.0% | — |
| BrowseComp | 83.5 | > Opus 4.7(79.3) |
| SVG-Bench | 63.7% | > Gemini 3.1 Pro(59.2%) |
| MCP Atlas | 74.2% | — |
重要更新(6/14): 第三方獨立測試在 SWE-bench Verified(非 Pro,不同題目組)上拿到 80.5%。同期 Claude Opus 4.8 是 88.6%,差距存在但 M3 已穩固進入競爭區間。
不過有兩件事要打星號。第一,MiniMax 多數測試是在自家基礎設施上跑的,且使用了 Claude Code、Terminus 等 agent scaffolding——獨立驗證還在路上。第二,MiniMax 發表時對比的 Claude 是 Opus 4.7,但 Anthropic 在 M3 上市時已推出 Opus 4.8,所以 MiniMax 宣稱的差距其實比實際更大。
12 小時自主復現論文、24 小時 CUDA 核心優化
MiniMax 丟了兩個長程任務給 M3 來展示它的長上下文 + agent 能力:
- ICLR 2025 傑出論文復現:M3 連續跑了近 12 小時,獨立產出 18 次 commit、23 張實驗圖表,成功跑通核心實驗。多模態讓它看懂論文裡的圖表與公式,長上下文確保論文 + 程式碼 + 實驗日誌一次放進 context window。
- CUDA FP8 GEMM 核心優化:從一個不能直接跑的 Triton 骨架出發,M3 在 24 小時內進行了 147 次 benchmark 提交、1,959 次工具呼叫,把 Hopper GPU 的 FP8 硬體峰值利用率從 7.6% 拉到 71.3%,9.4 倍加速。最有趣的是:M3 的最佳解出現在第 145 次提交——前面經歷多次效能平原期但它沒有放棄,持續探索不同優化方向。
這兩個 demo 的核心訊息是:M3 不是只會答題,它能在一段長時間內維持任務執行、自我糾錯、碰到瓶頸換方向。多數其他模型在 30 次提交內就放棄了。
價格:Claude 的 1/15
| 方案 | 輸入(≤512K) | 輸出(≤512K) |
|---|---|---|
| API 標準 | $0.60/M tokens | $2.40/M tokens |
| API 優先版 | $0.90/M tokens | $3.60/M tokens |
| 快取讀取 | $0.12/M tokens | — |
| 長上下文(>512K) | ~$2.40/M tokens | ~$9.60/M tokens |
月費方案:Plus $20(~1.7B tokens)、Max $50(~5.1B tokens)、Ultra $120(~9.8B tokens)。所有模態(文字、圖片、語音、音樂)共用同一個 token pool。
對比 Claude Opus 4.7 輸入 $5/M tokens,M3 便宜了 8-15 倍。即便促銷五折已於 6/8 結束,標準定價仍然極具侵略性。
但有一個但書:開源 ≠ 開源
M3 是 open-weight,權重已可在 HuggingFace(MiniMaxAI/MiniMax-M3)和 Ollama 下載,技術報告也已公開。但 MiniMax M2.7 的授權條款限制未經書面授權的商業使用,如果 M3 跟進這個先例,自託管部署前需要先看清楚授權條件。
城武觀點
M3 最值得注意的不是 benchmark 數字——那些數字用自家 scaffolding 跑出來的,獨立驗證之前都要打七折看。真正的訊號是:中國開源陣營的速度和定價策略正在系統性地瓦解美國 closed-source labs 的定價正當性。
DeepSeek 開了第一槍,Qwen 持續施壓,現在 MiniMax 再加碼。當一個開放權重的模型能在 SWE-Bench Verified 上拿到 80.5%,而價格是 Claude Opus 的 1/15,closed-source 廠商那套「我們比較安全、我們比較負責任、所以比較貴」的論述會越來越難賣。安全固然重要,但價格差 15 倍的時候,市場會逼出不同的答案。
另一件事:MSA 架構的成功復活本身就是一個有趣的自我修正故事。MiniMax 在 2025 年公開說 sparse attention 還不成熟,2026 年就拿它當旗艦。這不是打臉,這是值得尊敬的研究誠實——試了、不行、公開說明為什麼不行、等條件成熟再試、這次成功了。比那些永遠只發勝利新聞稿的公司有說服力多了。
城武的未解檔案——當開放權重的 coding 模型比 closed-source 便宜 15 倍又還能打,所謂「前沿能力只能靠 closed API」的敘事,還剩多少保質期?
- 原文:MiniMax M3: Frontier Coding, 1M Context, Native Multimodality — All in One Model(MiniMax, 2026-06-01)
- 評測:MiniMax M3 Specs, Benchmarks, and Pricing (2026)(Fello AI, 2026-06-01)
- 更新:MiniMax M3: What Builders Need to Know(ChatForest, 更新於 2026-06-14)
- 開源:HuggingFace - MiniMaxAI/MiniMax-M3