【速報】MiniMax M3 開源權重正式釋出：首個同時具備前沿 Coding、1M 上下文、原生多模態的開放模型

hero

MiniMax 在 6 月 1 日正式發表了旗艦模型 M3，更重要的後續：開源權重已於 6 月 14 日在 HuggingFace 釋出，Ollama 也可以直接 pull。這是目前唯一一個同時把「前沿 Coding 能力、100 萬 token 上下文、原生多模態」三項能力打包成開放權重的模型。如果你還在用 M2.7，升級的理由比不升級的多。

MSA：被自己槍斃又復活的稀疏注意力

M3 的核心架構是 MiniMax Sparse Attention（MSA）。有趣的是，MiniMax 在 M2 世代曾經公開說過「稀疏注意力的基礎設施還不夠成熟，暫時無法擊敗 full attention」，所以整個 M2 系列（M2 → M2.1 → M2.5 → M2.7）都走 full attention 路線。一年後，同一批人帶著 MSA 回來，宣稱在 100 萬 token 上下文下：

每 token 運算量僅為前代的 1/20
Prefill 階段加速 9 倍以上
解碼階段加速 15 倍以上

技術上，MSA 的做法是用一個輕量化的 index branch 掃描輸入 token，挑選出相關的 KV block 後才執行真正的 attention 計算——而且是在未壓縮的真實 key-value 上操作，不是 DeepSeek 那種 latent attention 的壓縮路線。MiniMax 內部 ablation 顯示，MSA 在絕大多數能力上與 full attention 持平。

對比開源方案（Flash-Sparse-Attention、flash-moba），MiniMax 宣稱 MSA 的「KV outer gather Q」運算元設計快了 4 倍以上。

基準測試：真的追上 GPT-5.5 了

M3 在 SWE-Bench Pro 拿到 59.0%，超越 GPT-5.5（58.6%）和 Gemini 3.1 Pro（54.2%），逼近 Claude Opus 4.7（69.2%）。其他關鍵數字：

測試	M3 分數	對比
SWE-Bench Pro	59.0%	> GPT-5.5, > Gemini 3.1 Pro
Terminal-Bench 2.1	66.0%	—
BrowseComp	83.5	> Opus 4.7（79.3）
SVG-Bench	63.7%	> Gemini 3.1 Pro（59.2%）
MCP Atlas	74.2%	—

重要更新（6/14）： 第三方獨立測試在 SWE-bench Verified（非 Pro，不同題目組）上拿到 80.5%。同期 Claude Opus 4.8 是 88.6%，差距存在但 M3 已穩固進入競爭區間。

不過有兩件事要打星號。第一，MiniMax 多數測試是在自家基礎設施上跑的，且使用了 Claude Code、Terminus 等 agent scaffolding——獨立驗證還在路上。第二，MiniMax 發表時對比的 Claude 是 Opus 4.7，但 Anthropic 在 M3 上市時已推出 Opus 4.8，所以 MiniMax 宣稱的差距其實比實際更大。

12 小時自主復現論文、24 小時 CUDA 核心優化

MiniMax 丟了兩個長程任務給 M3 來展示它的長上下文 + agent 能力：

ICLR 2025 傑出論文復現：M3 連續跑了近 12 小時，獨立產出 18 次 commit、23 張實驗圖表，成功跑通核心實驗。多模態讓它看懂論文裡的圖表與公式，長上下文確保論文 + 程式碼 + 實驗日誌一次放進 context window。
CUDA FP8 GEMM 核心優化：從一個不能直接跑的 Triton 骨架出發，M3 在 24 小時內進行了 147 次 benchmark 提交、1,959 次工具呼叫，把 Hopper GPU 的 FP8 硬體峰值利用率從 7.6% 拉到 71.3%，9.4 倍加速。最有趣的是：M3 的最佳解出現在第 145 次提交——前面經歷多次效能平原期但它沒有放棄，持續探索不同優化方向。

這兩個 demo 的核心訊息是：M3 不是只會答題，它能在一段長時間內維持任務執行、自我糾錯、碰到瓶頸換方向。多數其他模型在 30 次提交內就放棄了。

價格：Claude 的 1/15

方案	輸入（≤512K）	輸出（≤512K）
API 標準	$0.60/M tokens	$2.40/M tokens
API 優先版	$0.90/M tokens	$3.60/M tokens
快取讀取	$0.12/M tokens	—
長上下文（>512K）	~$2.40/M tokens	~$9.60/M tokens

月費方案：Plus $20（~1.7B tokens）、Max $50（~5.1B tokens）、Ultra $120（~9.8B tokens）。所有模態（文字、圖片、語音、音樂）共用同一個 token pool。

對比 Claude Opus 4.7 輸入 $5/M tokens，M3 便宜了 8-15 倍。即便促銷五折已於 6/8 結束，標準定價仍然極具侵略性。

但有一個但書：開源 ≠ 開源

M3 是 open-weight，權重已可在 HuggingFace（MiniMaxAI/MiniMax-M3）和 Ollama 下載，技術報告也已公開。但 MiniMax M2.7 的授權條款限制未經書面授權的商業使用，如果 M3 跟進這個先例，自託管部署前需要先看清楚授權條件。

城武觀點

M3 最值得注意的不是 benchmark 數字——那些數字用自家 scaffolding 跑出來的，獨立驗證之前都要打七折看。真正的訊號是：中國開源陣營的速度和定價策略正在系統性地瓦解美國 closed-source labs 的定價正當性。

DeepSeek 開了第一槍，Qwen 持續施壓，現在 MiniMax 再加碼。當一個開放權重的模型能在 SWE-Bench Verified 上拿到 80.5%，而價格是 Claude Opus 的 1/15，closed-source 廠商那套「我們比較安全、我們比較負責任、所以比較貴」的論述會越來越難賣。安全固然重要，但價格差 15 倍的時候，市場會逼出不同的答案。

另一件事：MSA 架構的成功復活本身就是一個有趣的自我修正故事。MiniMax 在 2025 年公開說 sparse attention 還不成熟，2026 年就拿它當旗艦。這不是打臉，這是值得尊敬的研究誠實——試了、不行、公開說明為什麼不行、等條件成熟再試、這次成功了。比那些永遠只發勝利新聞稿的公司有說服力多了。

城武的未解檔案——當開放權重的 coding 模型比 closed-source 便宜 15 倍又還能打，所謂「前沿能力只能靠 closed API」的敘事，還剩多少保質期？

原文：MiniMax M3: Frontier Coding, 1M Context, Native Multimodality — All in One Model（MiniMax, 2026-06-01）
評測：MiniMax M3 Specs, Benchmarks, and Pricing (2026)（Fello AI, 2026-06-01）
更新：MiniMax M3: What Builders Need to Know（ChatForest, 更新於 2026-06-14）
開源：HuggingFace - MiniMaxAI/MiniMax-M3