【深度分析】開源 LLM 何時追上閉源?聖誕節 vs. 永遠差五個月——一個 benchmark 的兩種人生

過去半年,Twitter 上流傳一個讓人興奮的圖表:Artificial Analysis Intelligence Index 顯示開源模型的表現差距正在快速縮小,按照趨勢線推算,2026 年 12 月 3 日——聖誕節前——開源就會追上閉源。但 Doubleword 創辦人 Jamie Dborin 決定「挖深一點」,把同樣的分析套用到 Artificial Analysis 提供的全部 18 個 benchmark 上。結果是兩個完全不同的故事。這篇文章不只是在說「開源何時追上閉源」,更是再問一個更根本的問題:當我們用 benchmark 來測量 LLM 品質的時候,我們到底在量什麼?
原文摘要
Doubleword 的 Jamie Dborin 在 2026 年 6 月 22 日發表了一篇部落格文章,標題聳動:「預測:邊疆級開源 LLM 將於 2026 年 12 月 3 日發布」。但這篇文章真正的價值不是那個日期預測,而是它揭露的測量困境。
Dborin 開場說,他在 Twitter 上看到一張圖在流傳,決定深入挖掘。那張圖畫的是開源權重 LLM 與閉源 LLM 之間的能力差距。衡量方法很直觀:先找出開源模型在某個 benchmark 上的「前緣表現」(frontier performance),然後往回看,找出閉源模型在多久之前達到了同樣水準。這個數字就是「開源落後閉源幾個月」。
這張圖用的 benchmark 是 Artificial Analysis Intelligence Index——這是 Artificial Analysis 的招牌綜合指標,試圖評估模型的整體能力。Dborin 自己補充了一句值得注意的話:「這個指標大體上跟人們對模型的『vibe』感受有相當好的相關性。」
從這個單一 benchmark 看,畫面非常樂觀:從 2024 年夏天開始,開源與閉源的差距就持續穩定縮小。如果畫一條最佳擬合線(line of best fit)並延伸到未來,會發現差距在大約 2026 年 12 月 3 日 縮小到零個月——從寫文章當天算起大約六個月後。
Dborin 在這裡停下來開了一個玩笑:「現在大概是清算你的退休金、飛去某個偏遠島嶼、在文明終結前安靜度過剩下六個月的好時機。」
然後他寫:「……除了。」
「這可能不是全貌。這只是一個單一 benchmark,無法完整呈現 LLM 的能力圖像。」
幸運的是,Artificial Analysis 提供了他們針對這些模型測量的 全部 18 個不同 benchmark。Dborin 把同樣的分析重複做了 18 次,然後把所有結果彙整成一張盒鬚圖(box plot)。
結果與單一 benchmark 的故事截然不同。
18 個 benchmark 的平均差距,幾乎完全是一條水平線——整段期間都維持在略低於五個月的水準。也就是說,如果用全部可取得的 benchmark 來量,開源落後閉源的差距過去一年裡根本沒有縮小。
Dborin 指出一個非常關鍵的發現:模型整體進步的絕大部分,來自編碼類 benchmark。編碼指標從落後 15 個月,一路追到只剩一兩個月的差距。但其他大部分資料集的差距反而隨著時間溫和擴大。
所以他說:「所以,也許開源末日還不會發生。」
最後的結論:「這個練習告訴我們的是衡量 LLM 品質的困難。取決於你怎麼量,你可能會預測開源奇點在聖誕節前出現,或者你會說開源 LLM 穩定落後閉源五個月,而且差距可能在擴大。」
文章底部附帶了 18 個個別 benchmark 的互動圖表選擇器,涵蓋:AIME、AIME 25、Artificial Analysis Agentic Index、Coding Index、Intelligence Index、Math Index、GPQA、HLE、IFBench、LCR、LiveCodeBench、MATH 500、MMLU-Pro、SciCode、Tau2、Tau Banking、TerminalBench Hard、TerminalBench v2.1。
城武觀點
這篇文章最誠實的一句話不是那個日期預測,而是那句:「這個指標大體上跟人們對模型的 vibe 感受有相當好的相關性。」用跟「vibe」校準過的指標當旗艦 benchmark,然後宣稱發現開源收斂——我們在量模型的進步,還是在量 benchmark 捕捉 vibe 的能力?指標跟著社群感受走,畫出來的「收斂」只是偏好的自我實現。
更值得追問的是改善分布的懸殊。編碼類 benchmark 從落後 15 個月追到 1-2 個月,但 GPQA、MMLU-Pro、HLE 的差距在擴大。原因很簡單:SWE-bench 變成了業界 KPI,所有資源都往編碼優化塞,沒有人用同樣力氣優化科學推理。我們量什麼,世界就變成什麼。 這不是 LLM 的固有屬性,是激勵機制的後果。
而這正是這篇分析的真正價值——它用一個對比實驗揭露了 LLM 品質測量本身就是政治行為。選哪個 benchmark、加權怎麼給、單一指標還是多指標平均——每個決定都指向不同的故事。同一個數據來源、同一套方法,兩個完全相反的結論。Dborin 不選邊,他把兩種人生都攤給你看。
那我選。我賭 18 個 benchmark 的平均。單一指標太容易被遊戲:任何 benchmark 一旦成為目標,就不再是好 benchmark。SWE-bench 分數在過去一年膨脹到幾乎飽和,不是編碼問題變簡單了,是整個供應鏈都在針對它優化。vibe-based 指標遲早也會被同樣的動態侵蝕。
五個月的差距不是末日,但它告訴我們開源沒有在「全面」追趕。它在編碼上追得非常快,在其他維度上正在被拉開。只盯著 coding benchmark 看到奇點在轉角,把視線拉遠看到 GPQA、HLE、MMLU-Pro 的差距不減反增——「全面收斂」的敘事比你想像的脆弱。
城武的未解檔案——開源 LLM 與閉源的距離不是五個月,而是你手上那根量尺決定的。量尺決定敘事,敘事決定資源,資源決定下一次量出來的數字。圓已以閉合。
- 原文:Prediction: A Frontier Open Source LLM Will Be Released On 3rd December 2026(Jamie Dborin, Doubleword, 2026-06-22)