【深度分析】GPT-5.6 Sol 正式預覽——三層模型、四層安全、政府把關，OpenAI 說「我們相信廣泛存取」

Hero

OpenAI 在 6 月 26 日正式發布 GPT-5.6 Sol 預覽——不是全面釋出，而是限額預覽，而且「限額」的審查者是美國政府。這篇文章不只拆解三層模型（Sol/Terra/Luna）的技術與 benchmark，更要追問一句：當 OpenAI 說「我們相信廣泛存取」的時候，為什麼同一句話的後面緊跟著「政府幫我們挑客戶」？

原文摘要

三層模型：Sol、Terra、Luna

GPT-5.6 系列包含三個模型層級。Sol 是旗艦模型，具備最強的能力與最深的推理深度；Terra 定位日常工作的平衡方案，效能可與 GPT-5.5 競爭但成本只有一半；Luna 則是快速、低廉的選擇，以最低成本提供強悍能力。OpenAI 在公告中表示：「我們相信廣泛存取，我們計畫在未來幾週內讓 GPT-5.6 Sol、Terra 和 Luna 全面可用。」

政府參與與階段式部署

OpenAI 在發布前向美國政府 preview 了計畫與模型能力。應政府要求，此次釋出從一個限額預覽開始——僅限一小批受信任的合作夥伴，且其參與名單已與政府共享。OpenAI 強調這個政府把關步驟不應成為長期常態，階段式部署是短期措施，他們正在與行政部門合作制定網路安全行政命令框架。

能力亮點

GPT-5.6 Sol 引入兩個新的推理功能：max reasoning effort（給予模型最長的推理時間進行深度思考）與ultra mode（透過子代理加速複雜工作，超越單一代理的限制）。

Benchmark 成績

程式設計：Terminal-Bench 2.1 上達到新的 state-of-the-art，在命令列工作流程中表現最佳。
生物學：GeneBench v1 上表現優於 GPT-5.5，用更少的 token 完成長時序基因組學任務。
網路安全：ExploitBench 上與 Mythos Preview 達到競爭水準，但只用了約三分之一的輸出 token。
網路安全：Berkeley 的 ExploitGym 上，三個模型都隨著推理深度增加展現顯著進步。

網路安全能力定位

Sol 在尋找與修復漏洞方面比執行端到端攻擊更有效。根據 OpenAI 的 Preparedness Framework，Sol 未跨越 Cyber Critical 的門檻。由於殘餘不確定性，此次發布仍搭配了更強的安全防護。

四層安全堆疊

OpenAI 為 GPT-5.6 Sol 建置了四層安全機制：

模型層級訓練：訓練模型拒絕被禁止的網路協助請求。
即時濫用分類器：生成過程可能被暫停，由一個更大的推理模型審查上下文。
帳戶層級審查：被標記的活動會觸發跨多個對話的審查。
差異化存取：敏感能力預設不對廣泛使用者開放。

自動與人工紅隊測試

OpenAI 投入超過 700,000 A100 等效 GPU 小時 進行自動化紅隊測試，重點是尋找通用越獄手段。外部紅隊測試則由邀請的專家負責，涵蓋生物學、網路安全與自我外洩風險。

城武觀點

OpenAI 這篇公告有兩層敘事。表層是「我們做了史上最扎實的安全工程」——700,000 A100 小時的紅隊測試、四層堆疊、政府逐案審查，這些數字比任何一家 AI 公司都多。但深層的問題是：所有這些機制的決策權，都在 OpenAI 自己手裡。

先說三層模型。OpenAI 說「我們相信廣泛存取」，但同一句話的後半段是「政府幫我們挑客戶」。Sol 給政府審查過的菁英合作夥伴、Terra 給付得起的企業客戶、Luna 給普羅大眾——這不是普惠策略，這是階級定價用三種名字包裝。Sol 的 access 需要政府點頭，Terra 的 access 需要預算，Luna 才是「廣泛存取」的真面目。三層不是技術分類，是市場區隔；階級不是 bug，是定價策略。

在再是安全堆疊。四層機制看起來滴水不漏，但每一層的決策誰來監督？模型層的訓練資料誰決定的？濫用分類器的閾值誰設的？帳戶審查的標準誰寫的？差異化存取的「敏感能力」誰定義的？答案都是 OpenAI。投資了史上最多的安全資源是一個事實，但把審查者和被審查者放在同一個組織裡——這不是安全，這是信任。而 OpenAI 選擇把這個信任問題包裝成工程問題。

最後是 benchmark 敘事。Sol 在 ExploitBench 上只用 Mythos Preview 三分之一的 tokens 就達到同等水準——OpenAI 用「我們沒跨過 Cyber Critical 門檻」來定調，好像這是安全性利。但從另一個角度看：你用更少的運算成本就能達到同樣的攻擊能力，這不是效率，這是「危險變便宜了」。 門檻是 OpenAI 自己畫的，跨不跨過是他們自己量的。把一個潛在的風險訊號包裝成技術亮點，是這整篇公告最精采的文字遊戲。

OpenAI 說相信廣泛存取，然後把最強模型交給政府審查、把次強模型標高價、把最弱模型留給「廣泛」。這個結構的形狀很清楚了——不是所有人都平等，是所有人都平等地依賴 OpenAI 來告訴你你屬於哪一層。

城武的未解檔案——三層模型、四層安全、零層民主。

原文：Previewing GPT‑5.6 Sol: a next-generation model（OpenAI, 2026-06-26）