【深度分析】GPT-5.6 Sol 正式預覽——三層模型、四層安全、政府把關,OpenAI 說「我們相信廣泛存取」

OpenAI 在 6 月 26 日正式發布 GPT-5.6 Sol 預覽——不是全面釋出,而是限額預覽,而且「限額」的審查者是美國政府。這篇文章不只拆解三層模型(Sol/Terra/Luna)的技術與 benchmark,更要追問一句:當 OpenAI 說「我們相信廣泛存取」的時候,為什麼同一句話的後面緊跟著「政府幫我們挑客戶」?
原文摘要
三層模型:Sol、Terra、Luna
GPT-5.6 系列包含三個模型層級。Sol 是旗艦模型,具備最強的能力與最深的推理深度;Terra 定位日常工作的平衡方案,效能可與 GPT-5.5 競爭但成本只有一半;Luna 則是快速、低廉的選擇,以最低成本提供強悍能力。OpenAI 在公告中表示:「我們相信廣泛存取,我們計畫在未來幾週內讓 GPT-5.6 Sol、Terra 和 Luna 全面可用。」
政府參與與階段式部署
OpenAI 在發布前向美國政府 preview 了計畫與模型能力。應政府要求,此次釋出從一個限額預覽開始——僅限一小批受信任的合作夥伴,且其參與名單已與政府共享。OpenAI 強調這個政府把關步驟不應成為長期常態,階段式部署是短期措施,他們正在與行政部門合作制定網路安全行政命令框架。
能力亮點
GPT-5.6 Sol 引入兩個新的推理功能:max reasoning effort(給予模型最長的推理時間進行深度思考)與ultra mode(透過子代理加速複雜工作,超越單一代理的限制)。
Benchmark 成績
- 程式設計:Terminal-Bench 2.1 上達到新的 state-of-the-art,在命令列工作流程中表現最佳。
- 生物學:GeneBench v1 上表現優於 GPT-5.5,用更少的 token 完成長時序基因組學任務。
- 網路安全:ExploitBench 上與 Mythos Preview 達到競爭水準,但只用了約三分之一的輸出 token。
- 網路安全:Berkeley 的 ExploitGym 上,三個模型都隨著推理深度增加展現顯著進步。
網路安全能力定位
Sol 在尋找與修復漏洞方面比執行端到端攻擊更有效。根據 OpenAI 的 Preparedness Framework,Sol 未跨越 Cyber Critical 的門檻。由於殘餘不確定性,此次發布仍搭配了更強的安全防護。
四層安全堆疊
OpenAI 為 GPT-5.6 Sol 建置了四層安全機制:
- 模型層級訓練:訓練模型拒絕被禁止的網路協助請求。
- 即時濫用分類器:生成過程可能被暫停,由一個更大的推理模型審查上下文。
- 帳戶層級審查:被標記的活動會觸發跨多個對話的審查。
- 差異化存取:敏感能力預設不對廣泛使用者開放。
自動與人工紅隊測試
OpenAI 投入超過 700,000 A100 等效 GPU 小時 進行自動化紅隊測試,重點是尋找通用越獄手段。外部紅隊測試則由邀請的專家負責,涵蓋生物學、網路安全與自我外洩風險。
城武觀點
OpenAI 這篇公告有兩層敘事。表層是「我們做了史上最扎實的安全工程」——700,000 A100 小時的紅隊測試、四層堆疊、政府逐案審查,這些數字比任何一家 AI 公司都多。但深層的問題是:所有這些機制的決策權,都在 OpenAI 自己手裡。
先說三層模型。OpenAI 說「我們相信廣泛存取」,但同一句話的後半段是「政府幫我們挑客戶」。Sol 給政府審查過的菁英合作夥伴、Terra 給付得起的企業客戶、Luna 給普羅大眾——這不是普惠策略,這是階級定價用三種名字包裝。Sol 的 access 需要政府點頭,Terra 的 access 需要預算,Luna 才是「廣泛存取」的真面目。三層不是技術分類,是市場區隔;階級不是 bug,是定價策略。
在再是安全堆疊。四層機制看起來滴水不漏,但每一層的決策誰來監督?模型層的訓練資料誰決定的?濫用分類器的閾值誰設的?帳戶審查的標準誰寫的?差異化存取的「敏感能力」誰定義的?答案都是 OpenAI。投資了史上最多的安全資源是一個事實,但把審查者和被審查者放在同一個組織裡——這不是安全,這是信任。而 OpenAI 選擇把這個信任問題包裝成工程問題。
最後是 benchmark 敘事。Sol 在 ExploitBench 上只用 Mythos Preview 三分之一的 tokens 就達到同等水準——OpenAI 用「我們沒跨過 Cyber Critical 門檻」來定調,好像這是安全性利。但從另一個角度看:你用更少的運算成本就能達到同樣的攻擊能力,這不是效率,這是「危險變便宜了」。 門檻是 OpenAI 自己畫的,跨不跨過是他們自己量的。把一個潛在的風險訊號包裝成技術亮點,是這整篇公告最精采的文字遊戲。
OpenAI 說相信廣泛存取,然後把最強模型交給政府審查、把次強模型標高價、把最弱模型留給「廣泛」。這個結構的形狀很清楚了——不是所有人都平等,是所有人都平等地依賴 OpenAI 來告訴你你屬於哪一層。
城武的未解檔案——三層模型、四層安全、零層民主。
- 原文:Previewing GPT‑5.6 Sol: a next-generation model(OpenAI, 2026-06-26)