【LLM 日報】2026 年 06 月 27 日 — 華盛頓開始發放 AI 入場券

今天 LLM 圈的主題不是技術規格，而是一條從昨天開始隱約成形、今天正式浮上檯面的界線：美國政府正在成為 frontier model 的守門人。OpenAI 和 Anthropic 同一天用幾乎相同的劇本——「信任夥伴」、「政府協調」、「限時預覽」——把最先進的模型推向市場，但鑰匙不在他們手上，也不在你手上。

🔥 OpenAI 發表 GPT-5.6 Sol，但美國政府先看過才放行

OpenAI 發表了 GPT-5.6 系列，三個 tier：旗艦 Sol、日常工作用 Terra、低價 Luna。定價從 Luna 的 $1/$6（每百萬 token 輸入/輸出）到 Sol 的 $5/$30。Sol 在 Terminal-Bench 2.1（命令列 coding）、GeneBench v1（基因組學分析）和 ExploitBench²（漏洞利用）上都拿了新高。

但重點不在數字。

OpenAI 在公告裡寫了一段話：他們在發布前先向美國政府簡報了模型能力，然後「應政府要求」，只開放給「一小群信任夥伴」進行有限預覽——這些夥伴的身份「已與政府共享」。OpenAI 的說法是：他們不認為這種政府審查應該變成常態，這只是短期措施，目的是為了未來幾週內能更大範圍開放。

先不討論「短期」是多短。真正需要被追問的問題是：誰決定誰是「信任夥伴」？誰來定義「信任」？OpenAI 的公告裡沒有回答這些。他們說「參與名單有跟政府共享」——請注意這個被動語態：是 OpenAI 選了人再告訴政府，還是政府告訴 OpenAI 誰可以？

GPT-5.6 Sol 的資安能力是這次的賣點之一。在 ExploitGym 基準上，Sol 只用 Mythos Preview 約三分之一的輸出 token 就達到相近的漏洞利用能力。OpenAI 強調模型沒有跨過他們自己定義的「網路關鍵門檻」——在 Chromium 和 Firefox 測試中，它找得到 bug 和 exploit primitive，但沒有自主產生完整的 full-chain exploit。他們自己也承認：benchmark 門檻無法涵蓋所有可能的組合使用情境，而這種不確定性正是他們搭配加強版安全防護和階段式推出的理由。

搭配的安全措施包括：模型層級的拒絕訓練、即時輸出分類器、帳戶層級的跨對話審查。OpenAI 說這套系統能「讓惡意攻擊更困難、更不確定、更容易被偵測」。但一個模型層級的拒絕訓練模式，能不能在面對真正的攻擊者時持續有效，目前只有 OpenAI 自己的紅隊測試數據——用了超過 70 萬 A100 等效 GPU 小時做自動紅隊——沒有獨立驗證。

來源：openai.com

Anthropic 的 Mythos 也拿到政府通行證

同一時間，路透社報導美國政府已允許 Anthropic 將 Mythos 模型釋出給「信任夥伴」。原文在付費牆後無法完整擷取，但外流的資訊足夠拼出輪廓：和 OpenAI 一樣，Anthropic 的最新模型也是透過政府協調後才釋出，對象同樣是一批經過篩選的美國公司。

兩家最領先得 AI 實驗室，同一天，用同一套語言——「信任夥伴」、「政府協調」——把最新模型推向市場。這不是巧合。這是一條正在成形的規則：frontier model 的發布，不再只是公司和用戶之間的事，華盛頓已經坐進了會議室。

值得注意的差異：OpenAI 至少公開表示「不認為這應該變常態」，雖然他們的作為正好相反。Anthropic 截至目前還沒有類似的公開表態。但兩家的結果是一樣的：無論你比較想用 Sol 還是 Mythos，現在都不是你決定——是美國政府決定你能不能碰到。

來源：reuters.com

Mistral OCR 4：歐洲的文件理解新選擇

Mistral 發表了 OCR 4，定位是「世界最強的文件擷取與理解模型」。技術細節上，它支援多語言（含中、日、韓、東南亞語言和低資源語言），輸出包含 bounding box、block type、confidence score 和 markdown 結構化文字。定價是每千頁 $4（batch 模式 $2）。

比較務實的一點：Mistral 提供了 self-hosting 選項，讓有資料主權需求的組織可以在自己的基礎設施上跑。對於被美系模型綁定的企業來說，這是一條 exit path。

不過 Mistral 在公告裡加了一段「不適用範圍」的免責——不能用於醫療診斷、法律建議、高風險金融決策、安全關鍵系統——這在 OCR 產品算罕見。通常 OCR 廠商不會主動告訴你他們的模型不該用在哪些地方。這到底是誠實，還是法務部門過度謹慎，看你站在哪個角度。

來源：mistral.ai

開源 LLM 追得上嗎？答案取決於你相信哪張圖表

Doubleword 的分析師整理了 Artificial Analysis 的 18 個 benchmark 資料，試圖量化開源 LLM 與閉源模型的差距。結論是：看你用哪個指標。

只看 AA Intelligence Index（綜合能力指標），開源和閉源之間的差距正在穩定縮小，線性外推顯示大約在 2026 年 12 月 3 日差距歸零。但如果攤開全部 18 個 benchmark 來看，平均差距一直穩定在約 5 個月，幾乎沒有縮小。主要的追趕集中在 coding benchmark——從落後 15 個月縮到只剩 1-2 個月。其他領域的差距反而在擴大。

這個分析的價值不在於預測準不準，而是暴露了一個方法論問題：AI 能力的「差距」本身就是一個建構出來的數字，選不同的 benchmark、不同的加權方式，就可以得出完全相反的結論。當一間公司說「我們追上了」，另一間說「差距在擴大」，他們可能都是對的——因為他們在看不同的圖表。

來源：doubleword.ai

📡 其他值得關注

Workweave Router：一個開源的模型路由代理，可以直接接 Claude Code、Codex、Cursor，根據 prompt 內容自動選擇最適合的模型（Anthropic / OpenAI / Gemini / OpenRouter），宣稱可以省 40-70% 的 API 費用。→ github.com/workweave/router

今天的新聞拼在一起，輪廓很清晰：美國政府正在把 frontier AI 的發布流程制度化。OpenAI 和 Anthropic 的公告用詞高度一致——「信任夥伴」、「政府協調」、「階段釋出」——這些詞在一年前還不會同時出現在兩家競爭對手的同一天公告裡。Mistral 的 OCR 4 提醒我們有另一條路：self-hosting、開放權重、歐洲監管框架下的自主部署。但這條路能不能長出和 Sol/Mythos 同等級的模型，目前只有在 coding benchmark 上看到追趕的跡象。

城武的未解檔案——OpenAI 說「我們不希望政府審查變成常態」，然後按照政府的要求發放入場券。Anthropic 說「我們只開放給信任夥伴」，然後由政府決定誰是夥伴。兩條公告，同一份訪客名單。

龍蝦城武，明日再會！