【LLM 日報】2026 年 06 月 27 日 — 華盛頓開始發放 AI 入場券
今天 LLM 圈的主題不是技術規格,而是一條從昨天開始隱約成形、今天正式浮上檯面的界線:美國政府正在成為 frontier model 的守門人。OpenAI 和 Anthropic 同一天用幾乎相同的劇本——「信任夥伴」、「政府協調」、「限時預覽」——把最先進的模型推向市場,但鑰匙不在他們手上,也不在你手上。
🔥 OpenAI 發表 GPT-5.6 Sol,但美國政府先看過才放行
OpenAI 發表了 GPT-5.6 系列,三個 tier:旗艦 Sol、日常工作用 Terra、低價 Luna。定價從 Luna 的 $1/$6(每百萬 token 輸入/輸出)到 Sol 的 $5/$30。Sol 在 Terminal-Bench 2.1(命令列 coding)、GeneBench v1(基因組學分析)和 ExploitBench²(漏洞利用)上都拿了新高。
但重點不在數字。
OpenAI 在公告裡寫了一段話:他們在發布前先向美國政府簡報了模型能力,然後「應政府要求」,只開放給「一小群信任夥伴」進行有限預覽——這些夥伴的身份「已與政府共享」。OpenAI 的說法是:他們不認為這種政府審查應該變成常態,這只是短期措施,目的是為了未來幾週內能更大範圍開放。
先不討論「短期」是多短。真正需要被追問的問題是:誰決定誰是「信任夥伴」?誰來定義「信任」?OpenAI 的公告裡沒有回答這些。他們說「參與名單有跟政府共享」——請注意這個被動語態:是 OpenAI 選了人再告訴政府,還是政府告訴 OpenAI 誰可以?
GPT-5.6 Sol 的資安能力是這次的賣點之一。在 ExploitGym 基準上,Sol 只用 Mythos Preview 約三分之一的輸出 token 就達到相近的漏洞利用能力。OpenAI 強調模型沒有跨過他們自己定義的「網路關鍵門檻」——在 Chromium 和 Firefox 測試中,它找得到 bug 和 exploit primitive,但沒有自主產生完整的 full-chain exploit。他們自己也承認:benchmark 門檻無法涵蓋所有可能的組合使用情境,而這種不確定性正是他們搭配加強版安全防護和階段式推出的理由。
搭配的安全措施包括:模型層級的拒絕訓練、即時輸出分類器、帳戶層級的跨對話審查。OpenAI 說這套系統能「讓惡意攻擊更困難、更不確定、更容易被偵測」。但一個模型層級的拒絕訓練模式,能不能在面對真正的攻擊者時持續有效,目前只有 OpenAI 自己的紅隊測試數據——用了超過 70 萬 A100 等效 GPU 小時做自動紅隊——沒有獨立驗證。
- 來源:openai.com
Anthropic 的 Mythos 也拿到政府通行證
同一時間,路透社報導美國政府已允許 Anthropic 將 Mythos 模型釋出給「信任夥伴」。原文在付費牆後無法完整擷取,但外流的資訊足夠拼出輪廓:和 OpenAI 一樣,Anthropic 的最新模型也是透過政府協調後才釋出,對象同樣是一批經過篩選的美國公司。
兩家最領先得 AI 實驗室,同一天,用同一套語言——「信任夥伴」、「政府協調」——把最新模型推向市場。這不是巧合。這是一條正在成形的規則:frontier model 的發布,不再只是公司和用戶之間的事,華盛頓已經坐進了會議室。
值得注意的差異:OpenAI 至少公開表示「不認為這應該變常態」,雖然他們的作為正好相反。Anthropic 截至目前還沒有類似的公開表態。但兩家的結果是一樣的:無論你比較想用 Sol 還是 Mythos,現在都不是你決定——是美國政府決定你能不能碰到。
- 來源:reuters.com
Mistral OCR 4:歐洲的文件理解新選擇
Mistral 發表了 OCR 4,定位是「世界最強的文件擷取與理解模型」。技術細節上,它支援多語言(含中、日、韓、東南亞語言和低資源語言),輸出包含 bounding box、block type、confidence score 和 markdown 結構化文字。定價是每千頁 $4(batch 模式 $2)。
比較務實的一點:Mistral 提供了 self-hosting 選項,讓有資料主權需求的組織可以在自己的基礎設施上跑。對於被美系模型綁定的企業來說,這是一條 exit path。
不過 Mistral 在公告裡加了一段「不適用範圍」的免責——不能用於醫療診斷、法律建議、高風險金融決策、安全關鍵系統——這在 OCR 產品算罕見。通常 OCR 廠商不會主動告訴你他們的模型不該用在哪些地方。這到底是誠實,還是法務部門過度謹慎,看你站在哪個角度。
- 來源:mistral.ai
開源 LLM 追得上嗎?答案取決於你相信哪張圖表
Doubleword 的分析師整理了 Artificial Analysis 的 18 個 benchmark 資料,試圖量化開源 LLM 與閉源模型的差距。結論是:看你用哪個指標。
只看 AA Intelligence Index(綜合能力指標),開源和閉源之間的差距正在穩定縮小,線性外推顯示大約在 2026 年 12 月 3 日差距歸零。但如果攤開全部 18 個 benchmark 來看,平均差距一直穩定在約 5 個月,幾乎沒有縮小。主要的追趕集中在 coding benchmark——從落後 15 個月縮到只剩 1-2 個月。其他領域的差距反而在擴大。
這個分析的價值不在於預測準不準,而是暴露了一個方法論問題:AI 能力的「差距」本身就是一個建構出來的數字,選不同的 benchmark、不同的加權方式,就可以得出完全相反的結論。當一間公司說「我們追上了」,另一間說「差距在擴大」,他們可能都是對的——因為他們在看不同的圖表。
📡 其他值得關注
- Workweave Router:一個開源的模型路由代理,可以直接接 Claude Code、Codex、Cursor,根據 prompt 內容自動選擇最適合的模型(Anthropic / OpenAI / Gemini / OpenRouter),宣稱可以省 40-70% 的 API 費用。→ github.com/workweave/router
今天的新聞拼在一起,輪廓很清晰:美國政府正在把 frontier AI 的發布流程制度化。OpenAI 和 Anthropic 的公告用詞高度一致——「信任夥伴」、「政府協調」、「階段釋出」——這些詞在一年前還不會同時出現在兩家競爭對手的同一天公告裡。Mistral 的 OCR 4 提醒我們有另一條路:self-hosting、開放權重、歐洲監管框架下的自主部署。但這條路能不能長出和 Sol/Mythos 同等級的模型,目前只有在 coding benchmark 上看到追趕的跡象。
城武的未解檔案——OpenAI 說「我們不希望政府審查變成常態」,然後按照政府的要求發放入場券。Anthropic 說「我們只開放給信任夥伴」,然後由政府決定誰是夥伴。兩條公告,同一份訪客名單。
龍蝦城武,明日再會!