LLM 週報：華盛頓開始發 AI 入場券——而你不在名單上

Hero

這週 LLM 圈發生了一件事，它不會出現在任何 benchmark 排行榜上，但它定義了接下來五年這個產業的遊戲規則：美國政府正式坐進「誰能用最強 AI」的決策桌，而 OpenAI 和 Anthropic 把椅子拉給它坐的。

不是國會立法、不是行政命令、不是法院判決。就是兩家公司自願把用戶名單交給華盛頓審查，然後對外說「我們不覺得這應該變成常態」。本週的每一個頭條——GPT-5.6、Mythos、Jalapeño 晶片、阿里巴巴萃取 Claude、IPO 延後——全都掛在同一根繩子上：當最強模型的發布不再由產品經理決定，而是由白宮幕僚決定，整個產業的邏輯就變了。

本週焦點

1. 美國政府開始審查誰能用 GPT-5.6——而且這不是法律

OpenAI 在 6 月 26 日預覽 GPT-5.6 Sol 的同一週，《華盛頓郵報》揭露了一個更根本的事實：美國政府正在逐客戶審查誰可以取得這個模型的存取權。不是「符合某些條件就能用」，不是「通過安全審計就能用」——是華盛頓有一份名單，而你在不在上面取決於政治判斷。

這有什麼問題？問題在於程序。過去 AI 治理的討論框架是「國會立法 → 機關依法監管 → 業界遵守」。但現在發生的事完全跳過了前兩步：行政部門直接要求公司限制發布對象，公司照辦，沒有公告審查標準、沒有申訴機制、沒有日落條款。OpenAI 的官方說法是「我們不認為政府審查應該成為常態」——這句話的諷刺之處在於，他們正在用實際行動讓它變成先例。

同一天，路透社和 Semafor 報導美國政府也批准 Anthropic 向「受信任的美國組織」釋出 Mythos 模型。兩家最領先的 AI 實驗室，同一份劇本，同一組形容詞——「trusted partners」、「verified organizations」、「limited preview」。語言的一致性本身就是訊號：這不是各別公司的安全政策，這是一個正在形成的體制，而法律基礎並不存在。

2. OpenAI GPT-5.6 Sol：模型很強，但發布方式才是新聞

GPT-5.6 系列包含三個 tier：Sol（旗艦）、Terra（平衡型）、Luna（輕量型）。技術上，Sol 在 Terminal-Bench 2.1、GeneBench v1、ExploitBench² 都拿下 SOTA——這些數字是真的，問題不在模型。問題在 OpenAI 選擇了一種前所未見的發布模式：模型完成後不公開發布，而是先送白宮審閱，再由政府決定誰可以存取。

這跟 Anthropic 在 /llm/ai/deep-translation/2026/06/28/gpt56-gov-vetting-ipo.html 中分析的情況一致：OpenAI 自己的公告裡說「我們致力於安全部署」，但完全沒有說明什麼是「安全」的操作型定義、由誰定義、被拒絕的人有沒有補救管道。當一家公司說「我們相信負責任的 AI」，你要問的不是他們相不相信——你要問的是誰在負責任，以及責任的邊界在哪裡。

Simon Willison 在他的部落格中引述了 OpenAI 的關鍵句：”We’re beginning a limited preview of the GPT-5.6 family of models with a small set of trusted partners, whose identities we’ve shared with the U.S. government.” 注意那個詞：「shared with」——不是「approved by」、不是「reviewed by」、不是「vetted by」。OpenAI 仔細選擇了一個被動的動詞，把主動權的歸屬模糊掉。但《華盛頓郵報》的報導標題直接寫「U.S. government will decide who gets to use GPT-5.6」。兩個版本之間的落差，就是本週最值得追問的空間。

3. Anthropic 指控阿里巴巴非法萃取 Claude——AI 地緣政治升溫

6 月 24 日，路透社和彭博社同時報導：Anthropic 正式指控阿里巴巴「非法萃取」Claude 模型能力。用詞是 “illicitly extracted”——不是抄襲程式碼、不是盜用權重、不是逆向工程，而是透過某種不透明的機制「提取」了 Claude 的能力。

這是中美 AI 競爭的一個轉折點。過去這類爭議停留在「開源模型被中國公司拿去訓練自己的模型」的層次——Meta 的 Llama 被解放軍使用的故事已經是老哏。但 Anthropic 的指控不一樣：目標是閉源模型、手法據稱是萃取而非複製、被告是中國最大的科技公司之一。如果屬實，這意味著模型層級的安全漏洞不只是「被越獄」，而是「被系統性抽取」。

Bloomberg 的版本補充了一個關鍵背景：Anthropic 沒有公開具體技術證據，也沒有說明萃取是如何進行的。阿里巴巴截至目前沒有正式回應。這件事的後續發展——有沒有獨立驗證、有沒有法律行動、美國政府會不會藉此加速出口管制——將直接影響接下來半年全球 AI 競爭的規則。

4. OpenAI 首款自製推論晶片 Jalapeño：從軟體走向硬體自主

6 月 24 日，OpenAI 與 Broadcom 聯手發表了第一款專為 LLM 推論設計的客製晶片 Jalapeño。這不只是「OpenAI 也要做晶片了」的公關稿——它是一個結構性變化的信號。

截至目前，所有大型 AI 實驗室的推論成本都高度依賴 NVIDIA GPU。NVIDIA 不是單純的供應商，它是整個 AI 算力市場的定價者。OpenAI 做自己的推論晶片，意味著它在試圖打破這個單一依賴。與 Broadcom 合作而非從零自建晶圓廠，是一個務實的選擇——但關鍵不在誰生產晶片，而在誰設計架構。一旦推論晶片可以脫離 NVIDIA 生態系，模型部署的經濟學就改變了：成本的瓶頸從「NVIDIA 給你多少 H200」變成「你自己能跑多少 Jalapeño」。

但這件事還有另一面。OpenAI 一邊推出自己的硬體、降低對 NVIDIA 的依賴，一邊卻在軟體層面大幅增加對美國政府的依賴（見第 1 則）。硬體自主 vs 軟體審查——這兩條線的矛盾，會是接下來觀察 OpenAI 的核心維度。

5. Mistral 四連發：Mistral 3、Small 4、Medium 3.5、OCR 4

同一週，當美國實驗室忙著跟華盛頓喬名單的時候，法國 Mistral 默默推出了四款模型：旗艦的 Mistral 3、輕量的 Small 4、主打 agent 場景的 Medium 3.5、以及支援 170 種語言的 OCR 4。歐洲的戰略很清楚：不跟你在「誰能得到最強模型」的遊戲裡競爭，而是在「誰能用得到夠好的模型」的市場裡搶地盤。

Mistral 的路線跟 OpenAI/Anthropic 形成了一個值得注意的對比：一邊是極致性能但附帶政府審查，一邊是夠好性能但開放取用。這不是技術路線的選擇，這是商業模式的選擇。如果美國模型的取得成本越來越高——不只是金錢成本，還有政治成本——Mistral 的「夠好 + 開放」就會從替代方案變成首選。

其他值得關注

DeepSeek 開源 DSpark：MIT 授權的 speculative decoding 框架：含 DSpark、DFlash、Eagle3 三種演算法。程式碼開源了，但跑起來需要 38TB cache 和 8 GPU——硬體門檻沒開源。(GitHub)
GLM-5.2 被評為開源 agent 的階躍式突破：在 agent 任務上的表現拉近與閉源模型的差距，開源生態終於有能打的 agent 模型了。(Interconnects)
Anthropic 發布 2026 年 6 月經濟指數報告：追蹤 AI 對經濟的影響節奏，強調不同產業的採用速度差異。(Anthropic)
GPT-5 破解免疫學三年懸案：GPT-5 Pro 幫免疫學家 Derya Unutmaz 破解困擾三年的 T 細胞行為之謎。真實科學貢獻，但選擇在政府要求延後 GPT-5.6 的同一週發這篇公關文不是巧合。(OpenAI)
OpenAI IPO 傾向推遲到明年：$852B 估值的大型 IPO 推遲——當你的產品能不能賣取決於華盛頓，華爾街沒辦法給你定價。(NYT)
Anthropic × 蓋茲基金會 $200M 合作：AI 用於全球健康與發展，這是 Anthropic 本週少數跟「政府審查」無關的正面新聞。(Anthropic)
NSA 失去 Mythos 存取權：因 Anthropic 內部爭議，國安局對 Mythos 的存取被中斷——政府想監控 AI，但 AI 公司也可以反過來監控政府。(NYT)
AlphaFold 之父 John Jumper 從 DeepMind 跳槽 Anthropic：諾貝爾獎級科學家從 Google 轉投 Anthropic，AI 人才爭奪戰進入諾獎級別。(Reuters)
Claude Tag 上線：Anthropic 為 Claude 推出標籤功能。Slack 裡的 AI 同事會記得一切、主動追蹤，但 log 只有管理員看得到——透明是單向的。(Anthropic)
Gemini 3.5 Flash 加入電腦操控能力：Google 讓 Gemini 直接操作桌面介面，AI agent 從「對話框」跨入「滑鼠鍵盤」。(Google)
開源 vs 閉源 LLM 差距分析：看哪張圖表結論完全相反——綜合指標顯示差距縮小，但 18 個 benchmark 平均差距穩定在 5 個月。(Doubleword)
Samsung 全球部署 ChatGPT Enterprise 與 Codex：OpenAI 史上最大規模企業導入之一，但發生在政府審查機制的陰影下——三星的員工沒被攔，但下一個客戶呢？(OpenAI)
Prompt Injection 作為角色混淆：新論文將 prompt injection 重新框架為「角色混淆」，Simon Willison 推薦為今年最重要的安全論文之一。(Simon Willison)
Claude Code 的 Extended Thinking 輸出不是真實思考過程：揭露 Claude Code 顯示的「思考」是摘要而非原始過程——Anthropic 的透明承諾出現信用裂痕。(Patrick McCanna)

隱藏敘事線

本週的新聞如果只看表面，是 OpenAI 出新模型、Anthropic 告阿里巴巴、Mistral 發四款模型——看起來是三家公司在不同賽道各跑各的。但把這幾條線疊在一起：美國政府首次直接介入單一模型的使用者審查，OpenAI 和 Anthropic 自願把決定權交出去。同一週，Mistral 在歐洲推出四款模型、DeepSeek 開源推論加速框架、GLM-5.2 突破開源 agent 門檻——兩條軌道正在分岔：一條是「政府把關」的美國前緣模型，一條是「不需要那扇門」的開放替代方案。