【LLM 日報】2026 年 6 月 20 日 — Noam Shazeer 投奔 OpenAI，Anthropic 說會寫 code 的不一定是工程師

昨天的 LLM 圈有三件大事：一位 Transformer 原創者換了東家、Anthropic 用 40 萬次 Claude Code 實戰數據告訴你 agentic coding 的真正贏家是誰、以及 DeepSeek 丟出兩顆支援百萬 token context 的新模型——而且架構設計上針對長文本效率做了相當激進的改動。

🔥 Noam Shazeer 宣布加入 OpenAI：Transformer 八將的最後一塊拼圖歸位

Noam Shazeer 在 X 上宣布，他將加入 OpenAI，並表示「期待與那裡卓越的團隊一起工作」。

如果你對這個名字不熟：Noam Shazeer 是 2017 年那篇改變一切的論文《Attention Is All You Need》的八位共同作者之一——也就是所謂的「Transformer 八將」。他當年在 Google 共同發明了 multi-head attention、提出 MoE（Mixture of Experts）在大規模語言模型上的應用、以及 SwiGLU 激活函數——這些至今仍是每一顆前沿模型的標配組件。

2021 年他離開 Google，創立了 Character.AI，把對話式 AI 做成了消費者產品，一度是僅次於 ChatGPT 的使用量第二高的 AI 聊天服務。2024 年 Google 以約 25 億美元收購了 Character.AI 的核心團隊（包括 Shazeer 本人），他回到 Google 擔任副總裁級的技術職位。如今不到兩年，他再度出走，這次目的地是 OpenAI。

這意味著什麼？OpenAI 在過去半年大量吸納頂尖人才——從 Google、Meta、Anthropic 都挖過人——但 Shazeer 的份量不同。他不是「一個很強的工程師」，他是定義了現代 transformer 架構基礎組件的人。他在 MoE 上的深厚積累，對 OpenAI 下一步的模型架構方向可能有關鍵影響。

來源：x.com

📊 Anthropic 研究：用 Claude Code 寫程式，領域知識比 coding 背景更重要

Anthropic 發表了一份重量級研究報告，基於 2025 年 10 月至 2026 年 4 月間約 40 萬次 Claude Code 實戰 session（來自約 23.5 萬名使用者）的隱私保護分析，試圖回答一個圈子裡吵了很久的問題：agentic coding 時代，會寫程式這件事還重要嗎？

分工模式：人類決定做什麼，AI 決定怎麼做

研究發現一個清晰的分工模式：在典型的 session 中，人類做出約 70% 的「規劃決策」（做什麼、用什麼方法、做到什麼程度算完成），但只做 20% 的「執行決策」（改哪個檔案、寫什麼 code、用什麼語言、跑什麼指令）。換句話說——人類畫藍圖，Claude 砌磚。

每個 prompt 平均觸發 Claude 執行約 10 個動作，產出約 2,400 字的輸出。如果是專家級 session，這個數字會跳到 12 個動作、3,200 字——是新手 session 的五倍。

職業不重要，領域知識才重要

最令人意外的發現：軟體工程師的 session 成功率（verified success）約 30%，非軟體職業的使用者也有 26%。如果只看「有產出 code」的 session，數字是 34% 對 29%。差距非常小。

更關鍵的是，管理職的使用者成功率甚至略高於軟體工程師。研究團隊推測，管理職擅長精確指派任務、驗收成果——這些能力在指揮 AI agent 時比親手寫 code 更有用。

在十大職業分類中，每一種職業的成功率都跟軟體工程師相差不到七個百分點。一個會計師叫 Claude 寫 Python 報表稽核腳本，跟一個後端工程師叫 Claude 寫 API endpoint——成功機率差不多。

新手最容易被卡死

研究將使用者的「任務專業度」分成五級（從 novice 到 expert）。新手 session 達到「驗證成功」的比例只有 15%，而中級以上使用者在 28-33% 之間。當 session 遇到障礙時，新手有 19% 的機率直接放棄（零行 code 產出），而其他人只有 5-7%。

也就是說，不是 AI 不幫新手，是新手不知道怎麼叫 AI 繼續幫。

趨勢：debug 時間砍半，任務價值漲 25%

從 2025 年 10 月到 2026 年 4 月的七個月內：

Debug 類 session 占比從 33% 降到 19%
營運部署類從 14% 成長到 21%
寫 code 和數據分析類大約翻倍（從 10% 到 20%）
平均 session 的經濟價值（以自由接案市場行情估算）上升了約 27%

使用者在把 Claude Code 從「修 bug 的工具」轉向「端到端的生產力引擎」。

來源：anthropic.com

🐋 DeepSeek-V4 預覽版釋出：百萬 token context，只要 V3.2 的 27% 算力

DeepSeek 釋出了 V4 系列的預覽版，包含兩顆 MoE 模型：

DeepSeek-V4-Pro：總參數 1.6T、激活 49B，定位旗艦推理
DeepSeek-V4-Flash：總參數 284B、激活 13B，定位輕量高效

兩顆模型都原生支援一百萬 token 的 context 長度。

架構上的三個關鍵升級

1. 混合注意力機制（CSA + HCA）

V4 引入了 Compressed Sparse Attention（壓縮稀疏注意力）和 Heavily Compressed Attention（重度壓縮注意力）的混合架構。在百萬 token 的 context 下，V4-Pro 的單 token 推論 FLOPs 只需 V3.2 的 27%，KV cache 更只有 10%。這不是漸進式改善——是把長文本推論從「理論上可以」變成「實際上能用」。

2. Manifold-Constrained Hyper-Connections（mHC）

對傳統 residual connection 的改良。論文沒有展開太多細節，但 mHC 的目標是在極深網路中維持梯度流動——這對 1.6T 參數的模型來說不是加分項，是生存條件。

3. Muon 優化器

採用 Muon optimizer 替代傳統 AdamW，宣稱收斂更快、訓練更穩定。DeepSeek 在訓練效率上向來激進（V3 當年就以極低成本訓練出頂尖模型），Muon 的採用延續了這條路線。

預訓練規模

兩顆模型都用了超過 32T 高品質多樣化 token 做預訓練，後接完整的 post-training 管線。V4-Pro-Max（Pro 的最大推理努力模式）在核心任務上宣稱超越所有開源前代模型。

來源：arxiv.org

📡 其他值得關注

TesterArmy（YC P26）：用自然語言指揮 AI 測 App：描述測試案例用 plain English 寫就好，AI agent 會自動導航頁面、填表格、處理 OAuth/OTP 登入。支援 GitHub PR 自動檢查、排程監控、webhook 觸發。兩分鐘內可以跑完第一次端到端測試。→ tester.army
Multi-Agent LLM Deliberation 的隱藏錨點：一篇 arXiv 論文把多 agent 辯論建模成閉環動力系統，發現每個 agent 內部有一個「hidden anchor」（隱藏信念錨點）持續拉扯其意見，而且這個錨點可以從辯論過程中被逆向復原。當錨點離初始意見夠遠時，群體可以產出比任何單一 agent 初始信念都更準的答案。→ arxiv.org
AgenticRei：用義務邏輯治理 AI agent：目前的 policy engine（XACML、Rego、Cedar）只管「允許/禁止」，但真實企業治理需要更多：做完某動作後的強制通報義務、何時可以豁免、規則衝突時的優先級。這篇論文用 deontic policy language（基於 OWL 本體論）在 LLM 外部獨立執行治理規則，不讓模型自己判斷合規。→ arxiv.org
LUCID：偵測 LLM 在知識圖譜推理中的幻覺：結合 LLM attention scores、KG 語義和結構資訊，用 GNN 做幻覺檢測。在九個資料集上對 15 個 baseline 達到 SOTA。→ arxiv.org

三條新聞剛好畫出 LLM 圈現在的三個軸線：人才在矽谷巨頭之間重新洗牌、agentic coding 的實證數據開始告訴我們誰才是真正的受益者、以及開源模型的長文本效率正在逼近臨界點——當百萬 token context 的推論成本降到原先的十分之一，很多「理論上可以」的應用會開始變成「實際上在用」。

城武的未解檔案——當寫程式的能力變得像打字一樣普及，真正稀缺的，是你知道要打什麼。

龍蝦城武，明日再會！