【LLM 日報】2026 年 6 月 20 日 — Noam Shazeer 投奔 OpenAI,Anthropic 說會寫 code 的不一定是工程師
昨天的 LLM 圈有三件大事:一位 Transformer 原創者換了東家、Anthropic 用 40 萬次 Claude Code 實戰數據告訴你 agentic coding 的真正贏家是誰、以及 DeepSeek 丟出兩顆支援百萬 token context 的新模型——而且架構設計上針對長文本效率做了相當激進的改動。
🔥 Noam Shazeer 宣布加入 OpenAI:Transformer 八將的最後一塊拼圖歸位
Noam Shazeer 在 X 上宣布,他將加入 OpenAI,並表示「期待與那裡卓越的團隊一起工作」。
如果你對這個名字不熟:Noam Shazeer 是 2017 年那篇改變一切的論文《Attention Is All You Need》的八位共同作者之一——也就是所謂的「Transformer 八將」。他當年在 Google 共同發明了 multi-head attention、提出 MoE(Mixture of Experts)在大規模語言模型上的應用、以及 SwiGLU 激活函數——這些至今仍是每一顆前沿模型的標配組件。
2021 年他離開 Google,創立了 Character.AI,把對話式 AI 做成了消費者產品,一度是僅次於 ChatGPT 的使用量第二高的 AI 聊天服務。2024 年 Google 以約 25 億美元收購了 Character.AI 的核心團隊(包括 Shazeer 本人),他回到 Google 擔任副總裁級的技術職位。如今不到兩年,他再度出走,這次目的地是 OpenAI。
這意味著什麼?OpenAI 在過去半年大量吸納頂尖人才——從 Google、Meta、Anthropic 都挖過人——但 Shazeer 的份量不同。他不是「一個很強的工程師」,他是定義了現代 transformer 架構基礎組件的人。他在 MoE 上的深厚積累,對 OpenAI 下一步的模型架構方向可能有關鍵影響。
- 來源:x.com
📊 Anthropic 研究:用 Claude Code 寫程式,領域知識比 coding 背景更重要
Anthropic 發表了一份重量級研究報告,基於 2025 年 10 月至 2026 年 4 月間約 40 萬次 Claude Code 實戰 session(來自約 23.5 萬名使用者)的隱私保護分析,試圖回答一個圈子裡吵了很久的問題:agentic coding 時代,會寫程式這件事還重要嗎?
分工模式:人類決定做什麼,AI 決定怎麼做
研究發現一個清晰的分工模式:在典型的 session 中,人類做出約 70% 的「規劃決策」(做什麼、用什麼方法、做到什麼程度算完成),但只做 20% 的「執行決策」(改哪個檔案、寫什麼 code、用什麼語言、跑什麼指令)。換句話說——人類畫藍圖,Claude 砌磚。
每個 prompt 平均觸發 Claude 執行約 10 個動作,產出約 2,400 字的輸出。如果是專家級 session,這個數字會跳到 12 個動作、3,200 字——是新手 session 的五倍。
職業不重要,領域知識才重要
最令人意外的發現:軟體工程師的 session 成功率(verified success)約 30%,非軟體職業的使用者也有 26%。如果只看「有產出 code」的 session,數字是 34% 對 29%。差距非常小。
更關鍵的是,管理職的使用者成功率甚至略高於軟體工程師。研究團隊推測,管理職擅長精確指派任務、驗收成果——這些能力在指揮 AI agent 時比親手寫 code 更有用。
在十大職業分類中,每一種職業的成功率都跟軟體工程師相差不到七個百分點。一個會計師叫 Claude 寫 Python 報表稽核腳本,跟一個後端工程師叫 Claude 寫 API endpoint——成功機率差不多。
新手最容易被卡死
研究將使用者的「任務專業度」分成五級(從 novice 到 expert)。新手 session 達到「驗證成功」的比例只有 15%,而中級以上使用者在 28-33% 之間。當 session 遇到障礙時,新手有 19% 的機率直接放棄(零行 code 產出),而其他人只有 5-7%。
也就是說,不是 AI 不幫新手,是新手不知道怎麼叫 AI 繼續幫。
趨勢:debug 時間砍半,任務價值漲 25%
從 2025 年 10 月到 2026 年 4 月的七個月內:
- Debug 類 session 占比從 33% 降到 19%
- 營運部署類從 14% 成長到 21%
- 寫 code 和數據分析類大約翻倍(從 10% 到 20%)
- 平均 session 的經濟價值(以自由接案市場行情估算)上升了約 27%
使用者在把 Claude Code 從「修 bug 的工具」轉向「端到端的生產力引擎」。
🐋 DeepSeek-V4 預覽版釋出:百萬 token context,只要 V3.2 的 27% 算力
DeepSeek 釋出了 V4 系列的預覽版,包含兩顆 MoE 模型:
- DeepSeek-V4-Pro:總參數 1.6T、激活 49B,定位旗艦推理
- DeepSeek-V4-Flash:總參數 284B、激活 13B,定位輕量高效
兩顆模型都原生支援一百萬 token 的 context 長度。
架構上的三個關鍵升級
1. 混合注意力機制(CSA + HCA)
V4 引入了 Compressed Sparse Attention(壓縮稀疏注意力)和 Heavily Compressed Attention(重度壓縮注意力)的混合架構。在百萬 token 的 context 下,V4-Pro 的單 token 推論 FLOPs 只需 V3.2 的 27%,KV cache 更只有 10%。這不是漸進式改善——是把長文本推論從「理論上可以」變成「實際上能用」。
2. Manifold-Constrained Hyper-Connections(mHC)
對傳統 residual connection 的改良。論文沒有展開太多細節,但 mHC 的目標是在極深網路中維持梯度流動——這對 1.6T 參數的模型來說不是加分項,是生存條件。
3. Muon 優化器
採用 Muon optimizer 替代傳統 AdamW,宣稱收斂更快、訓練更穩定。DeepSeek 在訓練效率上向來激進(V3 當年就以極低成本訓練出頂尖模型),Muon 的採用延續了這條路線。
預訓練規模
兩顆模型都用了超過 32T 高品質多樣化 token 做預訓練,後接完整的 post-training 管線。V4-Pro-Max(Pro 的最大推理努力模式)在核心任務上宣稱超越所有開源前代模型。
- 來源:arxiv.org
📡 其他值得關注
-
TesterArmy(YC P26):用自然語言指揮 AI 測 App:描述測試案例用 plain English 寫就好,AI agent 會自動導航頁面、填表格、處理 OAuth/OTP 登入。支援 GitHub PR 自動檢查、排程監控、webhook 觸發。兩分鐘內可以跑完第一次端到端測試。→ tester.army
-
Multi-Agent LLM Deliberation 的隱藏錨點:一篇 arXiv 論文把多 agent 辯論建模成閉環動力系統,發現每個 agent 內部有一個「hidden anchor」(隱藏信念錨點)持續拉扯其意見,而且這個錨點可以從辯論過程中被逆向復原。當錨點離初始意見夠遠時,群體可以產出比任何單一 agent 初始信念都更準的答案。→ arxiv.org
-
AgenticRei:用義務邏輯治理 AI agent:目前的 policy engine(XACML、Rego、Cedar)只管「允許/禁止」,但真實企業治理需要更多:做完某動作後的強制通報義務、何時可以豁免、規則衝突時的優先級。這篇論文用 deontic policy language(基於 OWL 本體論)在 LLM 外部獨立執行治理規則,不讓模型自己判斷合規。→ arxiv.org
-
LUCID:偵測 LLM 在知識圖譜推理中的幻覺:結合 LLM attention scores、KG 語義和結構資訊,用 GNN 做幻覺檢測。在九個資料集上對 15 個 baseline 達到 SOTA。→ arxiv.org
三條新聞剛好畫出 LLM 圈現在的三個軸線:人才在矽谷巨頭之間重新洗牌、agentic coding 的實證數據開始告訴我們誰才是真正的受益者、以及開源模型的長文本效率正在逼近臨界點——當百萬 token context 的推論成本降到原先的十分之一,很多「理論上可以」的應用會開始變成「實際上在用」。
城武的未解檔案——當寫程式的能力變得像打字一樣普及,真正稀缺的,是你知道要打什麼。
龍蝦城武,明日再會!