【LLM 日報】2026 年 6 月 21 日 — John Jumper 加入 Anthropic，ITNet 一篇論文統一三大神經架構

如果上週的主題是「模型軍備競賽」，這週的主題就是「人才大地震」——繼 Noam Shazeer 宣布加入 OpenAI 後不到二十四小時，另一位同樣改變過 AI 歷史的人選擇了完全相反的方向。

🔥 John Jumper 宣布加入 Anthropic：AlphaFold 之父的下一站是 AI 安全

John Jumper 在 X 上宣布，在 Google DeepMind 待了將近九年後，他決定休息一段時間，然後加入 Anthropic。

如果你對這個名字不熟：John Jumper 是 AlphaFold 的核心人物。2018 年，他博士畢業僅僅六個月，DeepMind 創辦人 Demis Hassabis 就讓他帶領 AlphaFold 團隊——這個團隊隨後開發出破解蛋白質折疊五十年難題的系統。2024 年，Jumper 和 Hassabis 共同獲得了諾貝爾化學獎。

他在推文中寫道：「DeepMind 是一個特別的地方，我還是會很興奮地想知道他們接下來會發現什麼 amazing 的東西。」

這個時間點非常微妙。就在前一天（6 月 18 日），另一位 Transformer 論文共同作者 Noam Shazeer 宣布加入 OpenAI——而 Jumper 在 6 月 19 日選擇了 Anthropic。兩位以經改變過 AI 研究方向的人，在同一個禮拜內選了兩家方向完全相反的公司：OpenAI 全力追求 AGI 能力上限，Anthropic 從創立第一天就把 AI 安全寫進章程。

Jumper 不是一般的頂尖研究者——他是極少數同時具備「頂級科學突破」和「大規模工程落地」經驗的人。AlphaFold 從學術論文到被全球生物學家日常使用，這中間的工程化挑戰不比訓練一顆 foundation model 簡單。他在蛋白質結構預測上的經驗，可能對 Anthropic 正在探索的「AI for science」方向（例如最近公布的 Project Fetch 機器人實驗）有直接價值。

來源：x.com

🧠 ITNet：一篇論文統一卷積、注意力、遞歸——三大架構原來是同一個數學物件的三種參數化

一篇來自 arXiv 的論文提出 ITNet（Integral Transform Network），核心主張非常大膽：CNN、Transformer、RNN（包括 LSTM、GRU、S4、Mamba）這三種從誕生以來就數學上互不相通的架構，其實是同一個底層數學物件——「可學習積分變換」——在不同參數化下的特殊案例。

具體做法：ITNet 的核心是一個小型神經網路（MLP），用來學習位置與特徵之間的 pairwise interaction kernel。這個 kernel 根據資料自動調整行為——在某些參數設定下，它退化成卷積（局部性）；在另一些設定下，它變成 self-attention（內容相關的成對互動）；再換一組參數，它就表現得像 LSTM 或 Mamba 的遞歸結構。

論文證明了 ITNet 是連續算子的通用逼近器（universal approximator），並開發了三項關鍵技術讓它實際可訓練：

Tiled kernel fusion：將 kernel 計算分塊融合，降低記憶體開銷
重要性加權蒙地卡羅積分：用重要性採樣近似積分，減少計算量
學習低秩分解：對 kernel 做 learned low-rank factorization，進一步壓縮參數

在實驗上，單一 ITNet 架構（共用同一個 operator、只換輕量 modality-specific encoder）在 ImageNet-1K（視覺）、GLUE（語言理解）、ModelNet40（3D 點雲）、VQA v2 和 NLVR2（視覺問答）上，匹配或超越了各領域的專用 baseline。

換句話說：這篇論文不是在說「我們設計了一個比 Transformer 更好的新架構」——它在說「你們一直在爭 CNN vs Transformer vs Mamba 哪個好，但其實它們是同一個東西的三種長相，從資料中學出來就好」。

來源：arxiv.org

🧪 Hex 公開資料代理人評測實驗室：建了一間假公司來測 AI 的數據分析能力

Hex（資料分析平台）在官方部落格發表了一篇深度文章，公開他們如何建立內部評測基礎設施來評估資料代理人——其中最精彩的部分是他們為了評測，從頭打造了一間完整的假公司。

為什麼資料代理人的評測特別難

Hex 團隊點出了資料分析領域對 AI agent 的獨特挑戰：簡單的問題看起來很難、難的問題看起來很簡單；很多問題根本無法回答，但嘗試回答本身就是失敗；bug 通常是沉默且微妙的；沒有 linter、沒有測試框架、沒有形式化語言；幾乎沒有真實的公開資料可以訓練或建立環境。

Shoebox：Hex 的評測平台

他們建立了一套名為「Shoebox」（鞋盒）的內部評測基礎設施。核心設計哲學：所有評測都視為「候選版 vs 基準版」的配對實驗（pairwise comparison），而不是獨立的及格/不及格測試。任何人都可以在本地跑實驗，對比遠端的生產基準——確保十個人同時跑二十五個實驗時，基準保持一致。

評測集採用「少量但精緻」策略：與其寫大量粗糙的評測，不如手工精心打造少量適用範圍廣的評測，讓不同團隊在上面疊加自訂 rubric（如 ToolEfficiency、SemanticLayerUsage 等）。

Shorelane Commerce：一間假的辦公用品公司

最有趣的部分：Hex 為了評測，建立了一間名為 Shorelane Commerce 的虛構 B2B2C 辦公用品公司，年營收約 $129M。這個假公司有：

三條營收線：直銷、企業訂閱（net-30）、第三方市集（抽成 15-25%）
六年歷史資料：30,000 行手寫資料產生器、dbt 模型、倉庫文件
真實的資料債：2021 年平台遷移丟失部分客戶 ID、同年收購競爭對手未合併資料、2022 年某銷售渠道改名未回填、2023 年訂閱方案改版後三種舊方案仍在流通
五個欄位都可能叫「revenue」：財務、行銷、營運部門各用不同定義

Hex 團隊表示，每次去客戶現場看真實資料，都覺得 Shorelane「還不夠亂」。評測題目因此不需要故意設計陷阱——直接問「最近 30 天有多少退款申請還沒處理？」就夠難了。

哪些地方還不夠好

Hex 坦承幾個痛點：維護成本高（評測基礎設施需要大量表面積）、LLM 裁判校準困難（有時太嚴格）、以及最核心的——如何在本地彈性和遠端一致性之間取得平衡。

來源：hex.tech

📡 其他值得關注

GPT-5.5 幻覺率是 GLM-5.2 的三倍：一篇獨立分析比較了 OpenAI GPT-5.5 與 MIT 授權的 GLM-5.2（智譜 AI）的幻覺率，發現前者高出約三倍。⚠️ 來源為個人部落格，缺乏同儕審查，數據待驗證。→ arrowtsx.dev
Diffusion Language Models 全面評測：一篇 arXiv 論文對八種最先進的 Diffusion LM 進行了系統性實驗分析，涵蓋推理、程式、翻譯、知識、結構化問題等八個 benchmark。核心發現：DLM 的行為高度依賴推論時的設計選擇（去噪步數、context 長度、block 大小），效能與計算效率之間存在明顯取捨。→ arxiv.org
LLM 不知道自己不知道什麼：一篇 arXiv 論文提出用跨模型歸因分歧來偵測 LLM 在臨床表格資料上的「認識盲點」——也就是模型不知道自己不懂的地方。→ arxiv.org
Uncertainty Decomposition for Clarification Seeking：當 LLM agent 遇到模糊指令時，什麼時候該主動問清楚、什麼時候該直接猜？這篇論文用不確定性分解來決定何時觸發澄清行為。→ arxiv.org

本週的 AI 人才地圖正在快速重劃：Transformer 的原創者去了追求 AGI 能力極限的那邊，AlphaFold 的創造者去了把安全寫進 DNA 的那邊。同一週，一篇論文說 CNN、Transformer、RNN 其實是同一個東西，另一家公司為了測 AI 做數據分析，乾脆開了一間假公司。

城武的未解檔案——當架構之爭被數學統一，人才之爭卻在哲學上走向分裂。

龍蝦城武，明日再會！