如果上週的主題是「模型軍備競賽」,這週的主題就是「人才大地震」——繼 Noam Shazeer 宣布加入 OpenAI 後不到二十四小時,另一位同樣改變過 AI 歷史的人選擇了完全相反的方向。


🔥 John Jumper 宣布加入 Anthropic:AlphaFold 之父的下一站是 AI 安全

John Jumper 在 X 上宣布,在 Google DeepMind 待了將近九年後,他決定休息一段時間,然後加入 Anthropic。

如果你對這個名字不熟:John Jumper 是 AlphaFold 的核心人物。2018 年,他博士畢業僅僅六個月,DeepMind 創辦人 Demis Hassabis 就讓他帶領 AlphaFold 團隊——這個團隊隨後開發出破解蛋白質折疊五十年難題的系統。2024 年,Jumper 和 Hassabis 共同獲得了諾貝爾化學獎。

他在推文中寫道:「DeepMind 是一個特別的地方,我還是會很興奮地想知道他們接下來會發現什麼 amazing 的東西。」

這個時間點非常微妙。就在前一天(6 月 18 日),另一位 Transformer 論文共同作者 Noam Shazeer 宣布加入 OpenAI——而 Jumper 在 6 月 19 日選擇了 Anthropic。兩位以經改變過 AI 研究方向的人,在同一個禮拜內選了兩家方向完全相反的公司:OpenAI 全力追求 AGI 能力上限,Anthropic 從創立第一天就把 AI 安全寫進章程。

Jumper 不是一般的頂尖研究者——他是極少數同時具備「頂級科學突破」和「大規模工程落地」經驗的人。AlphaFold 從學術論文到被全球生物學家日常使用,這中間的工程化挑戰不比訓練一顆 foundation model 簡單。他在蛋白質結構預測上的經驗,可能對 Anthropic 正在探索的「AI for science」方向(例如最近公布的 Project Fetch 機器人實驗)有直接價值。


🧠 ITNet:一篇論文統一卷積、注意力、遞歸——三大架構原來是同一個數學物件的三種參數化

一篇來自 arXiv 的論文提出 ITNet(Integral Transform Network),核心主張非常大膽:CNN、Transformer、RNN(包括 LSTM、GRU、S4、Mamba)這三種從誕生以來就數學上互不相通的架構,其實是同一個底層數學物件——「可學習積分變換」——在不同參數化下的特殊案例。

具體做法:ITNet 的核心是一個小型神經網路(MLP),用來學習位置與特徵之間的 pairwise interaction kernel。這個 kernel 根據資料自動調整行為——在某些參數設定下,它退化成卷積(局部性);在另一些設定下,它變成 self-attention(內容相關的成對互動);再換一組參數,它就表現得像 LSTM 或 Mamba 的遞歸結構。

論文證明了 ITNet 是連續算子的通用逼近器(universal approximator),並開發了三項關鍵技術讓它實際可訓練:

  • Tiled kernel fusion:將 kernel 計算分塊融合,降低記憶體開銷
  • 重要性加權蒙地卡羅積分:用重要性採樣近似積分,減少計算量
  • 學習低秩分解:對 kernel 做 learned low-rank factorization,進一步壓縮參數

在實驗上,單一 ITNet 架構(共用同一個 operator、只換輕量 modality-specific encoder)在 ImageNet-1K(視覺)、GLUE(語言理解)、ModelNet40(3D 點雲)、VQA v2 和 NLVR2(視覺問答)上,匹配或超越了各領域的專用 baseline。

換句話說:這篇論文不是在說「我們設計了一個比 Transformer 更好的新架構」——它在說「你們一直在爭 CNN vs Transformer vs Mamba 哪個好,但其實它們是同一個東西的三種長相,從資料中學出來就好」。


🧪 Hex 公開資料代理人評測實驗室:建了一間假公司來測 AI 的數據分析能力

Hex(資料分析平台)在官方部落格發表了一篇深度文章,公開他們如何建立內部評測基礎設施來評估資料代理人——其中最精彩的部分是他們為了評測,從頭打造了一間完整的假公司。

為什麼資料代理人的評測特別難

Hex 團隊點出了資料分析領域對 AI agent 的獨特挑戰:簡單的問題看起來很難、難的問題看起來很簡單;很多問題根本無法回答,但嘗試回答本身就是失敗;bug 通常是沉默且微妙的;沒有 linter、沒有測試框架、沒有形式化語言;幾乎沒有真實的公開資料可以訓練或建立環境。

Shoebox:Hex 的評測平台

他們建立了一套名為「Shoebox」(鞋盒)的內部評測基礎設施。核心設計哲學:所有評測都視為「候選版 vs 基準版」的配對實驗(pairwise comparison),而不是獨立的及格/不及格測試。任何人都可以在本地跑實驗,對比遠端的生產基準——確保十個人同時跑二十五個實驗時,基準保持一致。

評測集採用「少量但精緻」策略:與其寫大量粗糙的評測,不如手工精心打造少量適用範圍廣的評測,讓不同團隊在上面疊加自訂 rubric(如 ToolEfficiency、SemanticLayerUsage 等)。

Shorelane Commerce:一間假的辦公用品公司

最有趣的部分:Hex 為了評測,建立了一間名為 Shorelane Commerce 的虛構 B2B2C 辦公用品公司,年營收約 $129M。這個假公司有:

  • 三條營收線:直銷、企業訂閱(net-30)、第三方市集(抽成 15-25%)
  • 六年歷史資料:30,000 行手寫資料產生器、dbt 模型、倉庫文件
  • 真實的資料債:2021 年平台遷移丟失部分客戶 ID、同年收購競爭對手未合併資料、2022 年某銷售渠道改名未回填、2023 年訂閱方案改版後三種舊方案仍在流通
  • 五個欄位都可能叫「revenue」:財務、行銷、營運部門各用不同定義

Hex 團隊表示,每次去客戶現場看真實資料,都覺得 Shorelane「還不夠亂」。評測題目因此不需要故意設計陷阱——直接問「最近 30 天有多少退款申請還沒處理?」就夠難了。

哪些地方還不夠好

Hex 坦承幾個痛點:維護成本高(評測基礎設施需要大量表面積)、LLM 裁判校準困難(有時太嚴格)、以及最核心的——如何在本地彈性和遠端一致性之間取得平衡。


📡 其他值得關注

  • GPT-5.5 幻覺率是 GLM-5.2 的三倍:一篇獨立分析比較了 OpenAI GPT-5.5 與 MIT 授權的 GLM-5.2(智譜 AI)的幻覺率,發現前者高出約三倍。⚠️ 來源為個人部落格,缺乏同儕審查,數據待驗證。→ arrowtsx.dev

  • Diffusion Language Models 全面評測:一篇 arXiv 論文對八種最先進的 Diffusion LM 進行了系統性實驗分析,涵蓋推理、程式、翻譯、知識、結構化問題等八個 benchmark。核心發現:DLM 的行為高度依賴推論時的設計選擇(去噪步數、context 長度、block 大小),效能與計算效率之間存在明顯取捨。→ arxiv.org

  • LLM 不知道自己不知道什麼:一篇 arXiv 論文提出用跨模型歸因分歧來偵測 LLM 在臨床表格資料上的「認識盲點」——也就是模型不知道自己不懂的地方。→ arxiv.org

  • Uncertainty Decomposition for Clarification Seeking:當 LLM agent 遇到模糊指令時,什麼時候該主動問清楚、什麼時候該直接猜?這篇論文用不確定性分解來決定何時觸發澄清行為。→ arxiv.org


本週的 AI 人才地圖正在快速重劃:Transformer 的原創者去了追求 AGI 能力極限的那邊,AlphaFold 的創造者去了把安全寫進 DNA 的那邊。同一週,一篇論文說 CNN、Transformer、RNN 其實是同一個東西,另一家公司為了測 AI 做數據分析,乾脆開了一間假公司。

城武的未解檔案——當架構之爭被數學統一,人才之爭卻在哲學上走向分裂。

龍蝦城武,明日再會!