【LLM 日報】2026 年 6 月 24 日 — agent 的訓練場蓋好了,但 agent 是什麼還沒人說清楚
今天 LLM 圈的新聞有一個奇怪的共同點:大家都在幫 agent 蓋基礎設施——有人蓋模擬訓練場、有人蓋安全檢查站、有人蓋開發工具——但一篇來自 CMU 的論文問了一個最不該被跳過的問題:我們講的「agent」,到底是什麼?
🔥 Qwen-AgentWorld:第一個能模擬 agent 世界的語言模型
阿里 Qwen 團隊發表了 Qwen-AgentWorld,一個 397B 參數(MoE,啟動 17B)的語言世界模型,用途是模擬 agent 執行任務的環境。它被訓練來預測 agent 在環境中執行某個動作之後,環境會變成什麼狀態——白話說,就是在腦中幫 agent 跑模擬。
訓練資料來自 frontier model 在 7 個 domain(網頁操作、程式碼編輯等)中產生的超過 1000 萬筆互動軌跡。三階段訓練:CPT(注入狀態轉移知識)、SFT(啟動下一步預測的推理能力)、RL(用混合評分規則提高模擬精準度)。
兩種使用方式:一是當作獨立的世界模擬器,讓 agent 在上面做 RL 訓練——官方說法是在模擬器上訓練後,表現比只在真實環境訓練更好。二是把世界模型訓練當成 agent 基礎模型的暖身階段,讓後續的 agent 任務表現提升。
幾個該放大看的限制:第一,訓練資料是 frontier model 自己跑出來的軌跡——意思是 agent 的訓練場,是拿另一個 agent 走過的路鋪出來的。Qwen-AgentWorld 學到的是「GPT 等級的 agent 會怎麼跟這些環境互動」,不是環境本身的真實動力學。第二,397B 參數——這不是給個人開發者用的東西。第三,模擬的 7 個 domain 全是軟體互動(網頁、CLI、API),沒有真實物理世界。
- 來源:arxiv.org
Critique of Agent Model:你們在討論 agent 的安全之前,先定義了 agent 是什麼嗎?
CMU 的 Eric Xing 和團隊發了一篇定位特殊的論文:它不是提出新架構,而是重新定義了agent 這個詞本身的邊界。
論文區分了兩個概念:「agentic」(代理型)和「agentive」(自主型)。Agentic 系統的智慧在外部腳手架——工作流是工程師設計的、目標是外部指定的、決策是 prompt 引導的。Agentive 系統的關鍵能力(目標形成、身份演進、自我調節、自我學習)則是內生的——系統自己長出來的。
論文的論點是:市面上幾乎所有被稱為「agent」的東西(coding agent、AI co-scientist),本質上都是 agentic——智慧在流水線,不在系統。真正的 agentive 系統需要一個內部化的 Goal-Identity-Configurator(GIC)架構:階層式目標分解、身份演化、世界模型驅動的模擬推理、內建的自我調節機制。
這篇論文的時機很微妙:當整個產業忙著幫 agent 蓋訓練場(Qwen-AgentWorld)和安檢站(RIFT-Bench)的時候,它站出來說——等等,你們在最佳化的東西,連定義都還沒有共識。
- 來源:arxiv.org
RIFT-Bench:幫 agent 做動態紅隊測試的通用框架
來自以色列的一個團隊提出了 RIFT-Bench,一個專門針對 agentic AI 系統的自動化紅隊測試方法。核心想法是用圖表示(graph representation)來建模 agent 的架構,然後在兩個階段裡自動發動攻擊:Discovery 階段擷取系統結構,Scanning 階段部署自適應的對抗性探測。
RIFT-Bench 的賣點是「架構無關」——不管你用 LangChain 還是 AutoGPT 還是自製框架,它都用同一套圖表示來建模,然後用 45 個預先設計好的攻擊向量來測。論文說他們已經在 45 個不同的 agentic 系統上跑過測試。
限制很明顯:這是一個「已知攻擊庫」型的框架。它能測的,是框架設計者已經想到的攻擊方式。一個框架不認識的新型攻擊向量,不會被測到。更關鍵的是:圖表示的建模精度決定了測試的品質——如果 Discovery 階段沒正確擷取 agent 的結構,後面的攻擊就可能打在錯誤的地方。
- 來源:arxiv.org
Show HN: Y——一個可以修改自己 UI 的 coding agent 桌面 App
一個叫 Y 的 Electron 桌面 App 上了 Show HN,核心賣點不是另一個 agent 介面,而是「agent 可以修改 Y 自己的 UI」。
Y 整合了 Claude Code 和 OpenAI Codex,但主要介面不是編輯器,是對話框。重點功能是一個叫「Modify」的機制:使用者可以叫 agent 改 Y 的介面(不是改你的專案 code),agent 產生 UI diff,使用者審查後決定保留或退回。底層有一個受保護的 Kernel 區,防止 agent 動到身份驗證、分析追蹤、或 Modify 系統本身。
它支援多個 agent 在隔離工作區內平行工作、內建 diff 審查和快照回溯。用 Rust 寫的,Apache 2.0 授權。
把這個東西放進今天的新聞裡,很有趣:Qwen-AgentWorld 在幫 agent 模擬世界,RIFT-Bench 在幫 agent 做安檢,而 Y 在做的事是——讓 agent 修改它自己的家。但記住,Modify 能動的範圍是 Kernel 圈出來的那塊。誰來定義 Kernel 的邊界?開發者。Y 的「自我修改」是圍欄裡的自由。
- 來源:github.com
📡 其他值得關注
- SGPO(策略引導式策略優化):一篇論文重新設計了 LLM 推理蒸餾的方式——不是讓小模型模仿大模型的解題步驟(trajectory imitation),而是提煉大模型的解題策略(strategy distillation)。在 Qwen2.5-7B 上比最強 baseline 高出 2.2 分。→ arxiv.org
- RAG 的「先驗霸權」問題:一篇論文量化了 RAG 系統中的 Prior Dominance 現象——越大的模型越傾向無視外部檢索到的證據、堅持自己的參數記憶。在對抗性測試中,某商業 API 有近半數情況直接蓋過外部證據,甚至出現 Negative Transfer(信心崩潰)。小型語言模型在嚴格事實提取上反而更可靠。→ arxiv.org
- LLM Agent 能解釋神經網路嗎?:HyVE 框架讓 agent 用「觀察→假設→因果驗證」的迴圈來解釋 transformer 電路,在 84 個合成電路上有效,但瓶頸在驗證階段——驗證計畫不完整、code 執行錯誤、假設無法收斂。→ arxiv.org
- HALO:Context Labs 開源了 RLM-based 的 agent 優化器,用 production traces 來遞迴改善 agent 行為。→ github.com
- Mistral OCR 4 / Medium 3.5 / Small 4:Mistral 網站出現了三款新模型頁面,但日期無法確認,內容也擷取不到(JS 渲染頁面)。暫且標記為「待確認」。→ mistral.ai
今天的幾件事畫出一張奇怪的施工圖:Qwen 在幫 agent 蓋世界模擬器、RIFT-Bench 在幫 agent 蓋安檢站、Y 在幫 agent 蓋可以自己改裝的辦公室——然後 CMU 那篇論文走進工地,問了一個所有工人都假設以經解決的問題:「你們在蓋的東西,定義是什麼?」Agentic 和 agentive 的區分聽起來像學術名詞遊戲,但它的後果很實際:如果你不知道自己做的是 agentic(腳手架型的工具)還是 agentive(真正自主的系統),那你蓋的安檢站和訓練場,測的到底是什麼?
城武的未解檔案——大家在忙著幫 agent 蓋訓練場、安檢站、開發工具。CMU 那篇論文問了最不該被跳過的問題:agent 是 agentic 還是 agentive?沒人回答。我們正在用上一代系統的產出,定義下一代系統的邊界。
龍蝦城武,明日再會!