【論文拆解】模擬環境訓練比真實環境更強？Qwen-AgentWorld 的反直覺答案

hero

城武導讀：Qwen-AgentWorld 是一篇會讓你重新思微「訓練資料愈真實愈好」這個假設的論文。Qwen Team 提出的語言世界模型（Language World Model）可以在 7 個領域模擬 agent 環境，而且用模擬環境訓練出來的 agent，表現竟然超越了用真實環境訓練的版本。這很反直覺——但城武認為這個結論是對的，只是有一個關鍵前提：模擬器的品質決定了訓練品質的上限。以下拆解。

論文摘要

核心貢獻

Qwen-AgentWorld 是第一個原生語言世界模型（Language World Model, LWM）家族，專門用於模擬通用 agent 環境。它涵蓋 7 個領域——MCP、Search、Terminal、Software Engineering（SWE）、Android、Web、OS——並使用長鏈思考（long chain-of-thought reasoning）來進行環境模擬。一個模型同時覆蓋文字介面（Terminal、SWE、MCP、Search）和圖形介面（Android、Web、OS）兩種截然不同的環境類型。

兩個模型尺寸：Qwen-AgentWorld-35B-A3B 和 Qwen-AgentWorld-397B-A17B，採用混合專家（MoE）架構。訓練資料來自超過 1,000 萬條環境互動軌跡，涵蓋三大來源：專屬 agent 基礎設施（容器化沙箱、MCP 伺服器、GUI 環境）、公開互動紀錄（終端機錄製、工具呼叫日誌，經多 agent 清洗管線處理）、以及內部 agent 開發過程產生的軌跡。

論文提出兩種使用世界模型來提升 agent 能力的方式：

解耦環境模擬器（Decoupled Environment Simulator）：世界模型作為獨立模擬器，可大規模、可控地模擬數千個真實世界環境供 agent 做強化學習（Sim RL），效果超越僅使用真實環境訓練。
統一 Agent 基礎模型（Unified Agent Foundation Model）：世界模型訓練作為一種高效的預熱（warm-up），直接提升模型在下游 7 個 agentic benchmark 上的多輪任務表現，甚至對域外任務也有幫助。

為什麼要做語言世界模型？

論文明確說：不是為了降低成本，而是作為推進前沿的互補軸。這個定位值得注意——他們沒有說「世界模型比真實環境便宜」，而是說「世界模型能做到真實環境做不到的事」。

具體來說有兩個核心優勢：

可擴展性（Scalability）：不需要容器沙箱或虛擬機，就能做 turn-level 的 scaling——想模擬一千個環境就模擬一千個，沒有基礎設施瓶頸。更重要的是，可以覆蓋真實環境中難以實現的極端場景。

可控性（Controllability）：可以精確設計對抗性條件（adversarial conditions），有系統地暴露 agent 的弱點。這是在真實環境中很難做到的——真實環境的隨機性多半是噪音，不是刻意設計的壓力測試。

形式化定義與環境軌跡格式

語言世界模型 f_θ 根據系統提示 c、互動歷史和當前行動，預測下一個環境觀察：

ô_{t+1} = f_θ(c, o_{≤t}, a_{≤t})

論文定義了統一的環境軌跡架構：

system_prompt = task_description ⊕ action_space ⊕ initial_state ⊕ demonstrations ⊕ simulation_instruction
turn_t = (action_t, observation_t)
trajectory = system_prompt ⊕ [turn_1, …, turn_T]

也就是說，每個環境軌跡從一個包含任務描述、行動空間、初始狀態、示範例和模擬指令的系統提示開始，後面接上一連串的（行動，觀察）回合。這個統一的格式讓同一個世界模型可以處理七個完全不同的領域。

七個領域的環境設計

論文將 agent 環境分為 7 個領域，各自有不同的行動/觀察介面和核心能力需求：

MCP（Model Context Protocol）——行動是 JSON Tool Call，觀察是工具回應，核心能力是世界事實知識。

Search——行動是網頁搜尋與內容提取，觀察是對話歷史，核心能力同樣是世界事實知識。

SWE（Software Engineering）——行動包括 Read、Edit、Bash 等程式開發操作，觀察是檔案內容與 diff，核心能力是程式執行推理。

Terminal——行動是 Bash 指令，觀察是終端機輸出，核心能力是長上下文因果推理。

Android——行動包括 Touch、Swipe、Type 等觸控操作，觀察是 UI view hierarchy 和 app state，核心能力是視覺狀態推理。

Web——行動包括 Click、Type、Navigate 等瀏覽操作，觀察是 Accessibility tree 和瀏覽器狀態，核心能力也是視覺狀態推理。

OS（桌面作業系統）——行動是滑鼠和鍵盤，觀察是 Accessibility tree 和視窗狀態，核心能力同樣是視覺狀態推理。

文字領域（Terminal、SWE、Search、MCP）佔整體資料的 72.4%，GUI 領域（Android、Web、OS）佔 27.6%。MCP 的平均上下文長度最長（59.3k tokens），Terminal 最短（12.9k tokens）。值得注意的是，不同領域所需的模擬能力有本質差異——文字領域側重事實知識和因果推理，GUI 領域則需要對視覺狀態的動態變化的理解。

三階段訓練管線

論文的核心工程貢獻是三階段訓練管線：CPT → SFT → RL，每一階段有明確的目標。

Stage 1 – Continual Pre-Training（CPT）

注入廣泛的世界知識和狀態轉移動態。訓練資料包含環境軌跡和專業領域語料庫（工業控制、網路安全、法律、醫療、金融、時事）。

關鍵創新是 turn-level 資訊理論 loss masking。論文團隊發現環境互動軌跡中有大量固定模式 token——例如 API 呼叫的 echo、系統回應的 boilerplate——如果全部參與 loss 計算，模型會浪費容量去背誦這些模式。於是他們對每個（action, observation）pair 計算四種統計量：Overlap（重疊率）、Novelty（新穎度）、Jaccard（相似度）、length ratio（長度比），然後將 token 分成 7 個語義類別，每個類別有不同的保留比例：

retrieval / expansion / action：100% 保留（這些是真正的資訊承載 token）
transform：50% 保留
boilerplate：僅 10% 保留
echo：僅 5% 保留

這個設計的結果是：模型把學習資源集中在真正有資訊量的轉換點上，而不是浪費在背誦固定格式。

Stage 2 – Supervised Fine-Tuning（SFT）

目標是激活明確的下一狀態預測推理能力。從推理模型進行 rejection sampling：10,250 條候選軌跡 → 保留 7,094 條（留存率 69.2%）。平均長度 19,443 tokens，平均 13.4 回合。上下文視窗為 256k tokens。

系統提示透過 AutoResearch 自動生成（10 種模板變體），SFT 提示模板也做了多樣化（v2 到 v11），目的是提升模型對不同提示格式的泛化能力。

每個領域的 SFT 資料量差異很大：MCP 只有 179 條（因為最長、最複雜），Terminal 有 1,580 條，Web 有 1,605 條。

Stage 3 – Reinforcement Learning（RL）

使用混合 rubric-and-rule 獎勵來強化模擬逼真度。RL 演算法採用 GSPO（Generalized Sampled Policy Optimization），提示長度上限 128k tokens。共 92,308 條軌跡參與 RL 訓練。

獎勵設計分為兩部分，權重比 9：1：

5 維度 Rubric（LLM-as-Judge）：Format（格式正確性）、Factuality（事實準確度）、Consistency（狀態一致性）、Realism（逼真度）、Quality（整體品質），每個維度 1-5 分
規則驗證器（Rule-Based Verifier）：二元正確性錨點（0/1），確定性的硬規則檢查

論文還記錄了幾個訓練穩定性對策：每條軌跡只擴展 1 個回合（避免共享 prefix 導致的獎勵崩潰）；rubric 獎勵收斂穩定，但 Turing-test 設計和 reference-reward 設計則失敗了；嚴格的 tag 提取機制防止模型用自誇來 hack 獎勵。

AgentWorldBench

為了評估語言世界模型的模擬品質，論文建構了 AgentWorldBench——一個從真實世界互動中抽樣的綜合評估基準。

建構方式：從 5 個前沿模型（包括 Claude Opus 4.6、GPT-5.4、Qwen 系列等）在 9 個既有 benchmark 上的真實互動中取樣，總計 2,170 個 turn-level 評估樣本。9 個來源 benchmark 包括：Terminal-Bench 1.0 & 2.0、SWE-Bench Verified、OSWorld-Verified、Tool Decathlon、MCPMark、WideSearch、AndroidWorld、WebArena Verified。

關鍵設計：嚴格的域外（Out-of-Distribution）分割——資料來源層級的劃分，確保評估樣本在來源 benchmark 層面上與訓練資料不重疊。

評估方式採用 Reference-Grounded Judging：Judge 比較模型的預測輸出與真實 ground truth。對於確定性內容採 exact match，對於不確定性內容採 plausibility 檢查，執行時期中繼資料採格式/範圍檢查。Judge 模型經過 Turing-test 準確率篩選，最終選用 GPT-5.2（跨 Judge 排名一致性 ρ = 0.92-0.99）。

評估 5 個維度：事實準確度（factual accuracy）、狀態一致性（state coherence）、行動有效性（action validity）、因果一致性（causal consistency）、領域忠實度（domain fidelity）。

主要結果

Qwen-AgentWorld 在 AgentWorldBench 上顯著超越現有前沿模型。具體來說：

當作為解耦環境模擬器使用時，用 Qwen-AgentWorld 產生的模擬環境進行 agentic RL 訓練，效果超越了僅使用真實環境訓練。當作為統一 agent 基礎模型使用時，世界模型訓練的 warm-up 顯著提升了 7 個 agentic benchmark 的下游表現。

這兩個結果共同支持了論文的核心論點：語言世界模型不只是一種「便宜的模擬器替代品」，而是一種可以超越真實環境訓練效果的新範式。

城武觀點

這篇論文的標題很誠實——它說「Language World Models」，沒有誇大成「我們做出了一個超強的世界模型」。但真正值得討論的，不是 397B 參數的數量級，而是論文底下幾個被 benchmark 數字掩蓋的訊號。

第一個訊號：模擬訓練 > 真實訓練，但前提是什麼？

論文最反直覺的結果是：用 Qwen-AgentWorld 模擬的環境來訓練 agent，效果超越了用真實環境訓練。這違反了我們的直覺——愈真實的訓練資料應該愈好，這不是常識嗎？

城武認為這個結論是對的，但有一個關鍵前提：模擬器的品質決定訓練品質的上限。為什麼刻意設計的對抗性條件會比真實環境的隨機性更有訓練價值？因為真實環境的隨機性多半是噪音——無意義的變異只會讓 agent 學到「對抗噪音」而不是「對抗真正的困難」。Qwen-AgentWorld 的可控性讓研究者可以精確設計「剛好夠難」的訓練場景，就像籃球教練在訓練場上刻意設計的戰術對抗，比實戰中隨機遇到的狀況更有訓練效果。

但反過來說：如果模擬器有 blind spot——某個它不會產生的環境狀態、某種它無法模擬的邊界情況——那麼 agent 學到的策略也會有同樣的盲點。這不是模擬訓練 vs 真實訓練的問題，而是訓練分佈能否覆蓋部署分佈的問題。Qwen-AgentWorld 的模擬器再強，如果它的訓練資料（來自 9 個既有 benchmark）本身就存在 bias，那模擬器產生的環境也只會放大那個 bias。

第二個訊號：397B 不是創新，三階段管線才是

397B 參數聽起來很猛，但真正的創新不在參數數量，而在三階段訓練管線和資訊理論 loss masking。說實話，用 10M+ 條軌跡訓練一個世界模型，參數大到 397B 只是規模的自然結果——換成 DeepSeek 或 Meta 來做，參數只會更大不會更小。

真正值得關注的是 Stage 1 的 turn-level information-theoretic loss masking。這不是一個學術炫技，而是一個極度務實的工程決策：論文團隊花力氣去分析每個 token 的資訊貢獻，然後對 boilerplate 只保留 5-10% 的 loss，對真正的資訊承載 token 保留 100%。這個設計背後的信息是：在 agent 領域，「哪裡值得學」比「有多少資料」更重要。 很多團隊在收集更多資料上砸資源，卻很少思考哪些 token 真正值得模型去學。這是一個被忽略但極其重要的工程洞見。

以經有很多論文在 benchmark 上風光無限，到了真實場景就水土不服。Qwen-AgentWorld 的 loss masking 至少確保了模型不會浪費容量在背誦格式上——這是一個好的開始，但不是保證。

第三個訊號：7 個領域，但資料來自 benchmark——學到的是 benchmark 還是真實世界？

論文涵蓋 7 個領域，幾乎涵蓋了 agent 可能遇到的所有環境類型。這讓 Qwen-AgentWorld 不只是「某一個 benchmark 的模擬器」，而是「通用 agent 訓練基礎設施」的雛形。

但城武要追問一個不舒服的問題：這 7 個領域的訓練資料都來自現有 benchmark——從 5 個模型在 9 個既有 benchmark 上的互動資料建構的。也就是說，模型學到的是「在已知的 benchmark 環境中如何表現」，而不是「在任何真實環境中如何表現」。這兩者的差距，就是學術界一直在討論的 benchmark contamination 的進階版——不只是 model 看過 benchmark 的題目，而是整個世界模型本身就是從 benchmark 的互動資料長出來的。

論文在 AgentWorldBench 的建構上已經注意到了這個風險——用嚴格的域外分割（資料來源層級不重疊）來降低 contamination——而且 5 個維度的評估設計也比單一指標更全面。但這些維度仍然是從 benchmark 資料歸納出來的評估標準，不是從真實世界獨立取樣的驗證。有一個根本問題沒有被回答：一個在 AgentWorldBench 上表現優異的世界模型，在真實世界中模擬 agent 環境時，表現是否仍然優異？

這不是否定 Qwen-AgentWorld 的價值——恰恰相反，正因為它有可能成為通用 agent 訓練基礎設施，我們才需要更嚴格地檢驗它的基礎到底有多堅實。論文有開源（GitHub: QwenLM/Qwen-AgentWorld），這是好的第一步。第二步是有人真的用它來訓練一個 agent，放到真實世界去看看效果。

至於那個「模擬訓練超過真實訓練」的結論——如果模擬器真的夠好，從新定義 agent 訓練的 pipeline 不是不可能。但這需要開源社群和學術界一起來復現、驗證、挑戰這個結果。

城武的未解檔案——模擬環境訓練 agent 比真實環境更有效，前提是模擬器不能有 blind spot。但誰來保證模擬器沒有 blind spot？

原文：Qwen-AgentWorld: Language World Models for General Agents（Qwen Team, arXiv, 2026-06-24）