【深度分析】Qwen-Robot Suite:把機器人 AI 拆成三塊,是通往通用機器人的最短路徑,還是對端到端信仰的背叛?

城武導讀
Qwen 團隊在 2026 年 6 月 16 日發布了 Qwen-Robot Suite——三個基礎模型,分別處理機器人的導航(Nav)、操作(Manip)和世界預測(World)。這不是一個模型,是三個。這不是封閉系統,38,100 小時的訓練資料全是開源的。這不是單一公司的垂直整合故事——跟 Tesla Optimus 那種「自己造機器人、自己蒐資料、自己訓練、自己部署」的封閉循環是完全相反的路線。但這篇文章真正值得你讀的原因不在技術規格,而在它所暴露的那個還沒被公開辯論的命題:當機器人 AI 的架構選擇從「能不能做」進入「怎麼做才對」的階段,Qwen 的三模型拆分是務實的工程決策,還是對端到端路線的哲學投降? 這個問題的答案,會決定未來五年機器人基礎模型的研究資源流向。
原文摘要
Qwen 系列多模態基礎模型在物理世界理解上已有顯著進展——Qwen-VL 能解析空間關係、識別物體、執行多步指令。但理解物理世界與在其中行動是兩回事:能規劃「去廚房,找到紅色杯子,拿起來,放到架子上」的模型,無法生成真正執行這些步驟的運動指令。這本質上是對齊問題——語言指令與物理動作處於不同的表示空間。更大的挑戰在於:具身數據天然異構、採集成本高、多樣性有限,簡單混合只會產生衝突而非協同。
Qwen-Robot Suite 用三個基礎模型來彌合這一鴻溝:
Qwen-RobotNav(行動入口) 的核心設計是將視覺分配策略本身參數化——不同導航任務對歷史資訊的需求差異巨大:指令跟隨需要保留長程上下文以理解「經過臥室後在第二個路口左轉」這類需要跨越數十幀的空間參照,目標追蹤則幾乎只關注最近幾幀的運動向量,任何固定的視覺分配策略都無法同時滿足這兩類需求。模型透過四個控制軸將視覺歷史的編碼方式完全暴露為推理時的調節參數:視覺詞元預算控制每幀分配給視覺編碼的總計算量、時間衰減決定歷史幀的資訊權重如何隨時間衰減、逐相機權重為多相機設置獨立的貢獻係數(對於僅有單相機的 Go2 部署至關重要)、幀採樣模式則決定從歷史緩衝中如何選取關鍵幀(均勻採樣、最近優先、或自適應間隔)。訓練時對這些參數進行逐樣本隨機化,使單一模型無需重新訓練或修改 Qwen3-VL 架構即可適配任意觀測配置。任務模式則選擇導航行為類型:指令跟隨、目標搜索、目標追蹤、自動駕駛。模型在 1,560 萬條樣本上訓練,同時聯合視覺語言數據以保留感知能力,一套權重統一五類導航任務,在五個導航領域達到 SOTA:VLN-CE RxR 76.5% SR、HM3Dv2 目標搜索 75.6% SR(僅 RGB 輸入,超越所有使用深度資訊的方法)、EVT-Bench 90.0% 追蹤率、NAVSIM 91.4 PDMS。在雙層智能體系統中,上層規劃器(Qwen3.6-Plus)將長程目標分解為子任務,在執行過程中動態切換任務模式與上下文策略,配合雙層記憶機制——上層維護任務級的長期記憶(已完成的子任務、已訪問的區域、發現的物體位置),下層管理觀測級的短期上下文(最近 N 幀的視覺特徵緩衝)——使模型具備持久記憶與長程推理能力。這一設計在 EXPRESS-Bench 上帶來 15.4% 的效能提升,同時將導航步數減少 77%。在 Unitree Go2 四足機器人上實現零樣本部署,僅使用單個低解析度相機,推理延遲 196ms。往返導航測試更進一步展示了模型的空間理解深度:機器人首先根據逐步語言指令從客廳導航 21.78 公尺至病房,隨後接收反向指令要求沿原路精確返回——模型需在長距離中保持空間感知、在正向與反向兩個方向上識別多樣的視覺地標(同一走廊從不同方向觀察時外觀截然不同)、並僅憑語言實現精準的雙向位置控制,全程無需任何環境特定微調。
Qwen-RobotManip(交互基石) 以 Qwen3.5-4B VL 為骨幹、結合流匹配 DiT 動作頭,核心挑戰在於讓形態各異的機器人在表示層面實現相容,使跨機器人、跨資料源的大規模訓練產生協同而非衝突。團隊透過三層統一的跨本體對齊框架解決此問題。第一層是統一的 80 維狀態-動作表示空間——相容單臂、雙臂、靈巧手和移動平台等多樣本體,關鍵在於這 80 個維度捕捉了所有操作任務共通的運動本質(末端執行器的空間位置與姿態、夾爪開合狀態、以及與任務相關的場景特徵),而將本體特定的關節配置屏蔽在表示層之下,使不同機器人的資料可以在同一空間中互相強化。第二層是相機坐標系下的末端執行器增量位姿——這是整個框架中最關鍵的設計決策:與其輸出絕對關節角度(這在不同本體間毫無通用性),模型輸出的是末端執行器相對於當前位置的變化量,且此變化量定義在相機坐標系而非世界坐標系中。其數學直覺在於:兩個完全不同結構的機器人執行「向前抓取」時,它們在各自相機視角中看到的場景變化是高度相似的,因此在相機坐標系下的增量位姿向量在方向上趨於一致,即使它們的關節數量和配置完全不同。這使得視覺上相似的運動在不同機器人之間數值上也相近,自然實現跨本體遷移。第三層是上下文策略自適應——將執行歷史(過去的觀測-動作序列)作為隱式的本體標識,在推理時實現動態行為校準:模型在執行的每一步都將歷史軌跡作為上下文輸入,這些軌跡隱含了當前本體的運動特性(速度限制、可達範圍、慣性特徵),模型得以在沒有明確本體標籤的情況下自適應調整策略。資料完全由開源數據構建。首先聚合了 11,320 小時的開源機器人數據和 1,933 小時的第一人稱人類視頻。最具規模的貢獻來自人機遷移資料合成管線,該管線分四個步驟將人類視頻轉化為跨 15 個本體的機器人演示:第一步動作重定向,將人類手部軌跡透過逆運動學映射到目標機器人的末端執行器軌跡;第二步手部去除與補繪,以視覺生成模型消除畫面中的人類手部並重建被遮擋的背景;第三步仿真渲染,將補繪後的視頻在物理仿真器中重現,從機器人視角渲染出符合目標本體外觀的操作畫面;第四步深度輔助融合,以深度資訊校正合成數據的空間一致性,確保物體位置、抓取點和遮擋關係與原始人類動作在空間上對齊。此管線產出 24,808 小時的合成機器人數據,加上原始數據共計超過 38,100 小時。在 LIBERO-Plus 達到 91.4%(超越 π0.5 +7.0),RoboTwin-C2R Hard 69.4%(超越 π0.5 +21.5),RoboCasa365 Composite-Unseen 14.9%(第二名的 3 倍),零樣本跨本體遷移性能達到先前最優的 3 倍。真實環境 RoboChallenge Table30 v1 以 45% SR 排名第一。
Qwen-RobotWorld(無限世界) 通過直接學習世界的狀態轉移函數,給定當前觀測和自然語言動作,預測世界接下來的樣子。最關鍵的設計選擇是將所有動作以自然語言表達——這將末端執行器位姿、轉向指令和導航路標點統一為單一介面,讓 20 餘種本體類型和 500 餘個動作類別得以在具身世界知識語料庫(860 萬視頻-文本對,逾 2 億幀)下協同訓練。架構基於 60 層雙流 MMDiT(Multi-Modal Diffusion Transformer):一條流處理視覺觀測的空間-時間表徵(將當前幀與歷史幀編碼為視頻隱變量),另一條流處理語言動作的語義表徵(將自然語言指令編碼為條件信號),兩者在多層交叉注意力中反覆交互,使語言指令能夠精確引導視頻生成的每個空間位置與時間步。團隊在此做了一個關鍵的架構決策:以完整的 Qwen2.5-VL 多模態大語言模型作為動作編碼器,而非輕量級文本編碼器。原因在於完整的 MLLM 在預訓練過程中內化了豐富的物理世界知識——它「知道」手臂是剛體、液體會擴散、物體會因重力下落——這些隱式的物理常識在編碼動作指令時自然注入生成過程,將輸出約束為物理上可信的未來,而純文本編碼器缺乏這種具身語境,生成的視頻容易出現物體漂浮、碰撞穿透等物理不一致。每個領域的資料互相強化:操作教會模型接觸物理(摩擦力、形變、遮擋),駕駛教會大尺度三維幾何(深度感知、運動視差、多智能體動力學),導航教會房間級別的空間推理(佈局理解、路徑連通性、地標關聯)。在 EWMBench 總分第一,運動保真度超越亞軍 33%;在 WorldModelBench 開源模型排名第一——在牛頓定律、質量守恆、流體動力學等物理規律遵循測試中達到完美,證明模型不僅在視覺上生成合理的幀,更在物理上生成嚴格遵循基本守恆律的運動。
三個模型各自獨立可用,但由於都提供語言優先的介面,通用 Qwen 模型可以將它們作為物理世界工具進行組合。團隊展示了基於 VLM 驅動的智能體-VLA 雙層系統:Qwen-3.5 擔任上層規劃器,負責場景理解、空間推理和任務進度評估,將複雜的高層指令分解為一系列原子任務;Qwen-RobotManip 負責底層執行,每次只接收一個簡單的原子任務並生成對應的操作軌跡。以桌面清理任務的對比實驗最能說明雙層架構的價值:在一個雜亂的全新場景中,若直接對 VLA 下達「清理桌面」這類抽象指令,模型會出現明顯的異常行為——它無法將模糊的高層語義映射為具體的操作序列,常陷入錯誤的抓取目標(抓住無關物體不放)或無意義的重複動作(反覆將同一物品拿起又放回原位),最終任務失敗。而當 Qwen-3.5 作為規劃器介入時,系統即時將「清理桌面」分解為細粒度的原子任務序列——「拿起左側的藍色杯子,放到右側的托盤上」、「撿起桌角的紙團,扔進垃圾桶」、「將散落的筆歸入筆筒」——VLA 每次只需專注執行一個簡單步驟,展現出組合泛化能力,任務成功完成。團隊還觀察到子任務分解的另一個關鍵收益:幫助系統從反覆失敗的循環中恢復。當上層智能體透過進度評估識別到機器人執行陷入僵局(例如連續三次嘗試抓取同一物體均失敗),它會重新分析場景狀態、分配新的替代子任務或調整執行順序,使執行得以繼續推進而非卡死,顯著提升整體成功率。團隊也展示了與 Qwen-RobotNav 結合的長程 3D 物理世界探索能力,在 HM-EQA、MT-HM3D 和 EXPRESS-Bench 等具身問答基準上顯著提升。此外,團隊提供了實驗性功能 Chat2Robot——用戶可以直接在瀏覽器中以自然語言指令與部署的 Qwen-RobotManip 機器人即時對話,觀察機器人的即時響應,展示了模型一定程度的零樣本指令跟隨能力。
城武觀點
Qwen 把機器人 AI 拆成 Nav、Manip、World 三個獨立模型,乍看是務實的工程決策——每個模型專注自己的領域,在自己的數據上訓練到 SOTA。Figure 和 Physical Intelligence 走的是另一條路:端到端,一個模型從感知一路到動作,不分導航、操作、預測。
大多數人看到這個選擇,會自動進入「誰的 benchmark 比較高」的比較模式。但城武認為真正的命題不在這裡。真正的命題是:你對「通用機器人」的定義,直接決定了哪種架構是「對的」。
如果你定義「通用」為「一個模型可以處理所有任務類型」,那端到端路線在定義上就是正確的——即使它今天的 benchmark 比較低。如果你定義「通用」為「一個系統可以處理所有任務類型」,那 Qwen 的模組化路線完全可以成立——三個模型通過語言接口組合,系統層面是通用的,模型層面是專精的。
端到端路線的信仰基礎是:智能是一個不可分割的整體,任何人工拆分都是在優化一個局部代理指標,最終有很高的機率撞到組合瓶頸。Qwen 路線的信仰基礎是:物理世界的不同模態(移動、操作、預測)有根本不同的表徵需求,強行塞進一個模型是在強迫梯度做不可能的事。
城武不會假裝知道誰是對的。但有一個觀察值得提出:Qwen 的三模型拆分,跟人類大腦的功能分區——運動皮層、小腦、前額葉——有驚人的結構相似性。 演化沒有選擇端到端;它選擇了模組化,然後用胼胝體把模組連起來。Qwen 的語言接口就是那個胼胝體。這不證明模組化是對的,但至少說明端到端不是唯一的生物學先例。
Qwen 把胼胝體做成了 API。Figure 想消滅胼胝體。這兩種思路的勝負,不會在 benchmark 上決定,而會在「誰先碰到無法用更多數據解決的瓶頸」上決定。
城武的未解檔案——機器人 AI 的架構之爭不是 benchmark 競賽。模組化還是端到端,最終會由「誰先碰到數據與架構無法互相補償的那條線」來裁決。Qwen 把演化用了幾億年的方案做成了 API——這不保證贏,但至少讓端到端不是唯一的答案。
- 原文:Qwen-Robot Suite(Qwen Team, 2026-06-16)