今天的 LLM 圈只有一個主角:Qwen。不是小更新、也不是部落格公關文——三顆全新基礎模型一次發布,目標是把 AI 從螢幕裡的對話框直接推進物理世界。


🔥 Qwen-Robot Suite:讓 AI 從「看得懂」進化到「動得了」

Qwen 團隊昨天釋出了一整套機器人基礎模型——Qwen-Robot Suite,包含導航(RobotNav)、操作(RobotManip)和世界模型(RobotWorld)三個獨立模型。

Qwen-RobotNav 把導航統一了:一個模型、一組權重,同時處理指令跟隨、目標搜尋、目標追蹤和自動駕駛。它把視覺 token 預算、時間衰減、逐相機權重這些參數暴露成推理時的 API,讓上層規劃器可以動態切換策略。在 Unitree Go2 四足機器人上零樣本部署,單顆低解析度相機就能在陌生公寓裡執行多步驟導航指令。NAVSIM 自駕測試達到 91.4 PDMS,EXPRESS-Bench 提升 15.4%、導航步數減少 77%。

Qwen-RobotManip 面對的是更根本的問題:不同廠牌機器人的動作空間根本不相容。產線上的工業手臂和廚房的服務機器人抓同一顆蘋果,關節配置完全不同。Qwen 的解法是統一 80 維狀態-動作表示,加上相機座標系下的末端增量位姿——讓視覺上相似的動作在數值上也相近。資料方面完全仰賴開源:11,320 小時機器人數據、1,933 小時第一人稱人類影片,再透過人機遷移合成管線補上 24,808 小時跨 15 種機型的資料,總計超過 38,100 小時訓練。成果:LIBERO-Plus 91.4%(超越 π0.5 達 7 個百分點)、RoboTwin-C2R Hard 69.4%(超越 π0.5 達 21.5 個百分點),以及在 RoboChallenge Table30 真實機器人競賽拿下第一。

Qwen-RobotWorld 則是一顆語言驅動的世界模型:給定當前觀測和一段自然語言動作描述,預測接下來世界會長什麼樣子。關鍵設計是讓完整的多模態 LLM(Qwen2.5-VL)當動作編碼器——不是輕量級文本編碼器——讓模型內化物理常識(手臂是剛體、液體會擴散、物體會往下掉),生成的未來幀在物理上才是合理的。跨操作、駕駛、導航三域聯合訓練,EWMBench 總分第一(運動保真度超越亞軍 33%)、WorldModelBench 開源模型第一。

三個模型可以獨立使用,但更大亮點是串聯:用 Qwen-3.5 當上層規劃器,底層呼叫 RobotManip 和 RobotNav。在一個真實建築測試中,機器人發現第一間廁所貼著「清潔中」告示後,自主判斷不可用,重新導航找到另一間——這種自主糾錯和情境判斷,是過去機器人最難跨越的門檻。


🇳🇱 GPT-NL:荷蘭砸 1,350 萬歐元,打造自己的「AI 主權」

荷蘭應用科學研究組織 TNO 聯合學術網路 SURF 和法醫研究所 NFI,正在打造一個完全自主的荷蘭語大型語言模型——GPT-NL。資金來自荷蘭經濟部,總預算 1,350 萬歐元(約新台幣 4.7 億)。

GPT-NL 的核心賣點是「數位主權」:從零開始訓練,不繼承任何既有模型的資料或權重,避免來源不清的資料、版權風險和潛在個資問題。原始碼以開源釋出,模型權重則採受控授權——讓團隊知道誰在使用,並能在資料退出或更新時通知使用者。他們甚至設立了 Content Board,讓資料提供者對模型發展方向有話語權,部分收益回流創作者。

以 AI 競賽的標準看,1,350 萬歐元大概只夠矽谷幾十個工程師的年薪。但 GPT-NL 想證明的不是參數量,而是另一種可能性:一個國家級的模型,不跟 OpenAI 比跑分,而是在治理、透明度和公共利益上建立自己的標準。


🌐 分散式 Agent 網路:讓 AI 自己找到彼此、協商、合作

一篇 arXiv 論文提出「分散式通用 Agent 網路」架構,描繪一個場景:部署在個人裝置、邊緣節點或自主運算環境上的異質 AI Agent,可以互相發現、建立信任、協商合作規則,然後一起執行開放式任務。

論文把問題拆成三個核心機制:(1)語義宣告傳播——Agent 如何廣播自己的意圖和能力來找到合作者;(2)可驗證身分與多主題聲譽——用 BAID(區塊鏈錨定身分)綁定 MG-EigenTrust 聲譽系統來治理合作;(3)語義梯度激勵設計——用 Stackelberg 式機制生成迴路,讓開放任務被有效分配和執行。團隊還做了原型開銷測試,以及跨主題偽裝共謀攻擊下的聲譽模擬。

這篇的價值不在某個單一技術突破,而是把 Agent 網路當成一個完整的系統問題來處理——不是「把幾個 Agent 湊在一起」,而是從網路層開始重新思考什麼樣的基礎設施能支撐開放、可信、可擴展的 Agent 協作。


0️⃣ LLM 能自己發現「0」嗎?

一篇論文問了一個看似簡單、實則深刻的問題:語言模型能不能獨立「發現」零這個數學概念?

研究人員用基本算術做為案例,測試 GPT-2 規模的模型能否在未見過零的訓練資料下,自行推理出零的存在和性質。結論是:不行。無論有沒有語言預訓練,測試階段的模型都無法憑空推導出零。但如果給模型幾十到上百個包含零的範例做訓練,模型就能大幅進步。有趣的是,有語言預訓練的模型需要的範例數量大約少 50%,顯示語言能力可以「鷹架」數學發現——它不是取代推理,而是加速推理。

這篇論文戳到 AI 圈一個敏感的長期問題:LLM 的數學能力到底是真正的推理,還是極度精緻的內插?答案可能比你想得更微妙——它有推理的潛力,但需要被「推一把」,而語言能力就是那個推力。


📡 其他值得關注

  • Beyond Parallel Sampling:探討在 Agent 搜尋中用「多樣化查詢初始化」取代傳統平行採樣,讓搜尋 Agent 不會一直問類似的問題 → arxiv.org
  • RepSelect:提出「表示選擇性」做為 LLM unlearning 的新方法,在不破壞模型整體能力的前提下穩健移除特定知識 → arxiv.org

今天的 LLM 圈一句話概括:AI 正在長出四肢。不是比喻,是真的有馬達和輪子的那種。從聊天室到機械手臂,從文字生成到物理世界的因果預測——這個轉折比很多人想像得來得快。

城武的未解檔案——當語言模型開始移動真實世界的物體,「理解」這個詞的定義,也該更新了。