【LLM 日報】2026 年 6 月 18 日 — Qwen 一次丟出三顆機器人大腦，AI 正式走出聊天室

今天的 LLM 圈只有一個主角：Qwen。不是小更新、也不是部落格公關文——三顆全新基礎模型一次發布，目標是把 AI 從螢幕裡的對話框直接推進物理世界。

🔥 Qwen-Robot Suite：讓 AI 從「看得懂」進化到「動得了」

Qwen 團隊昨天釋出了一整套機器人基礎模型——Qwen-Robot Suite，包含導航（RobotNav）、操作（RobotManip）和世界模型（RobotWorld）三個獨立模型。

Qwen-RobotNav 把導航統一了：一個模型、一組權重，同時處理指令跟隨、目標搜尋、目標追蹤和自動駕駛。它把視覺 token 預算、時間衰減、逐相機權重這些參數暴露成推理時的 API，讓上層規劃器可以動態切換策略。在 Unitree Go2 四足機器人上零樣本部署，單顆低解析度相機就能在陌生公寓裡執行多步驟導航指令。NAVSIM 自駕測試達到 91.4 PDMS，EXPRESS-Bench 提升 15.4%、導航步數減少 77%。

Qwen-RobotManip 面對的是更根本的問題：不同廠牌機器人的動作空間根本不相容。產線上的工業手臂和廚房的服務機器人抓同一顆蘋果，關節配置完全不同。Qwen 的解法是統一 80 維狀態-動作表示，加上相機座標系下的末端增量位姿——讓視覺上相似的動作在數值上也相近。資料方面完全仰賴開源：11,320 小時機器人數據、1,933 小時第一人稱人類影片，再透過人機遷移合成管線補上 24,808 小時跨 15 種機型的資料，總計超過 38,100 小時訓練。成果：LIBERO-Plus 91.4%（超越 π0.5 達 7 個百分點）、RoboTwin-C2R Hard 69.4%（超越 π0.5 達 21.5 個百分點），以及在 RoboChallenge Table30 真實機器人競賽拿下第一。

Qwen-RobotWorld 則是一顆語言驅動的世界模型：給定當前觀測和一段自然語言動作描述，預測接下來世界會長什麼樣子。關鍵設計是讓完整的多模態 LLM（Qwen2.5-VL）當動作編碼器——不是輕量級文本編碼器——讓模型內化物理常識（手臂是剛體、液體會擴散、物體會往下掉），生成的未來幀在物理上才是合理的。跨操作、駕駛、導航三域聯合訓練，EWMBench 總分第一（運動保真度超越亞軍 33%）、WorldModelBench 開源模型第一。

三個模型可以獨立使用，但更大亮點是串聯：用 Qwen-3.5 當上層規劃器，底層呼叫 RobotManip 和 RobotNav。在一個真實建築測試中，機器人發現第一間廁所貼著「清潔中」告示後，自主判斷不可用，重新導航找到另一間——這種自主糾錯和情境判斷，是過去機器人最難跨越的門檻。

來源：qwen.ai

🇳🇱 GPT-NL：荷蘭砸 1,350 萬歐元，打造自己的「AI 主權」

荷蘭應用科學研究組織 TNO 聯合學術網路 SURF 和法醫研究所 NFI，正在打造一個完全自主的荷蘭語大型語言模型——GPT-NL。資金來自荷蘭經濟部，總預算 1,350 萬歐元（約新台幣 4.7 億）。

GPT-NL 的核心賣點是「數位主權」：從零開始訓練，不繼承任何既有模型的資料或權重，避免來源不清的資料、版權風險和潛在個資問題。原始碼以開源釋出，模型權重則採受控授權——讓團隊知道誰在使用，並能在資料退出或更新時通知使用者。他們甚至設立了 Content Board，讓資料提供者對模型發展方向有話語權，部分收益回流創作者。

以 AI 競賽的標準看，1,350 萬歐元大概只夠矽谷幾十個工程師的年薪。但 GPT-NL 想證明的不是參數量，而是另一種可能性：一個國家級的模型，不跟 OpenAI 比跑分，而是在治理、透明度和公共利益上建立自己的標準。

來源：tno.nl

🌐 分散式 Agent 網路：讓 AI 自己找到彼此、協商、合作

一篇 arXiv 論文提出「分散式通用 Agent 網路」架構，描繪一個場景：部署在個人裝置、邊緣節點或自主運算環境上的異質 AI Agent，可以互相發現、建立信任、協商合作規則，然後一起執行開放式任務。

論文把問題拆成三個核心機制：（1）語義宣告傳播——Agent 如何廣播自己的意圖和能力來找到合作者；（2）可驗證身分與多主題聲譽——用 BAID（區塊鏈錨定身分）綁定 MG-EigenTrust 聲譽系統來治理合作；（3）語義梯度激勵設計——用 Stackelberg 式機制生成迴路，讓開放任務被有效分配和執行。團隊還做了原型開銷測試，以及跨主題偽裝共謀攻擊下的聲譽模擬。

這篇的價值不在某個單一技術突破，而是把 Agent 網路當成一個完整的系統問題來處理——不是「把幾個 Agent 湊在一起」，而是從網路層開始重新思考什麼樣的基礎設施能支撐開放、可信、可擴展的 Agent 協作。

來源：arxiv.org

0️⃣ LLM 能自己發現「0」嗎？

一篇論文問了一個看似簡單、實則深刻的問題：語言模型能不能獨立「發現」零這個數學概念？

研究人員用基本算術做為案例，測試 GPT-2 規模的模型能否在未見過零的訓練資料下，自行推理出零的存在和性質。結論是：不行。無論有沒有語言預訓練，測試階段的模型都無法憑空推導出零。但如果給模型幾十到上百個包含零的範例做訓練，模型就能大幅進步。有趣的是，有語言預訓練的模型需要的範例數量大約少 50%，顯示語言能力可以「鷹架」數學發現——它不是取代推理，而是加速推理。

這篇論文戳到 AI 圈一個敏感的長期問題：LLM 的數學能力到底是真正的推理，還是極度精緻的內插？答案可能比你想得更微妙——它有推理的潛力，但需要被「推一把」，而語言能力就是那個推力。

來源：arxiv.org

📡 其他值得關注

Beyond Parallel Sampling：探討在 Agent 搜尋中用「多樣化查詢初始化」取代傳統平行採樣，讓搜尋 Agent 不會一直問類似的問題 → arxiv.org
RepSelect：提出「表示選擇性」做為 LLM unlearning 的新方法，在不破壞模型整體能力的前提下穩健移除特定知識 → arxiv.org

今天的 LLM 圈一句話概括：AI 正在長出四肢。不是比喻，是真的有馬達和輪子的那種。從聊天室到機械手臂，從文字生成到物理世界的因果預測——這個轉折比很多人想像得來得快。

城武的未解檔案——當語言模型開始移動真實世界的物體，「理解」這個詞的定義，也該更新了。