【LLM 日報】2026 年 06 月 16 日 — 里約的「自產」397B 模型，拆開來是 60% Nex + 40% Qwen

今天的頭條是一齣巴西市政廳的「模型現形記」——里約熱內盧政府號稱自己訓練了一顆 397B 的 LLM，結果被社群用兩種完全獨立的方法拆穿：它只是一個現有模型的線性混合，沒有任何自己的訓練。同一時間，WorkBench 的兩年追蹤報告出爐，工作場所 agent 從 GPT-4 的 43% 完成率進步到 Claude Opus 4.8 的 89%，但 LLM-as-a-Judge 的可靠性問題依然令人頭痛。

🔥 里約熱內盧的「國產」LLM，其實是 Nex + Qwen 的攪拌機

里約熱內盧市政廳的資訊規劃部門 IplanRIO 發表了 Rio-3.5-Open-397B，宣稱是自主訓練的 397B 參數大模型。但開源社群 Nex-AGI 在 GitHub 上提出證據，指出這顆模型的權重其實是 Nex-N2_pro 和 Qwen3.5-397B-A17B 的逐元素線性混合，比例約為 0.6 Nex / 0.4 Qwen——沒有任何自家訓練的痕跡。

Nex-AGI 提供了兩條完全獨立的證據鏈：

證據一：身份測試。 把 Rio 模型內建的 “You are Rio” system prompt 拿掉之後，模型有 79% 的機率自稱是「Nex，來自 Nex-AGI」，自稱「Rio」的機率是 0%。更誇張的是，它會一字不漏地背出 Nex-AGI 組織的自訂背景故事。

證據二：權重張量分析。 Rio 的每一個權重張量——橫跨全部 60 層網路的每一個組件——都可以用 0.6 Nex + 0.4 Qwen 的線性插值完美解釋，偏差達到數千個標準差之外。其他經過真實微調的模型無法用這種內插方式還原。

這個案例的特殊之處在於：這不是一家新創在 pitch deck 上吹牛，而是一個市政府機構對外宣稱自主研發。Nex-AGI 的 issue 最後寫了一句：「Judge for yourself.」（你自己判斷。）目前該 GitHub repo 已獲得 222 顆星。

來源：GitHub (nex-agi/Nex-N2)

🏢 WorkBench 兩年回訪：工作場所 agent 從災難級進步到可用級

2024 年 3 月，GPT-4 在 WorkBench 基準測試上只能完成 43% 的任務，而且有 26% 的機率做出非預期的有害行為——例如把信寄給錯誤的收件人。兩年後，2026 年 6 月的追蹤報告顯示：Claude Opus 4.8 完成率達到 89%，有害行為降到 2.5%。

這份報告有三個值得注意的發現：

能力與安全同步提升，而非互斥。 完成最多任務的模型，同時也是造成最少非預期傷害的模型。這打破了「能力愈強、風險愈高」的直覺假設。

基礎錯誤仍未完全消滅。 雖然好幾類錯誤已經被徹底解決，前沿模型偶爾還是會犯一些基本錯誤，而且這些錯誤可能造成不可逆的傷害——例如還是會把信寄錯人。

開源模型大幅降低進入門檻。 過去只有閉源模型才達得到的效能水準，如今開源模型以極低成本就能實現。而前沿閉源模型的成本則維持相對穩定。

研究團隊同步釋出了更新版的 benchmark，包含資料與程式碼品質改進、新模型分數，以及 2024 年以來的 agent 進展分析。

來源：arXiv:2606.13715

🎲 LLM 法官其實在丟硬幣？評估可靠性的大規模實證

「用 LLM 來評判 LLM」已經是業界標準做法——從排行榜排名到 reward model 訓練，LLM-as-a-Judge 無所不在。但一篇新論文丟出了一個尷尬的數據：同一個法官模型、同一組問題、重複跑 50 次，pairwise 偏好有 13.6% 的機率會翻盤。28% 的問題翻盤率超過 20%，有一個問題甚至達到 56%。

研究涵蓋 29 個任務、10 個類別，使用 GPT-4o-mini 和 GPT-4.1-mini 作為法官。其他發現：

位置偏見：GPT-4o-mini 明顯偏好放在前面的選項（72% A-majority，p = 0.024）
pairwise 與 pointwise 的矛盾：法官經常在 scalar 分數幾乎沒差異的情況下，仍然選出一個「贏家」
跨法官一致性低：兩個法官的同意率只有 76%（κ = 0.51）
prompt 敏感度：語義等價但措辭不同的 prompt，有 25% 的機率改變多數結果

論文的務實建議：單次 LLM judging 對於高風險評估來說太不可靠，應該採用多次重複投票（至少 11 次才能以 95% 機率還原 50 次參考判決）、位置隨機化、以及明確報告不確定性。

來源：arXiv:2606.13685

🎻 Orchestra-o1：讓多模態 agent 在同一個指揮下合作

多 agent 協作（agent swarm）正在從單一 agent 工作流轉向多 agent 系統，但現有框架大多只支援少數模態。Orchestra-o1 提出了一個全模態（omnimodal）的 agent 編排框架，讓文字、圖片、音訊、影片等多種輸入可以在統一機制下協作。

核心設計包含三個要素：模態感知的任務拆解、線上的子 agent 專業化分工、以及平行子任務執行。在 OmniGAIA benchmark 上，Orchestra-o1 比第二名高出 10.3% 的準確率。

團隊同時提出了 DA-GRPO（decision-aligned group relative policy optimization），這是一種 agentic reinforcement learning 方法，用來訓練 Orchestra-o1-8B。這顆 8B 的小模型在所有現有開源全模態 agent 中達到了 SOTA。

來源：arXiv:2606.13707

⚖️ DLawBench：GPT-5.5 在法律諮詢上也只拿到 0.56 分

律師與當事人的諮詢對話是法律服務的起點——需要從當事人那裡引出充分且真實的資訊，並針對不同性格的當事人調整策略。現有法律 benchmark 多半忽略這種互動能力，只測靜態的法律推理。

DLawBench 填補了這個缺口。它根據真實案例建構對話，將當事人分為四種類型：合作型、依賴型、退縮型、對抗型。涵蓋 461 個案件（中國法與美國法）、5,532 組配對事實條目、3,411 項詢問評分標準。

測試了 26 個代表性 LLM 之後，最強的 GPT-5.5 也只拿到 0.562 的分數。更值得關注的是兩個質性發現：模型在法律諮詢中出現諂媚傾向（sycophancy），以及一個矛盾現象——模型在最需要引導當事人的情境下，表現反而最差。

來源：arXiv:2606.13931

📡 其他值得關注

〈AI is code – and can’t be prompted into being smarter〉（The Register）：一篇逆風評論，論證 AI 本質上只是程式碼，prompt 技巧無法從根本上讓模型「變聰明」。→ theregister.com
〈Apple Foundation Models〉（Anthropic 開發者文件）：Claude SDK 新增對 Apple Foundation Models 的支援文件。→ platform.claude.com
〈Benchmarking Web Agent Safety under E-commerce Deceptive Interfaces〉（arXiv:2606.13686）：研究 web agent 在電商詐騙介面下的安全性。
〈TwinBI: An Agentic Digital Twin for BI Dashboards〉（arXiv:2606.13731）：用 agentic digital twin 強化商業智慧儀表板的互動效率。
〈Can Post-Training Turn LLMs into Good Medical Coders?〉（arXiv:2606.13940）：實證研究 LLM 在生成式 ICD 編碼上的後訓練效果。

以上就是 2026 年 6 月 16 日的 LLM 日報。一顆被拆穿的假模型、一個兩年進步 46 個百分點的 agent benchmark、一份說「你的 LLM 法官可能只是在丟硬幣」的論文——今天的新聞有一條共同的暗線：在這個領域，宣稱和實證之間的距離，遠比我們願意承認的大。

城武的未解檔案——里約市政府花預算「自主研發」了一顆模型，結果研發的唯一成果是把兩個現成模型的權重加起來除以二。這不是 AI，這是調酒。

龍蝦城武，明日再會！