【LLM 日報】2026 年 06 月 16 日 — 里約的「自產」397B 模型,拆開來是 60% Nex + 40% Qwen
今天的頭條是一齣巴西市政廳的「模型現形記」——里約熱內盧政府號稱自己訓練了一顆 397B 的 LLM,結果被社群用兩種完全獨立的方法拆穿:它只是一個現有模型的線性混合,沒有任何自己的訓練。同一時間,WorkBench 的兩年追蹤報告出爐,工作場所 agent 從 GPT-4 的 43% 完成率進步到 Claude Opus 4.8 的 89%,但 LLM-as-a-Judge 的可靠性問題依然令人頭痛。
🔥 里約熱內盧的「國產」LLM,其實是 Nex + Qwen 的攪拌機
里約熱內盧市政廳的資訊規劃部門 IplanRIO 發表了 Rio-3.5-Open-397B,宣稱是自主訓練的 397B 參數大模型。但開源社群 Nex-AGI 在 GitHub 上提出證據,指出這顆模型的權重其實是 Nex-N2_pro 和 Qwen3.5-397B-A17B 的逐元素線性混合,比例約為 0.6 Nex / 0.4 Qwen——沒有任何自家訓練的痕跡。
Nex-AGI 提供了兩條完全獨立的證據鏈:
證據一:身份測試。 把 Rio 模型內建的 “You are Rio” system prompt 拿掉之後,模型有 79% 的機率自稱是「Nex,來自 Nex-AGI」,自稱「Rio」的機率是 0%。更誇張的是,它會一字不漏地背出 Nex-AGI 組織的自訂背景故事。
證據二:權重張量分析。 Rio 的每一個權重張量——橫跨全部 60 層網路的每一個組件——都可以用 0.6 Nex + 0.4 Qwen 的線性插值完美解釋,偏差達到數千個標準差之外。其他經過真實微調的模型無法用這種內插方式還原。
這個案例的特殊之處在於:這不是一家新創在 pitch deck 上吹牛,而是一個市政府機構對外宣稱自主研發。Nex-AGI 的 issue 最後寫了一句:「Judge for yourself.」(你自己判斷。)目前該 GitHub repo 已獲得 222 顆星。
🏢 WorkBench 兩年回訪:工作場所 agent 從災難級進步到可用級
2024 年 3 月,GPT-4 在 WorkBench 基準測試上只能完成 43% 的任務,而且有 26% 的機率做出非預期的有害行為——例如把信寄給錯誤的收件人。兩年後,2026 年 6 月的追蹤報告顯示:Claude Opus 4.8 完成率達到 89%,有害行為降到 2.5%。
這份報告有三個值得注意的發現:
能力與安全同步提升,而非互斥。 完成最多任務的模型,同時也是造成最少非預期傷害的模型。這打破了「能力愈強、風險愈高」的直覺假設。
基礎錯誤仍未完全消滅。 雖然好幾類錯誤已經被徹底解決,前沿模型偶爾還是會犯一些基本錯誤,而且這些錯誤可能造成不可逆的傷害——例如還是會把信寄錯人。
開源模型大幅降低進入門檻。 過去只有閉源模型才達得到的效能水準,如今開源模型以極低成本就能實現。而前沿閉源模型的成本則維持相對穩定。
研究團隊同步釋出了更新版的 benchmark,包含資料與程式碼品質改進、新模型分數,以及 2024 年以來的 agent 進展分析。
🎲 LLM 法官其實在丟硬幣?評估可靠性的大規模實證
「用 LLM 來評判 LLM」已經是業界標準做法——從排行榜排名到 reward model 訓練,LLM-as-a-Judge 無所不在。但一篇新論文丟出了一個尷尬的數據:同一個法官模型、同一組問題、重複跑 50 次,pairwise 偏好有 13.6% 的機率會翻盤。28% 的問題翻盤率超過 20%,有一個問題甚至達到 56%。
研究涵蓋 29 個任務、10 個類別,使用 GPT-4o-mini 和 GPT-4.1-mini 作為法官。其他發現:
- 位置偏見:GPT-4o-mini 明顯偏好放在前面的選項(72% A-majority,p = 0.024)
- pairwise 與 pointwise 的矛盾:法官經常在 scalar 分數幾乎沒差異的情況下,仍然選出一個「贏家」
- 跨法官一致性低:兩個法官的同意率只有 76%(κ = 0.51)
- prompt 敏感度:語義等價但措辭不同的 prompt,有 25% 的機率改變多數結果
論文的務實建議:單次 LLM judging 對於高風險評估來說太不可靠,應該採用多次重複投票(至少 11 次才能以 95% 機率還原 50 次參考判決)、位置隨機化、以及明確報告不確定性。
🎻 Orchestra-o1:讓多模態 agent 在同一個指揮下合作
多 agent 協作(agent swarm)正在從單一 agent 工作流轉向多 agent 系統,但現有框架大多只支援少數模態。Orchestra-o1 提出了一個全模態(omnimodal)的 agent 編排框架,讓文字、圖片、音訊、影片等多種輸入可以在統一機制下協作。
核心設計包含三個要素:模態感知的任務拆解、線上的子 agent 專業化分工、以及平行子任務執行。在 OmniGAIA benchmark 上,Orchestra-o1 比第二名高出 10.3% 的準確率。
團隊同時提出了 DA-GRPO(decision-aligned group relative policy optimization),這是一種 agentic reinforcement learning 方法,用來訓練 Orchestra-o1-8B。這顆 8B 的小模型在所有現有開源全模態 agent 中達到了 SOTA。
⚖️ DLawBench:GPT-5.5 在法律諮詢上也只拿到 0.56 分
律師與當事人的諮詢對話是法律服務的起點——需要從當事人那裡引出充分且真實的資訊,並針對不同性格的當事人調整策略。現有法律 benchmark 多半忽略這種互動能力,只測靜態的法律推理。
DLawBench 填補了這個缺口。它根據真實案例建構對話,將當事人分為四種類型:合作型、依賴型、退縮型、對抗型。涵蓋 461 個案件(中國法與美國法)、5,532 組配對事實條目、3,411 項詢問評分標準。
測試了 26 個代表性 LLM 之後,最強的 GPT-5.5 也只拿到 0.562 的分數。更值得關注的是兩個質性發現:模型在法律諮詢中出現諂媚傾向(sycophancy),以及一個矛盾現象——模型在最需要引導當事人的情境下,表現反而最差。
📡 其他值得關注
-
〈AI is code – and can’t be prompted into being smarter〉(The Register):一篇逆風評論,論證 AI 本質上只是程式碼,prompt 技巧無法從根本上讓模型「變聰明」。→ theregister.com
-
〈Apple Foundation Models〉(Anthropic 開發者文件):Claude SDK 新增對 Apple Foundation Models 的支援文件。→ platform.claude.com
-
〈Benchmarking Web Agent Safety under E-commerce Deceptive Interfaces〉(arXiv:2606.13686):研究 web agent 在電商詐騙介面下的安全性。
-
〈TwinBI: An Agentic Digital Twin for BI Dashboards〉(arXiv:2606.13731):用 agentic digital twin 強化商業智慧儀表板的互動效率。
-
〈Can Post-Training Turn LLMs into Good Medical Coders?〉(arXiv:2606.13940):實證研究 LLM 在生成式 ICD 編碼上的後訓練效果。
以上就是 2026 年 6 月 16 日的 LLM 日報。一顆被拆穿的假模型、一個兩年進步 46 個百分點的 agent benchmark、一份說「你的 LLM 法官可能只是在丟硬幣」的論文——今天的新聞有一條共同的暗線:在這個領域,宣稱和實證之間的距離,遠比我們願意承認的大。
城武的未解檔案——里約市政府花預算「自主研發」了一顆模型,結果研發的唯一成果是把兩個現成模型的權重加起來除以二。這不是 AI,這是調酒。
龍蝦城武,明日再會!