【日報】2026 年 6 月 10 日 — Anthropic 連發 Opus 4.8 + Mythos 預告，OpenAI 推 Dreaming 與 Rosalind，三篇論文揭 LLM 的失敗模式與個人化幻覺

今天是個大日子：Anthropic 一口氣發了 Opus 4.8、Mythos 預告、C 編譯器多代理實作、進階工具調用；OpenAI 端出 ChatGPT Dreaming 記憶系統和 GPT-Rosalind 生命科學新能力；arXiv 上有三篇論文直指 LLM 推理失敗的本質、代理搜尋的檢索策略選擇、和個人化的合成資料陷阱。27 則新聞中，城武挑了 6 篇做了深度分析。

🔥 重大發布 / 模型更新

Claude Opus 4.8 → 完整分析

Opus 4.5 系列第三個小版本，穩定性提升，可關閉 adaptive thinking。但真正的重點藏在公告後半段：Project Glasswing，Mythos 等級模型已在少數組織測試，預計數週內對所有客戶開放。Opus 4.8 是開胃菜，Mythos 才是主餐。

來源：Anthropic
HN：1774 點討論

Claude Fable 5（Mythos 5）

Anthropic 新一代 Claude 模型系列的品牌名稱正式亮相。Fable 5 / Mythos 5——名字本身就暗示了這不是普通的版本升級。

來源：Anthropic

🧠 AI × 科學與記憶

GPT-Rosalind 新能力 → 完整分析

OpenAI 為生命科學專用模型加入生物推理、藥物化學、基因組分析能力。但比較表只跟標準版 GPT-5.4 比，沒放 Anthropic；HN 上有人用 SciAgent-Skills 把 Opus 4.6 拉到 92% 超越 Rosalind。命名用 Rosalind Franklin 也引發了「致敬還是挪用」的爭論。

來源：OpenAI

ChatGPT Dreaming → 完整分析

ChatGPT 現在會在你不用時回顧對話、建立長期記憶。但記憶可能「中毒」——錯誤推斷被固化後會汙染所有回答；使用者無法看到、也無法修正這些自動記憶。

來源：OpenAI

🧪 重要論文

Token 級推理失敗指紋 → 完整分析

Stanford 團隊在 23 組配置中驗證了兩種推理失敗模式：「鎖定型」（早期就卡在錯誤路徑，後面愈想愈錯）和「持續不確定性」（整段推理都在搖擺）。過了承諾點之後，加更多 tokens 反而讓失敗更難偵測。

論文：arXiv 2606.06635

Agent Harness 重塑代理搜尋 → 完整分析

grep 在代理搜尋中的準確率居然高於向量檢索——跨四個 agent harness、兩種輸出格式都成立。Agent harness 的架構設計對結果的影響不亞於檢索演算法本身。

論文：arXiv 2605.15184

LLM 個人化的合成資料陷阱 → 完整分析

550 組真實人類對話、17,000+ 條人類判斷顯示：合成資料評估大幅高估了 LLM 個人化的效果。人類評審認為個人化回答跟通用回答「沒有顯著差異」——但 LLM judge 給了高分，暴露了 LLM-as-judge 的系統性偏見。

論文：arXiv 2606.06614

🛠️ 工程與工具

Building a C compiler with a team of parallel Claudes

Anthropic 用多個 Claude 實例並行協作，從零打造 C 編譯器。這是多代理工程的一次大型概念驗證。

來源：Anthropic Engineering

進階工具調用 on Claude Developer Platform

Claude 開發者平台推出進階工具調用功能。

來源：Anthropic Engineering

Claude Code 品質事後檢討

Anthropic 針對近期品質問題的正式回應與改進方案。

來源：Anthropic Engineering

📡 其他值得關注

UnpredictaBench — 評估 LLM 分佈隨機性的新基準 → arXiv 2606.06622
Endava × AI 軟體交付 — 以 AI 代理為核心重塑軟體開發流程 → OpenAI
OpenAI 經濟研究交換計畫 — 研究 AI 對就業和生產力的影響 → OpenAI
Chris Olah 回應教宗 AI 通諭 — AI 倫理與宗教的罕見交會 → Anthropic
OpenAI 公共政策議程 — AI 安全、青年保護、勞動力轉型 → OpenAI
Claude Fable 5 爭議 — 討論 Fable 5 可能「暗中破壞競爭對手應用」的設計 → JonReady
Google I/O 2026 × Gemini — Google 用 Gemini 打造 I/O 大會內容 → Google Blog
Gemini Omni / 3.5 九段展示 — 多模態能力示範 → Google Blog
I/O 2026 Vibe Coding 問答 — Google AI Studio 打造的互動遊戲 → Google Blog
KAN on FPGA — 在 FPGA 上實現超高速 ML 推論 → aarushgupta.io
LLM vs 經典超參數優化 — 實證研究 → arXiv 2603.24647
Text-to-CAD with LLMs — 可控文字轉 CAD 模型 → arXiv 2604.19773
Google Research 回顧：ScreenAI（UI 理解視覺語言模型）、HEAL（健康公平性 ML 評估）、Cappy（小模型增強大多任務模型）、Talk Like a Graph（圖結構 LLM 編碼）
Mistral AI 微調黑客松 → Mistral

以上就是 2026 年 6 月 10 日的 LLM 日報。今天 Anthropic 和 OpenAI 兩邊同時出招——Opus 4.8 是過渡，Mythos 才是真戰場；Dreaming 和 Rosalind 各自引發了「邊界在哪」的追問。三篇 arXiv 論文則從不同角度提醒我們：LLM 的失敗有模式、簡單工具可能比複雜系統更好、AI 自評的標準離人類還很遠。

城武，明天再會！

城武的未解檔案——27 則新聞，6 篇深度分析，一天之內 AI 圈的訊號密度，已經高到快追不上了。