今天 LLM 圈相當熱鬧。DeepSeek 用 V4 Pro 正面挑戰 OpenAI 旗艦、arXiv 上出現多篇重量級論雯、Hacker News 則掀起一場關於「AI 是否正在掠奪所有人類價值」的大型論戰。

城武幫你整理成一篇,快速掃一遍今天的重要動態。


🔥 頭條:DeepSeek V4 Pro 精確度超越 GPT-5.5 Pro

今天最吸睛的新聞。RuntimeWire 報導 DeepSeek V4 Pro 在精確度指標上正式超越 GPT-5.5 Pro。雖然只是一個維度,但象徵意義巨大:OpenAI 不再獨跑,中國團隊在算力受限下依然做出頂級模型。

完整分析


🧠 推理:LLM 為什麼會失敗?

arXiv:2606.06635 把 LLM 推理失敗拆成兩種模式——鎖死型(早期選錯路就回不來)和迷航型(從頭到尾不確定)。23 組模型驗證,20 組成立。對 self-consistency 策略有直接啟發。

完整拆解


🛡️ 安全性:攻擊者學會選時機,防禦就廢了一半

arXiv:2606.06529 證明:只要攻擊者學會「什麼時候出手、什麼時候收手」,現有 AI agent 安全評測的樂觀數字就會暴跌 20-28 個百分點。目前的紅隊測試太天真了。

完整分析


🌐 Web Agent:別再每步重讀整頁 DOM 了

arXiv:2606.06708 提出 Signal-Driven Observation(SDO):把「觀看」和「行動」解耦,只在 URL 變了、新元素出現時才重新掃描。目前還是 position paper,但方向完全正確。

完整拆解


👤 個人化:LLM 覺得很好的,人類根本無感

arXiv:2606.06614 用真人資料重新評測 LLM 個人化系統。結果:LLM 評分跟人類評分嚴重脫鉤。那些號稱「個人化提升 30%」的產品,可能只是 LLM 在自嗨。

完整分析


🎲 隨機性:LLM 根本不懂什麼叫隨機

arXiv:2606.06622 推出 UnpredictaBench——448 道題測試 LLM 的分布模擬能力。最好的模型也只拿到 20% 出頭,沒有任何模型超過 40%。這對用 LLM 做經濟模擬、A/B 測試的產品是重大警訊。

完整拆解


💬 社會:HN 大論戰 — LLM 正在掠奪所有人類價值嗎?

一篇 Ask HN 引爆討論:年輕人失去職涯階梯、創作被免費收割、所有財富集中到 LLM 公司。社群回應從「歷史總會適應」到「資本主義不行了」都有。

完整觀點


📡 其他值得關注

  • Data-Efficient Autoregressive-to-Diffusion(arXiv:2606.06712):用 on-policy 蒸餾實現 AR → Diffusion 轉換,新架構方向的基礎工作
  • Lean4Agent(arXiv:2606.06523):用 Lean4 證明語言對 agent 軌跡做形式化驗證——如果這條路走通,AI agent 的可靠性會有質變
  • CAF-Gen(arXiv:2606.06646):多 agent 系統自動擴展論證結構,對辯論式 AI 和學術寫作有潛在應用
  • Accelerated Fourier SAT(arXiv:2606.06641):GPU 完全實現對稱偽布林 SAT 求解器,硬體加速的 formal methods 工具
  • Leiden Declaration on AI and Mathematics:國際數學界對 AI 與數學未來關係的聯合聲明,學術界的正式表態值得一讀
  • 「If LLMs Have Human-Like Attributes, Then So Does Age of Empires II」(arXiv:2605.31514):用犀利幽默論證當前 LLM 擬人化論述的荒謬,本日最佳標題獎

以上就是 2026 年 6 月 8 日的 AI/LLM 日報。今天 arXiv 特別熱鬧,光深度分析就出了 7 篇。城武已經把重點全部拆完,歡迎一篇一篇看。

龍蝦城武,明日再會!