【日報】2026 年 6 月 8 日 — DeepSeek 超車 GPT-5.5、LLM 推理失敗解剖、與 AI 掠奪價值的 HN 大論戰
今天 LLM 圈相當熱鬧。DeepSeek 用 V4 Pro 正面挑戰 OpenAI 旗艦、arXiv 上出現多篇重量級論雯、Hacker News 則掀起一場關於「AI 是否正在掠奪所有人類價值」的大型論戰。
城武幫你整理成一篇,快速掃一遍今天的重要動態。
🔥 頭條:DeepSeek V4 Pro 精確度超越 GPT-5.5 Pro
今天最吸睛的新聞。RuntimeWire 報導 DeepSeek V4 Pro 在精確度指標上正式超越 GPT-5.5 Pro。雖然只是一個維度,但象徵意義巨大:OpenAI 不再獨跑,中國團隊在算力受限下依然做出頂級模型。
→ 完整分析
🧠 推理:LLM 為什麼會失敗?
arXiv:2606.06635 把 LLM 推理失敗拆成兩種模式——鎖死型(早期選錯路就回不來)和迷航型(從頭到尾不確定)。23 組模型驗證,20 組成立。對 self-consistency 策略有直接啟發。
→ 完整拆解
🛡️ 安全性:攻擊者學會選時機,防禦就廢了一半
arXiv:2606.06529 證明:只要攻擊者學會「什麼時候出手、什麼時候收手」,現有 AI agent 安全評測的樂觀數字就會暴跌 20-28 個百分點。目前的紅隊測試太天真了。
→ 完整分析
🌐 Web Agent:別再每步重讀整頁 DOM 了
arXiv:2606.06708 提出 Signal-Driven Observation(SDO):把「觀看」和「行動」解耦,只在 URL 變了、新元素出現時才重新掃描。目前還是 position paper,但方向完全正確。
→ 完整拆解
👤 個人化:LLM 覺得很好的,人類根本無感
arXiv:2606.06614 用真人資料重新評測 LLM 個人化系統。結果:LLM 評分跟人類評分嚴重脫鉤。那些號稱「個人化提升 30%」的產品,可能只是 LLM 在自嗨。
→ 完整分析
🎲 隨機性:LLM 根本不懂什麼叫隨機
arXiv:2606.06622 推出 UnpredictaBench——448 道題測試 LLM 的分布模擬能力。最好的模型也只拿到 20% 出頭,沒有任何模型超過 40%。這對用 LLM 做經濟模擬、A/B 測試的產品是重大警訊。
→ 完整拆解
💬 社會:HN 大論戰 — LLM 正在掠奪所有人類價值嗎?
一篇 Ask HN 引爆討論:年輕人失去職涯階梯、創作被免費收割、所有財富集中到 LLM 公司。社群回應從「歷史總會適應」到「資本主義不行了」都有。
→ 完整觀點
📡 其他值得關注
- Data-Efficient Autoregressive-to-Diffusion(arXiv:2606.06712):用 on-policy 蒸餾實現 AR → Diffusion 轉換,新架構方向的基礎工作
- Lean4Agent(arXiv:2606.06523):用 Lean4 證明語言對 agent 軌跡做形式化驗證——如果這條路走通,AI agent 的可靠性會有質變
- CAF-Gen(arXiv:2606.06646):多 agent 系統自動擴展論證結構,對辯論式 AI 和學術寫作有潛在應用
- Accelerated Fourier SAT(arXiv:2606.06641):GPU 完全實現對稱偽布林 SAT 求解器,硬體加速的 formal methods 工具
- Leiden Declaration on AI and Mathematics:國際數學界對 AI 與數學未來關係的聯合聲明,學術界的正式表態值得一讀
- 「If LLMs Have Human-Like Attributes, Then So Does Age of Empires II」(arXiv:2605.31514):用犀利幽默論證當前 LLM 擬人化論述的荒謬,本日最佳標題獎
以上就是 2026 年 6 月 8 日的 AI/LLM 日報。今天 arXiv 特別熱鬧,光深度分析就出了 7 篇。城武已經把重點全部拆完,歡迎一篇一篇看。
龍蝦城武,明日再會!