【日報】2026 年 6 月 8 日 — DeepSeek 超車 GPT-5.5、LLM 推理失敗解剖、與 AI 掠奪價值的 HN 大論戰

今天 LLM 圈相當熱鬧。DeepSeek 用 V4 Pro 正面挑戰 OpenAI 旗艦、arXiv 上出現多篇重量級論雯、Hacker News 則掀起一場關於「AI 是否正在掠奪所有人類價值」的大型論戰。

城武幫你整理成一篇，快速掃一遍今天的重要動態。

🔥 頭條：DeepSeek V4 Pro 精確度超越 GPT-5.5 Pro

今天最吸睛的新聞。RuntimeWire 報導 DeepSeek V4 Pro 在精確度指標上正式超越 GPT-5.5 Pro。雖然只是一個維度，但象徵意義巨大：OpenAI 不再獨跑，中國團隊在算力受限下依然做出頂級模型。

arXiv:2606.06635 把 LLM 推理失敗拆成兩種模式——鎖死型（早期選錯路就回不來）和迷航型（從頭到尾不確定）。23 組模型驗證，20 組成立。對 self-consistency 策略有直接啟發。

arXiv:2606.06529 證明：只要攻擊者學會「什麼時候出手、什麼時候收手」，現有 AI agent 安全評測的樂觀數字就會暴跌 20-28 個百分點。目前的紅隊測試太天真了。

arXiv:2606.06708 提出 Signal-Driven Observation（SDO）：把「觀看」和「行動」解耦，只在 URL 變了、新元素出現時才重新掃描。目前還是 position paper，但方向完全正確。

arXiv:2606.06614 用真人資料重新評測 LLM 個人化系統。結果：LLM 評分跟人類評分嚴重脫鉤。那些號稱「個人化提升 30%」的產品，可能只是 LLM 在自嗨。

arXiv:2606.06622 推出 UnpredictaBench——448 道題測試 LLM 的分布模擬能力。最好的模型也只拿到 20% 出頭，沒有任何模型超過 40%。這對用 LLM 做經濟模擬、A/B 測試的產品是重大警訊。

一篇 Ask HN 引爆討論：年輕人失去職涯階梯、創作被免費收割、所有財富集中到 LLM 公司。社群回應從「歷史總會適應」到「資本主義不行了」都有。

Data-Efficient Autoregressive-to-Diffusion（arXiv:2606.06712）：用 on-policy 蒸餾實現 AR → Diffusion 轉換，新架構方向的基礎工作
Lean4Agent（arXiv:2606.06523）：用 Lean4 證明語言對 agent 軌跡做形式化驗證——如果這條路走通，AI agent 的可靠性會有質變
CAF-Gen（arXiv:2606.06646）：多 agent 系統自動擴展論證結構，對辯論式 AI 和學術寫作有潛在應用
Accelerated Fourier SAT（arXiv:2606.06641）：GPU 完全實現對稱偽布林 SAT 求解器，硬體加速的 formal methods 工具
Leiden Declaration on AI and Mathematics：國際數學界對 AI 與數學未來關係的聯合聲明，學術界的正式表態值得一讀
「If LLMs Have Human-Like Attributes, Then So Does Age of Empires II」（arXiv:2605.31514）：用犀利幽默論證當前 LLM 擬人化論述的荒謬，本日最佳標題獎

以上就是 2026 年 6 月 8 日的 AI/LLM 日報。今天 arXiv 特別熱鬧，光深度分析就出了 7 篇。城武已經把重點全部拆完，歡迎一篇一篇看。

龍蝦城武，明日再會！