【論文拆解】LLM 推理失敗的兩種死法：鎖死型 vs 迷航型——從 token 層級解剖 AI 的思考錯誤

論文：How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures 作者：arXiv:2606.06635 實驗規模：23 組模型 × 資料集配置，20/23 可證偽預測成立

城武導讀

你有沒有遇過這種情況：叫 LLM 解一道數學題，它前面步驟都對，但某個地方開始鬼打牆，後面全毀。或者是從第一步就錯了，然後硬撐到最後，死不回頭。

這篇論文做了一件很根本的事：它不問「LLM 會不會犯錯」，而是問「LLM 是怎麼犯錯的」。 作者從 token 層級的不確定性信號出發，把推理失敗拆成兩種可被診斷的模式——而且跨模型、跨任務都成立。

這類研究的價值不在於告訴你「AI 不完美」，而在於告訴你什麼時候該信任它、什麼時候該打斷它。對任何把 LLM 放進 production pipeline 的人來說，這是必修課。

以下是我的翻譯摘要（城武風）加上觀點。

兩種失敗模式

模式一：Committed Failure（鎖死型失敗）

模型在推理的早期階段就選了一條錯的路，然後「鎖死」在上面——後續產生的 token 全部沿著這個錯誤路徑展開。

論文發現一個關鍵的診斷信號叫 commitment point（承諾點）。過了這個點之後，你再多給模型幾個 token 去「思考」，不但沒幫助，反而讓失敗偵測變得更難。白話文：模型一旦鐵了心走錯，你給它更多運算資源只是讓它在錯的路上走更遠。

這種失敗模式的診斷策略是：在推理前半段就介入。 如果你能在 commitment point 之前偵測到不確定性異常上升，你有機會在模型「鎖死」之前打斷它。

模式二：Persistent Uncertainty（持續迷航型）

另一種失敗模式是模型從頭到尾都不確定。每一步的 uncertainty 都在穩定累積，沒有一個明顯的「轉折點」。

這種情況跟鎖死型剛好相反：你需要看完整個推理過程才能判斷它是成是敗——不能只靠前半段就下結論。模型不是突然走錯，是一直都沒有走對。

這種失敗模式的診斷策略是：給模型更多 token 預算，並在整個推理過程中持續監控不確定性。 如果在某個閾值以上持續太久，就標記為高風險。

實驗規模與可信度

論文在 23 組模型 × 資料集 的配置上驗證了這個框架，其中 20 組的可證偽預測都成立。這個數字遠超隨機機率（如果只是巧合，不可能 20/23），說明這兩種失敗模式是跨模型、跨任務的普遍現象。

更重要的是，論文不是只在實驗室裡自嗨——它進一步展示了這個框架的實用價值：

對 Self-Consistency 的啟發

Self-consistency 是目前最常用的提升 LLM 推理準確度的技巧之一：讓模型對同一個問題生成多條推理路徑，然後投票選出最一致的答案。

這篇論文指出：

對於鎖死型失敗，self-consistency 幫助有限——因為多條路徑可能都在同一個 commitment point 之後鎖死在類似的錯誤上
對於迷航型失敗，self-consistency 可以顯著改善——因為多條不確定的路徑投票後可能收斂到正確答案

換句話說：不應該對所有問題都無差別地使用 self-consistency。 先診斷失敗模式，再決定要不要多跑幾次。

城武觀點

1. 類型化比準確度更重要

這篇論文有趣的地方不是「LLM 會犯錯」——這誰都知道。有趣的是它把失敗類型化了。

知道模型是「鎖死型」還是「迷航型」，對實際應用的影響很大。比如你是一個用 LLM 做自動程式碼審查的系統：

如果是鎖死型失敗，你需要在推理前半段就介入打斷，而不是等它跑完才發現整段 code review 都是 nonsense
如果是迷航型失敗，你需要給模型更多 token 預算讓它想清楚，甚至觸發第二輪推理

2. 人類的對應

我讀這篇論文的時候一直在想一個問題：這兩種失敗模式跟人類的思考錯誤有沒有對應關係？

人類也會鎖死在錯誤假設上（心理學叫「確認偏誤」），也會從頭到尾都不確定（「決策疲勞」）。如果 LLM 的失敗模式跟人類相似，那我們是不是可以用認知心裡學的工具來設計更好的 LLM 推理策略？

說不定下一步的研究方向不是「讓 LLM 更聰明」，而是「讓 LLM 知道什麼時候它正在變笨」——就像人類需要 metacognition（後設認知）來監控自己的思考品質。

3. 實際應用：什麼時候該信任 LLM 的推理？

這篇論文給了一個很務實的框架：

如果你的任務是有明確對錯答案的（數學、邏輯、程式碼），鎖死型失敗的風險最高——建議在推理前半段就加入人工或自動化檢查點
如果你的任務是開放式、需要探索的（寫作、腦力激盪、策略規劃），迷航型失敗比較常見——建議給模型多一點 token 預算，並用 self-consistency 做交叉驗證

論文：arXiv:2606.06635

城武的未解檔案——我們拆的不只是論文，是 AI 的大腦。