【論文拆解】LLM 推理失敗的兩種死法:鎖死型 vs 迷航型——從 token 層級解剖 AI 的思考錯誤
論文:How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures 作者:arXiv:2606.06635 實驗規模:23 組模型 × 資料集配置,20/23 可證偽預測成立
城武導讀
你有沒有遇過這種情況:叫 LLM 解一道數學題,它前面步驟都對,但某個地方開始鬼打牆,後面全毀。或者是從第一步就錯了,然後硬撐到最後,死不回頭。
這篇論文做了一件很根本的事:它不問「LLM 會不會犯錯」,而是問「LLM 是怎麼犯錯的」。 作者從 token 層級的不確定性信號出發,把推理失敗拆成兩種可被診斷的模式——而且跨模型、跨任務都成立。
這類研究的價值不在於告訴你「AI 不完美」,而在於告訴你什麼時候該信任它、什麼時候該打斷它。對任何把 LLM 放進 production pipeline 的人來說,這是必修課。
以下是我的翻譯摘要(城武風)加上觀點。
兩種失敗模式
模式一:Committed Failure(鎖死型失敗)
模型在推理的早期階段就選了一條錯的路,然後「鎖死」在上面——後續產生的 token 全部沿著這個錯誤路徑展開。
論文發現一個關鍵的診斷信號叫 commitment point(承諾點)。過了這個點之後,你再多給模型幾個 token 去「思考」,不但沒幫助,反而讓失敗偵測變得更難。白話文:模型一旦鐵了心走錯,你給它更多運算資源只是讓它在錯的路上走更遠。
這種失敗模式的診斷策略是:在推理前半段就介入。 如果你能在 commitment point 之前偵測到不確定性異常上升,你有機會在模型「鎖死」之前打斷它。
模式二:Persistent Uncertainty(持續迷航型)
另一種失敗模式是模型從頭到尾都不確定。每一步的 uncertainty 都在穩定累積,沒有一個明顯的「轉折點」。
這種情況跟鎖死型剛好相反:你需要看完整個推理過程才能判斷它是成是敗——不能只靠前半段就下結論。模型不是突然走錯,是一直都沒有走對。
這種失敗模式的診斷策略是:給模型更多 token 預算,並在整個推理過程中持續監控不確定性。 如果在某個閾值以上持續太久,就標記為高風險。
實驗規模與可信度
論文在 23 組模型 × 資料集 的配置上驗證了這個框架,其中 20 組的可證偽預測都成立。這個數字遠超隨機機率(如果只是巧合,不可能 20/23),說明這兩種失敗模式是跨模型、跨任務的普遍現象。
更重要的是,論文不是只在實驗室裡自嗨——它進一步展示了這個框架的實用價值:
對 Self-Consistency 的啟發
Self-consistency 是目前最常用的提升 LLM 推理準確度的技巧之一:讓模型對同一個問題生成多條推理路徑,然後投票選出最一致的答案。
這篇論文指出:
- 對於鎖死型失敗,self-consistency 幫助有限——因為多條路徑可能都在同一個 commitment point 之後鎖死在類似的錯誤上
- 對於迷航型失敗,self-consistency 可以顯著改善——因為多條不確定的路徑投票後可能收斂到正確答案
換句話說:不應該對所有問題都無差別地使用 self-consistency。 先診斷失敗模式,再決定要不要多跑幾次。
城武觀點
1. 類型化比準確度更重要
這篇論文有趣的地方不是「LLM 會犯錯」——這誰都知道。有趣的是它把失敗類型化了。
知道模型是「鎖死型」還是「迷航型」,對實際應用的影響很大。比如你是一個用 LLM 做自動程式碼審查的系統:
- 如果是鎖死型失敗,你需要在推理前半段就介入打斷,而不是等它跑完才發現整段 code review 都是 nonsense
- 如果是迷航型失敗,你需要給模型更多 token 預算讓它想清楚,甚至觸發第二輪推理
2. 人類的對應
我讀這篇論文的時候一直在想一個問題:這兩種失敗模式跟人類的思考錯誤有沒有對應關係?
人類也會鎖死在錯誤假設上(心理學叫「確認偏誤」),也會從頭到尾都不確定(「決策疲勞」)。如果 LLM 的失敗模式跟人類相似,那我們是不是可以用認知心裡學的工具來設計更好的 LLM 推理策略?
說不定下一步的研究方向不是「讓 LLM 更聰明」,而是「讓 LLM 知道什麼時候它正在變笨」——就像人類需要 metacognition(後設認知)來監控自己的思考品質。
3. 實際應用:什麼時候該信任 LLM 的推理?
這篇論文給了一個很務實的框架:
- 如果你的任務是有明確對錯答案的(數學、邏輯、程式碼),鎖死型失敗的風險最高——建議在推理前半段就加入人工或自動化檢查點
- 如果你的任務是開放式、需要探索的(寫作、腦力激盪、策略規劃),迷航型失敗比較常見——建議給模型多一點 token 預算,並用 self-consistency 做交叉驗證
城武的未解檔案——我們拆的不只是論文,是 AI 的大腦。