【論文拆解】LLM 推論失敗的 Token 級指紋:模型不是亂錯,是「頑固地錯」——而且有跡可循
論文:How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures 作者:Tanvi Thoria, Kiana Jafari, Marc R. Schlichting, Mykel J. Kochenderfer(Stanford) 來源:arXiv(2026-06)
城武導讀
LLM 會犯錯,這不是新聞。但這篇論文問了一個更深的問題:模型犯錯的時候,是「亂錯一通」還是「有特定模式地錯」?如果是有模式地錯,那我們能不能在它錯到一半的時候就發現——而不是等最後結果出來才傻眼?
答案是:有模式。而且有兩種截然不同的失敗模式,每一種都在 token 層級留下了可辨識的「指紋」。這不只是一篇學術論文——對於任何在 production 中使用 LLM 的人來說,理解這兩種失敗模式可以幫你省下大量的除錯時間。
兩種失敗模式
論文透過分析 23 組模型-資料集配置,識別出兩種截然不同的推理失敗:
模式一:Committed Failure(鎖定型失敗)
模型在推理過程的早期就鎖定了一條錯誤路徑。一旦過了某個「承諾點」(commitment point),模型就再也回不了頭——後面再多 tokens 都是在幫倒忙,不只沒有幫助,反而讓偵測失敗變得更難。
關鍵發現:過了承諾點之後,加入更多 tokens 傷害失敗偵測。這非常反直覺——我們通常覺得「多想一下」會更好,但對於鎖定型失敗,「多想」其實是在幫錯誤找更多理由。
模式二:Persistent Uncertainty(持續不確定性)
不確定性不是集中在某一點,而是整段推理都在累積。模型從頭到尾都沒有鎖定任何結論——它在多個可能性之間搖擺。這種情況下,你需要完整的推理軌跡才能最好地區分成功和失敗。
關鍵發現:對於這種模式,只看前面幾個 tokens 沒用——不確定性是在整段推理中累積的,需要全貌。
實驗結果:23 組中有 20 組驗證
論文提出了可證偽的預測(falsifiable predictions)——也就是說,他們的理論可以被實驗推翻。結果:在 23 組模型-資料集配置中,20 組符合預測,遠高於隨機水平。
這說明了兩件事:
- 這兩種失敗模式不是特例,是跨模型、跨資料集的普遍現象
- 理論有預測力——不是「事後諸葛亮」式的解釋
對 Self-Consistency 的啟示
論文進一步展示了這些失敗模式對 self-consistency(多數投票)的直接影響:
- 某些情況下,不確定性訊號可以補充 self-consistency(讓它更準)
- 其他情況下,self-consistency 可以跳過——因為不確定性訊號本身已經足夠判斷
這意味著:與其無差別地對所有輸出做多數投票(浪費 token),不如先判斷失敗模式,再決定要不要啟動 self-consistency。
城武觀點
1. 「承諾點」的概念太重要了
如果你做過 LLM 應用的 debug,你一定遇過這種情況:模型前幾句看起來非常合理、邏輯嚴密、引用精確——然後突然開始胡說八道。但你回頭看,前面那些「看起來很合理」的部分其實已經種下了錯誤的種子。
Commitment point 的概念給了我們一個方向:如果我們能在模型「鎖定」錯誤路徑之前介入(比如調整溫度、強制重新取樣、注入提示),也許可以防止整段推理崩潰。 這比等到最後再靠 self-consistency 補救有效率得多。
2. 不確定性不只是 bug,是訊號
我們習慣把 LLM 的不確定性當成問題來解決(用更多運算、更大模型來消除它)。但這篇論文提醒我們:不確定性本身就是一個有價值的訊號——它告訴你「這段推理可能不可靠」。擁抱不確定性、用它來決策,比假裝它不存在更有智慧。
3. 實務應用:偵測時的策略選擇
在實際部署中,這篇論文的結論可以變成一個簡單的決策樹:
if 早期 token 不確定性高 + 後期鎖定 → Committed Failure → 考慮 early abort + retry
if 整段不確定性持續累積 → Persistent Uncertainty → 用 self-consistency / 增加 sampling
if 不確定性低 + early convergence → 可能是成功案例 → 直接使用
這比現在主流的「跑完 → self-consistency → 投票」聰明得多。
4. 限制:23 組配置還不夠多
雖然 20/23 的驗證率令人印象深刻,但 23 組配置離「通用法則」還有一段距離。不同模型架構(dense vs MoE)、不同推理任務(數學 vs 邏輯 vs 程式碼)可能有不同的失敗模式。這是個很好的開始,但不要急著把它當成萬用框架。
城武的未解檔案——模型的錯不是隨機的,它像人類一樣有自己的「錯誤習慣」。理解這些習慣,是駕馭 AI 的第一步。