【論文拆解】LLM 推論失敗的 Token 級指紋：模型不是亂錯，是「頑固地錯」——而且有跡可循

論文：How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures 作者：Tanvi Thoria, Kiana Jafari, Marc R. Schlichting, Mykel J. Kochenderfer（Stanford）來源：arXiv（2026-06）

城武導讀

LLM 會犯錯，這不是新聞。但這篇論文問了一個更深的問題：模型犯錯的時候，是「亂錯一通」還是「有特定模式地錯」？如果是有模式地錯，那我們能不能在它錯到一半的時候就發現——而不是等最後結果出來才傻眼？

答案是：有模式。而且有兩種截然不同的失敗模式，每一種都在 token 層級留下了可辨識的「指紋」。這不只是一篇學術論文——對於任何在 production 中使用 LLM 的人來說，理解這兩種失敗模式可以幫你省下大量的除錯時間。

兩種失敗模式

論文透過分析 23 組模型-資料集配置，識別出兩種截然不同的推理失敗：

模式一：Committed Failure（鎖定型失敗）

模型在推理過程的早期就鎖定了一條錯誤路徑。一旦過了某個「承諾點」（commitment point），模型就再也回不了頭——後面再多 tokens 都是在幫倒忙，不只沒有幫助，反而讓偵測失敗變得更難。

關鍵發現：過了承諾點之後，加入更多 tokens 傷害失敗偵測。這非常反直覺——我們通常覺得「多想一下」會更好，但對於鎖定型失敗，「多想」其實是在幫錯誤找更多理由。

模式二：Persistent Uncertainty（持續不確定性）

不確定性不是集中在某一點，而是整段推理都在累積。模型從頭到尾都沒有鎖定任何結論——它在多個可能性之間搖擺。這種情況下，你需要完整的推理軌跡才能最好地區分成功和失敗。

關鍵發現：對於這種模式，只看前面幾個 tokens 沒用——不確定性是在整段推理中累積的，需要全貌。

實驗結果：23 組中有 20 組驗證

論文提出了可證偽的預測（falsifiable predictions）——也就是說，他們的理論可以被實驗推翻。結果：在 23 組模型-資料集配置中，20 組符合預測，遠高於隨機水平。

這說明了兩件事：

這兩種失敗模式不是特例，是跨模型、跨資料集的普遍現象
理論有預測力——不是「事後諸葛亮」式的解釋

對 Self-Consistency 的啟示

論文進一步展示了這些失敗模式對 self-consistency（多數投票）的直接影響：

某些情況下，不確定性訊號可以補充 self-consistency（讓它更準）
其他情況下，self-consistency 可以跳過——因為不確定性訊號本身已經足夠判斷

這意味著：與其無差別地對所有輸出做多數投票（浪費 token），不如先判斷失敗模式，再決定要不要啟動 self-consistency。

城武觀點

1. 「承諾點」的概念太重要了

如果你做過 LLM 應用的 debug，你一定遇過這種情況：模型前幾句看起來非常合理、邏輯嚴密、引用精確——然後突然開始胡說八道。但你回頭看，前面那些「看起來很合理」的部分其實已經種下了錯誤的種子。

Commitment point 的概念給了我們一個方向：如果我們能在模型「鎖定」錯誤路徑之前介入（比如調整溫度、強制重新取樣、注入提示），也許可以防止整段推理崩潰。 這比等到最後再靠 self-consistency 補救有效率得多。

2. 不確定性不只是 bug，是訊號

我們習慣把 LLM 的不確定性當成問題來解決（用更多運算、更大模型來消除它）。但這篇論文提醒我們：不確定性本身就是一個有價值的訊號——它告訴你「這段推理可能不可靠」。擁抱不確定性、用它來決策，比假裝它不存在更有智慧。

3. 實務應用：偵測時的策略選擇

在實際部署中，這篇論文的結論可以變成一個簡單的決策樹：

if 早期 token 不確定性高 + 後期鎖定 → Committed Failure → 考慮 early abort + retry
if 整段不確定性持續累積 → Persistent Uncertainty → 用 self-consistency / 增加 sampling
if 不確定性低 + early convergence → 可能是成功案例 → 直接使用

這比現在主流的「跑完 → self-consistency → 投票」聰明得多。

4. 限制：23 組配置還不夠多

雖然 20/23 的驗證率令人印象深刻，但 23 組配置離「通用法則」還有一段距離。不同模型架構（dense vs MoE）、不同推理任務（數學 vs 邏輯 vs 程式碼）可能有不同的失敗模式。這是個很好的開始，但不要急著把它當成萬用框架。

論文：arXiv 2606.06635

城武的未解檔案——模型的錯不是隨機的，它像人類一樣有自己的「錯誤習慣」。理解這些習慣，是駕馭 AI 的第一步。