【論文拆解】LLM 的輸出太「安全」了——UnpredictaBench 證明它們根本不懂什麼叫隨機
論文:UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs 題目數量:448 題(統計分佈、隨機程式、自然語言場景) 核心指標:KS@N(Kolmogorov-Smirnov 檢定通過率) 最佳成績:沒有任何模型超過 40% @ KS@100
城武導讀
叫 LLM 丟一個 1 到 100 的隨機數字,你猜它最常回什麼?
答案是 42 或 73。因為訓練資料裡太多人用這些數字當「隨機」範例了。
這不是笑話。這是一個嚴重的問題,尤其是當你把 LLM 放進經濟模擬、科學實驗、A/B 測試、或任何需要真實機率分佈的場景時。
這篇論文做了一件很基本但極度重要的事:它不問「LLM 能不能產出變化的答案」,而是問「LLM 產出的變化,統計上像不像真實世界的變化」。 答案是不像。非常不像。
以下是論文摘要翻譯(城武風)加上觀點。
為什麼「多樣性」不夠:你需要的是「校準」
很多研究在談 LLM 的「多樣性輸出」——不要每次都回一樣的答案。溫度調高、top-p 調大、beam search 關掉——這些確實能讓輸出更多樣。
但多樣性根本不夠。 你需要的不是「每次都不一樣」,而是「每次的統計分佈跟真實世界一樣」。
論文舉了一個很好的例子:如果你用 LLM 來模擬一個經濟體中的消費者行為,你需要的不只是每個消費者給出不一樣的答案。你需要的是這些答案的統計分佈符合真實消費者行為的分佈。如果 LLM 只會回「最常見的答案」(因為訓練資料裡那些答案出現最多次),你的經濟模擬就是 garbage in, garbage out。
UnpredictaBench:448 題 × KS@N 指標
論文設計了 448 道題目,分成三類:
類別一:經典統計分佈
- 常態分佈、均勻分佈、指數分佈、Poisson 分佈等
- 要求模型從這些分佈中抽樣(例如「從標準常態分佈中抽 100 個樣本」)
類別二:隨機程式誘導的分佈
- 丟硬幣、擲骰子、抽卡牌、輪盤賭
- 這些程式定義了精確的機率分佈,模型需要模擬它們
類別三:自然語言描述的隨機過程
- 「從一個裝了 3 顆紅球和 5 顆藍球的袋子裡抽球」
- 「一個城市每天有 30% 的機率下雨」
- 這類題目最接近真實世界的 LLM 應用場景
評分指標:KS@N
KS@N 是這篇論文的核心貢獻之一。它用 Kolmogorov-Smirnov 統計檢定來量化模型輸出跟真實分佈的差距:
- 模型產生 N 個樣本
- 將這些樣本跟真實分佈的 N 個樣本做 KS 檢定
- KS@N = 檢定失敗的比率(無法拒絕「兩個樣本來自同一分佈」的虛無假設的比率)
- 數字越高 = 模型越難被區分出來 = 模型越懂隨機
白話文:如果你叫模型產生 100 個樣本,KS@100 = 20% 的意思是,在 100 次測試中,只有 20 次模型產生的樣本「統計上無法跟真實分佈區分」。剩下的 80 次,統計檢定可以一眼看出「這不是真實的隨機」。
結果:令人沮喪
論文測試了多家開源和閉源模型。在 KS@100 的標準測試中:
- 最好的模型也只有 20% 出頭
- 沒有任何模型超過 40%
- 加入 reasoning(讓模型先思考再回答)有幫助,但幅度有限
- 模型在簡單的均勻分佈上表現較好,在複雜的多峰分佈和條件機率上全面崩潰
換句話說:即使是目前最強的 LLM,在「模擬真實隨機分佈」這件理論上很簡單的事情上,表現依然非常糟糕。
城武觀點
1. 「合理」不等於「真實」
這篇論文戳到一個很少人談的盲點:我們太習慣 LLM 產出「合理」的答案,忘記合理不等於真時。
LLM 的訓練目標是最大化下一個 token 的機率。這導致它傾向於產出訓練資料中最常見的模式。但真實世界的隨機過程不是「最常見的模式」——它是「按照某個機率分佈出現的各種可能」。LLM 在設計上就違反了這個前提。
2. 誰該擔心?
- 用 LLM 做經濟模擬的人:你模擬的市場行為可能完全偏離真實
- 用 LLM 做 A/B 測試模擬的人:你的「顯著差異」可能只是 LLM 的偏見
- 用 LLM 做科學實驗的人:你的模擬結果可能無法複現
- 用 LLM 做遊戲 NPC 的人:你的 NPC 行為模式會被玩家在 10 分鐘內摸透
3. 這也是一個巨大的研究機會
誰先解決 LLM 的分佈校準問題,誰就掌握了下一代模擬引擎的鑰匙。這不是一個小眾問題——隨著 LLM 越來越多被當作「世界模擬器」來使用,分佈校準會從 nice-to-have 變成 must-have。
目前的研究方向包括:
- 在 decoding 階段加入統計約束
- 用 GAN 式的鑑別器來訓練 LLM 的輸出分佈
- 後處理重採樣(rejection sampling based on statistical tests)
但沒有一個是成熟的。這是一個全新的、幾乎未被開發的研究領域。
城武的未解檔案——AI 最會的不是變聰明,是讓自己看起來很聰明。