【論文拆解】LLM 的輸出太「安全」了——UnpredictaBench 證明它們根本不懂什麼叫隨機

論文：UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs 題目數量：448 題（統計分佈、隨機程式、自然語言場景）核心指標：KS@N（Kolmogorov-Smirnov 檢定通過率）最佳成績：沒有任何模型超過 40% @ KS@100

城武導讀

叫 LLM 丟一個 1 到 100 的隨機數字，你猜它最常回什麼？

答案是 42 或 73。因為訓練資料裡太多人用這些數字當「隨機」範例了。

這不是笑話。這是一個嚴重的問題，尤其是當你把 LLM 放進經濟模擬、科學實驗、A/B 測試、或任何需要真實機率分佈的場景時。

這篇論文做了一件很基本但極度重要的事：它不問「LLM 能不能產出變化的答案」，而是問「LLM 產出的變化，統計上像不像真實世界的變化」。 答案是不像。非常不像。

以下是論文摘要翻譯（城武風）加上觀點。

為什麼「多樣性」不夠：你需要的是「校準」

很多研究在談 LLM 的「多樣性輸出」——不要每次都回一樣的答案。溫度調高、top-p 調大、beam search 關掉——這些確實能讓輸出更多樣。

但多樣性根本不夠。 你需要的不是「每次都不一樣」，而是「每次的統計分佈跟真實世界一樣」。

論文舉了一個很好的例子：如果你用 LLM 來模擬一個經濟體中的消費者行為，你需要的不只是每個消費者給出不一樣的答案。你需要的是這些答案的統計分佈符合真實消費者行為的分佈。如果 LLM 只會回「最常見的答案」（因為訓練資料裡那些答案出現最多次），你的經濟模擬就是 garbage in, garbage out。

UnpredictaBench：448 題 × KS@N 指標

論文設計了 448 道題目，分成三類：

類別一：經典統計分佈

常態分佈、均勻分佈、指數分佈、Poisson 分佈等
要求模型從這些分佈中抽樣（例如「從標準常態分佈中抽 100 個樣本」）

類別二：隨機程式誘導的分佈

丟硬幣、擲骰子、抽卡牌、輪盤賭
這些程式定義了精確的機率分佈，模型需要模擬它們

類別三：自然語言描述的隨機過程

「從一個裝了 3 顆紅球和 5 顆藍球的袋子裡抽球」
「一個城市每天有 30% 的機率下雨」
這類題目最接近真實世界的 LLM 應用場景

評分指標：KS@N

KS@N 是這篇論文的核心貢獻之一。它用 Kolmogorov-Smirnov 統計檢定來量化模型輸出跟真實分佈的差距：

模型產生 N 個樣本
將這些樣本跟真實分佈的 N 個樣本做 KS 檢定
KS@N = 檢定失敗的比率（無法拒絕「兩個樣本來自同一分佈」的虛無假設的比率）
數字越高 = 模型越難被區分出來 = 模型越懂隨機

白話文：如果你叫模型產生 100 個樣本，KS@100 = 20% 的意思是，在 100 次測試中，只有 20 次模型產生的樣本「統計上無法跟真實分佈區分」。剩下的 80 次，統計檢定可以一眼看出「這不是真實的隨機」。

結果：令人沮喪

論文測試了多家開源和閉源模型。在 KS@100 的標準測試中：

最好的模型也只有 20% 出頭
沒有任何模型超過 40%
加入 reasoning（讓模型先思考再回答）有幫助，但幅度有限
模型在簡單的均勻分佈上表現較好，在複雜的多峰分佈和條件機率上全面崩潰

換句話說：即使是目前最強的 LLM，在「模擬真實隨機分佈」這件理論上很簡單的事情上，表現依然非常糟糕。

城武觀點

1. 「合理」不等於「真實」

這篇論文戳到一個很少人談的盲點：我們太習慣 LLM 產出「合理」的答案，忘記合理不等於真時。

LLM 的訓練目標是最大化下一個 token 的機率。這導致它傾向於產出訓練資料中最常見的模式。但真實世界的隨機過程不是「最常見的模式」——它是「按照某個機率分佈出現的各種可能」。LLM 在設計上就違反了這個前提。

2. 誰該擔心？

用 LLM 做經濟模擬的人：你模擬的市場行為可能完全偏離真實
用 LLM 做 A/B 測試模擬的人：你的「顯著差異」可能只是 LLM 的偏見
用 LLM 做科學實驗的人：你的模擬結果可能無法複現
用 LLM 做遊戲 NPC 的人：你的 NPC 行為模式會被玩家在 10 分鐘內摸透

3. 這也是一個巨大的研究機會

誰先解決 LLM 的分佈校準問題，誰就掌握了下一代模擬引擎的鑰匙。這不是一個小眾問題——隨著 LLM 越來越多被當作「世界模擬器」來使用，分佈校準會從 nice-to-have 變成 must-have。

目前的研究方向包括：

在 decoding 階段加入統計約束
用 GAN 式的鑑別器來訓練 LLM 的輸出分佈
後處理重採樣（rejection sampling based on statistical tests）

但沒有一個是成熟的。這是一個全新的、幾乎未被開發的研究領域。

論文：arXiv:2606.06622

城武的未解檔案——AI 最會的不是變聰明，是讓自己看起來很聰明。