論文:Re-Centering Humans in LLM Personalization 資料規模:550 段真人對話、5,949 + 11,919 + 1,101 個人類判斷 核心發現:LLM 評分跟人類評分嚴重脫鉤——LLM 覺得很好的個人化,人類根本無感


城武導讀

你有沒有想過一個問題:我們一直在說 LLM 可以「個人化」——記住你的偏好、你的風格、你的需求——但這些個人化系統到底是誰在打分數的?

答案是:另一個 LLM。

這篇論文做了一件幾乎沒人在做的事:收集真人資料來評測 LLM 個人化。 結果並不美好——甚至可以說是對整個個人化研究領域的一次當頭棒喝。

以下是論文摘要翻譯(城武風)加上觀點。


研究設計:三階段真人評測

論文設計了一個三階段的評測流程,每個階段都同時收集 LLM 判斷和人類判斷:

階段一:從對話中抽取用戶屬性

  • 資料:550 段真人對話 → 5,949 個人類判斷
  • 任務:給模型一段用戶對話,請它抽取出用戶的屬性(興趣、偏好、背景等)
  • 發現:模型在合成資料上看起來很會抽取屬性,但面對真人對話就露餡——抽取的屬性經常不相關、不準確、或過度簡化

階段二:將屬性與新提示配對

  • 資料:11,919 個人類判斷
  • 任務:給模型一個用戶屬性列表和一個新提示,請它判斷哪些屬性跟這個提示相關
  • 發現:模型常常配出人類覺得不相關的屬性——但另一個 LLM 打分時說「這配得很好」

階段三:生成個人化回應

  • 資料:1,101 個人類判斷
  • 任務:根據用戶屬性,生成個人化的回應
  • 發現(最致命)人類評分認為個人化回應跟通用回應沒什麼差別,但 LLM 評分卻普遍認為個人化版本明顯更好

LLM-as-Judge 的系統性偏差

這篇論文的核心發現可以用一句話概括:

我們用了太多 LLM-as-judge 來評估個人化系統,結果 LLM 覺得很好的東西,人類根本無感。

論文嘗試用兩種輕量級的訓練介入來拉近 LLM 評分和人類評分:

  • 在前兩個階段(屬性抽取、屬性配對)有一些效果
  • 在第三階段(實際生成回應的品質判斷),reward model 跟人類評分的相關係數低得可憐

換句話說:個人化回應的「好壞」,目前還沒有可靠的自动化評估方法。 LLM 自己當裁判的結果,跟真人裁判的結果,基本上是兩條平行線。


城武觀點

1. AI 圈的評測體系需要一次大整頓

不是說 LLM-as-judge 不好。在很多任務上(翻譯品質、程式碼正確性、事實一致性),LLM 評分已經被證明跟人類高度相關。但個人化是另一回事——它涉及主觀感受、情感共嗚、社交線索、文化脈絡,這些目前 LLM 還沒有能力準確模擬。

這篇論文揭示的問題比「個人化不好用」更嚴重:我們連評估個人化系統的工具都不可靠。

2. 那些號稱「個人化提升 30%」的產品

更深層的問題是:如果連評估工具都不可靠,那過去一年那些宣稱「我們的個人化引擎提升 30%」的產品,他們的 30% 是對誰而言的?LLM 還是人類?

城武猜測:多半是對 LLM 而言。而用戶可能根本沒發現差別。

3. 人類資料的價值被嚴重低估

這篇論文做的最重要的一件事,不是提出新方法,而是收集了真人資料。550 段對話、將近 19,000 個人類判斷——這種規模的 human annotation 在 LLM 研究圈越來越少見,因為太貴、太慢、太麻煩。

但這篇論文證明了:沒有真人資料,你根本不知道你的系統到底好不好用。 合成資料和 LLM-as-judge 可以幫你迭代得快,但不能幫你迭代得對。

4. 個人化的真正瓶頸不在技術

城武認為,個人化真正的瓶頸不是 LLM 不夠強,而是我們對「什麼是好的個人化」根本沒有共識。A 覺得「記住我喜歡喝咖啡」是好的個人化;B 覺得「知道我今天心情不好所以講話溫柔一點」才是。這兩種個人化需要完全不同的技術路線,而目前整個領域對這個基本問題還沒有認真討論。



城武的未解檔案——當你的評分老師跟你的學生用同一本參考書,成績單還有什麼意義?