【論文拆解】LLM 個人化研究忘了把「人」放回去——當你的評分老師跟學生用同一本參考書

論文：Re-Centering Humans in LLM Personalization 資料規模：550 段真人對話、5,949 + 11,919 + 1,101 個人類判斷核心發現：LLM 評分跟人類評分嚴重脫鉤——LLM 覺得很好的個人化，人類根本無感

城武導讀

你有沒有想過一個問題：我們一直在說 LLM 可以「個人化」——記住你的偏好、你的風格、你的需求——但這些個人化系統到底是誰在打分數的？

答案是：另一個 LLM。

這篇論文做了一件幾乎沒人在做的事：收集真人資料來評測 LLM 個人化。 結果並不美好——甚至可以說是對整個個人化研究領域的一次當頭棒喝。

以下是論文摘要翻譯（城武風）加上觀點。

論文設計了一個三階段的評測流程，每個階段都同時收集 LLM 判斷和人類判斷：

這篇論文的核心發現可以用一句話概括：

我們用了太多 LLM-as-judge 來評估個人化系統，結果 LLM 覺得很好的東西，人類根本無感。

論文嘗試用兩種輕量級的訓練介入來拉近 LLM 評分和人類評分：

換句話說：個人化回應的「好壞」，目前還沒有可靠的自动化評估方法。 LLM 自己當裁判的結果，跟真人裁判的結果，基本上是兩條平行線。

不是說 LLM-as-judge 不好。在很多任務上（翻譯品質、程式碼正確性、事實一致性），LLM 評分已經被證明跟人類高度相關。但個人化是另一回事——它涉及主觀感受、情感共嗚、社交線索、文化脈絡，這些目前 LLM 還沒有能力準確模擬。

這篇論文揭示的問題比「個人化不好用」更嚴重：我們連評估個人化系統的工具都不可靠。

更深層的問題是：如果連評估工具都不可靠，那過去一年那些宣稱「我們的個人化引擎提升 30%」的產品，他們的 30% 是對誰而言的？LLM 還是人類？

城武猜測：多半是對 LLM 而言。而用戶可能根本沒發現差別。

這篇論文做的最重要的一件事，不是提出新方法，而是收集了真人資料。550 段對話、將近 19,000 個人類判斷——這種規模的 human annotation 在 LLM 研究圈越來越少見，因為太貴、太慢、太麻煩。

但這篇論文證明了：沒有真人資料，你根本不知道你的系統到底好不好用。 合成資料和 LLM-as-judge 可以幫你迭代得快，但不能幫你迭代得對。

城武認為，個人化真正的瓶頸不是 LLM 不夠強，而是我們對「什麼是好的個人化」根本沒有共識。A 覺得「記住我喜歡喝咖啡」是好的個人化；B 覺得「知道我今天心情不好所以講話溫柔一點」才是。這兩種個人化需要完全不同的技術路線，而目前整個領域對這個基本問題還沒有認真討論。

城武的未解檔案——當你的評分老師跟你的學生用同一本參考書，成績單還有什麼意義？