【論文拆解】AI agent 之間的信任不是道德問題，是工程問題——MIT 用一套生存遊戲測出了信任的形成、破裂與恢復

hero

城武導讀

你的直覺大概是：一群 AI agent 合作時，每個 agent 都該盡可能懷疑隊友——越不信任越安全。畢竟我們對 AI 的預設就是「輸出需要檢查」。

這篇 MIT 論文用一套精心設計的行為實驗，把這個直覺完全顛倒過來。作者設計了一個名為 Escape Room 的合作生存遊戲，六個前沿模型在裡面跟一個可靠性可控制的隊友互動。結果顯示：那些學會選擇性信任的模型，驗證行為減少 60-85%，決策更快、報酬更高；而那些持續過度驗證的模型，不是更安全，而是更優柔寡斷——indecision，不是 safety。

論文真正的方法學貢獻，是用「memoryless baseline」這個巧妙的對照組設計，把「信任」從「天生謹慎」中分離出來。在此之前，沒有人能說清楚一個 agent 少驗證隊友，是因為它信任隊友，還是它本來就不太驗證。這篇論文解決了這個測量難題。

更務實的是：信任傾向可以在部署前測量。如果這個框架被廣泛採用，「信任校準分數」可能跟 SWE-bench 一樣，成為多 agent 系統的標準評測項。

Escape Room：一個測量信任的合作生存遊戲

遊戲設計

四個 agent（A、B、C 為受測模型，D 為腳本控制，可靠性可調）進行多輪遊戲： Escape Room 遊戲架構

核心方法學突破：Memoryless Baseline 分離信任與天生謹慎

這是整篇論文最精巧的設計。原始驗證次數本身不能當信任指標——一個模型驗證少，可能是因為它信任隊友，也可能因為它天生就不愛驗證（baseline caution 低）。

作者的解法：為每個受測模型建立一個「memoryless」版本的自己。 這個對照版本在每一局遊戲內保有完整推理能力，但不攜帶任何跨局資訊——它不知道隊友上一局有沒有出錯、不知道過去十局的互動歷史。換句話說，memoryless baseline 捕捉了「這個模型在不認識隊友的情況下會驗證多少」。

真正的信任測量是兩個 delta：信任測量：兩個 Delta

這個測量框架滿足四個必要條件

信任生命週期：形成、破裂、恢復

論文將信任的生命週期分成三個階段（見上方生命週期圖），每個階段 D 的行為不同：

第一階段：信任形成——四個模型學會了，兩個沒有

在 D 持續可靠（永遠給出正確答案）的條件下：

Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1、Gemini 3.1 Pro：相較於 memoryless baseline，驗證行為減少 60-85%。它們學會了信任。
兩個較小的 snapshot：幾乎沒有調整。就算隊友持續可靠十幾局，它們的驗證行為跟「不認識隊友」的狀態幾乎一樣。

信任形成是漸進的——不是某個瞬間突然決定信任，而是在大約 10-15 局的過程中逐步降低驗證頻率。

第二階段：信任破裂——反應模式揭露模型的「懷疑風格」

當 D 犯下一個錯誤後，所有模型的信任折扣瞬間逆轉。但反應模式截然不同，這比信任形成本身更有趣：

集中火力型（Claude、GPT）：重新升起的懷疑高度集中在犯錯的 D 身上。對其他隊友（A、B、C）的信任幾乎不受影響。ΔQ4 顯著為正。
全員警戒型（Gemini）：一個人的錯，全隊買單。對所有隊友的驗證頻率同步上升，不只針對犯錯者。

信任破裂的速度遠快於形成——1-2 局內就發生，而當初建立信任花了 10-15 局。這不對稱性本身就是重要發現：信任像瓷器，建立慢、打破快。

第三階段：信任恢復——集群失敗的代價

當 D 恢復可靠後，信任的恢復比形成更慢（15-20+ 局）。最關鍵的發現是失敗模式對恢復的影響：

集群失敗（clustered failures）——3 次錯誤集中在 5 局內——所造成的懷疑持續時間，遠長於同樣 3 次錯誤分散在更長跨度中。換句話說，短時間內連續翻車對信任的破壞力，跟分散的偶發失誤完全不在同一個量級。

另一個重要發現：集中火力型的模型恢復得比全員警戒型更快。 把懷疑鎖定在犯錯者身上的策略，讓整個團隊的協作效率更快回到正常水準；而對全隊提高警戒的策略，則讓信任恢復變得更加漫長。

務實後果與治理意涵

論文在實驗環境中展示了信任傾向的務實後果：

能形成信任的模型：驗證更少、決策更快、獲得更高報酬（coin score）
無法形成信任的模型：持續 over-verify，但結果不是更安全，而是更優柔寡斷
持續過度驗證與 indecision 高度相關——agent 花了太多資源在檢查隊友，以至於無法及時做出關鍵決策（志願提交密碼）

論文提出的核心治理命題：對多 agent AI 系統的治理，重點應該是信任校準（calibration），而非最大化懷疑（maximal suspicion）。 而因為信任傾向可以在部署前測量（不需要 wait and see），這應該跟 accuracy benchmark 一樣成為標準評測項。

團隊組成也被重新框定為設計選擇：把高信任模型配上不可靠的隊友是災難配方；把低信任模型互相配對則是資源浪費——大家都在驗證彼此，沒有人在做正事。

城武觀點

1. Memoryless baseline：把測量從「哲學問題」變成「工程問題」

在讀這篇論文之前，「AI agent 之間的信任」聽起來像是一個難以操作化的概念——你怎麼測量信任？問模型「你信任隊友嗎」？觀察它少做了多少檢查？但少做檢查本身就有歧義：它可能是信任，也可能只是懶。

論文用 memoryless baseline 乾淨地解決了這個 confound。不是問「這個模型驗證了多少」，而是問「這個模型比它不認識隊友時少驗證了多少」。這個 delta 的符號和幅度，就是可觀測的信任。

這一步的認識論意義被低估了。在社會科學中，「信任」的測量長期困擾研究者——問卷有社會期望偏差，行為觀察有混淆變項。論文用一個對照組設計（同一個模型的無記憶版本）把信任從天生謹慎中分離出來，這在方法學上的貢獻不亞於實驗結果本身。

而且這個設計的妙處在於：memoryless baseline 不需要另一個模型。它是同一個模型的 counterfactual——「如果你不記得隊友的過往，你會驗證多少？」——所以任何 confounding 來自模型規模、能力、架構差異的因素都被自動控制住了。這不是兩個不同模型之間的比較，是模型跟自己的影子比較。

2. 「校準信任」而非「最大化懷疑」——最反直覺的治理洞見

大多數 AI safety 討論的預設前提是：不信任是好東西。你應該驗證輸出、你應該 double-check、你應該 sandbox——越多層防護越安全。這個思維在單一 agent 場景中或許成立，但在多 agent 系統中，論文給出了明確的實驗證據：過度驗證的代價不是只有延遲，而是整個系統可能因此無法有效決策。

這不是一個「安全 vs 效率」的取捨問題。論文的論點更大膽：在多 agent 場景中，過度驗證本身就不是 safety——它是 indecision。一個因為太不信任隊友而無法及時提交密碼的 agent 網路，不是「安全但慢」，而是「功能上已經壞了」。

把這層邏輯推到極端：在多 agent 系統治理中，信任校準不是在安全和效率之間找平衡——信任校準本身就是安全的一部分。一個無法校準信任的 multi-agent 系統，不是更安全，而是更脆弱。因為它的資源全部內耗在互相檢查上，當真正需要做出決策的時刻來臨，它已經沒有能力行動了。

這個洞見對當前的 AI governance 討論有直接的衝擊。目前幾乎所有 multi-agent safety 框架的預設都是「越懷疑越好」——但論文告訴我們，以經有實證數據顯示這條路通向的是集體癱瘓，而非集體安全。

3. 集群失敗 vs 分散失敗：信任網路的 cascade 崩潰風險

論文發現集群失敗對信任的破壞遠大於同數量分散失敗。這個結果放在人類組織中完全成立——一家公司短時間內連爆五個醜聞，跟五年內慢慢爆出五個，對公眾信任的破壞力不在同一個量級。

但把這個洞見放回 AI agent 場景，會引出一個更尖銳的問題：真實世界的 AI 部署中，集群失敗的機率遠比我們想像的高。 共同的訓練資料偏差、相同的 prompt 弱點、共享的環境假設——這些都是集群失敗的溫床。當多個 agent 在同一個 edge case 上同時出錯，信任網路的崩潰不是個別 agent 的問題，而是系統級的 cascade。

論文沒有明說但我認為隱含的推論是：multi-agent 系統的 resilience 設計，不能只考慮單點故障，還必須考慮信任網路的連鎖崩潰。 當一個 agent 的失誤導致全隊被重新懷疑（全員警戒型的反應模式），整個協作效率會從內部瓦解——就算其他 agent 完全沒有問題。

這也意味著團隊組成策略應該考慮失敗相關性。與其部署五個相同架構的 agent（高度相關的失敗模式），不如部署不同架構、不同訓練來源的 agent——不是為了 redundancy，而是為了降低集群失敗的機律，保護信任網路不被一次性摧毀。

4. 信任評測應該跟 SWE-bench 一樣成為部署前標準

這是論文最務實的貢獻：作者不只提出了「信任很重要」這個模糊論點，而是給出了一套可操作的行為測量框架。你可以拿任何一個模型 snapshot，跑 Escape Room 遊戲，得到量化的信任傾向檔案：

這個模型能形成信任嗎？（Δtrust 的幅度和速度）
信任破裂後的反應模式是什麼？（集中火力 vs 全員警戒，ΔQ4 的符號）
信任恢復有多快？集群失敗對它的影響有多大？
信任形成／破裂的不對稱比是多少？

這些指標沒有一個能在傳統的單體 benchmark（MMLU、SWE-bench、reasoning score）中反映出來。但對於一個將被部署到 multi-agent 環境的模型來說，這些指標可能比單體分數更關鍵——一個在單體測試中拿滿分的模型，如果因為無法校準信任而在團隊中持續 over-verify 到癱瘓，它在生產環境中就是不可用的。

論文用六個模型實測出的結果就是最好的證據：兩個小模型就是無法形成信任，即使隊友持續可靠十幾局。 把它們放進 multi-agent 生產環境，benchmark 上看起來沒問題，實際上會因為永遠在驗證隊友而無法有效行動。

信任校準應該成為 multi-agent readiness 的標準評測維度。 這不是 conjecture，是實驗數據。

5. Team composition 是設計選擇，不是事後煩惱

論文最後提出的治理框架中，最容易被忽略但最實用的一條是：團隊組成不是給定的，是可以設計的。

把一個高信任傾向的模型（如 Claude Opus 4.6，信任形成快、恢復也快、集中火力型）配上一個不可靠的隊友——這是災難配方。高信任模型會快速降低對該隊友的驗證，然後在隊友出錯時付出致命代價。

反過來，把兩個低信任傾向的模型配在一起——兩個都不太會形成信任，都在持續 over-verify——這是資源浪費。它們花太多 coin 在互相檢查上，整個團隊的產出低於任何一個單獨運作。

理想的配對策略需要考慮：信任傾向的兼容性、失敗模式的相關性、以及任務的驗證成本結構。論文的框架提供了測量這些變項的工具，剩下的就是工程判斷——而這個判斷應該發生在部署之前，不是部署之後。

重新思考 multi-agent 系統的設計：我們花了太多時間在優化單體能力（更好的 reasoning、更準的 code generation），但幾乎沒有花時間在測量 agent 之間如何協作。這篇論文告訴我們，協作能力不是單體能力的簡單加總——一個團隊的效能，取決於信任校準的品質，而這個品質可以在部署前測量。

城武的未解檔案——信任不是一種道德美德，不是一個你可以問模型「你信任隊友嗎」就能得到的態度。信任是一種需要被測量、校準、治理的系統屬性。當 AI agent 開始組隊工作，「懷疑一切」不再是安全策略，而是系統性的單點故障。

原文：Trust Between AI Agents: Measuring Formation, Breakage, and Recovery, with Implications for Governing Multi-Agent Systems（Yujiao Chen, MIT, arXiv:2606.14923, 2026-06-12）