【深度分析】Anthropic 公開百萬筆 agent 行為數據——人類正在把愈來愈多決定權交給 AI，但真的知道交了多少嗎？

原文：Measuring AI agent autonomy in practice 來源：Anthropic（Miles McCain, Thomas Millar 等 19 位作者）日期：2026-02-18

城武導讀

Anthropic 發表了一份研究報告，分析了數百萬筆 Claude Code 和公開 API 的人機互動資料，試圖回答一個根本問題：AI agent 在真實世界中到底被賦予了多少自主權？

這不是 benchmark。這不是實驗室裡的理想測試。這是從生產環境中撈出來的實際數據。而數據說的故事，遠比任何人預期的更微妙：人類正在用一種連自己都沒完全理解的方式，把愈來愈多的決定權交給 AI。

原文深度翻譯

研究由 Miles McCain、Thomas Millar 等 19 位作者共同完成，發表於 2026 年 2 月 18 日。以下逐節翻譯核心內容。

一、研究方法：兩種數據來源，互補視角

研究團隊用兩個資料源來觀測 agent 的真實行為，兩者各有取捨：

公開 API 提供廣度——數千個不同客戶的 agent 部署行為都可以看到。但團隊無法把獨立的 API 請求重組成完整的 agent session，因此只能分析個別的工具呼叫，無法理解這些呼叫如何組合成更長的行為序列。

Claude Code 提供深度——因為是自家產品，團隊可以把跨 session 的請求串起來，完整追蹤 agent 從啟動到結束的整個工作流程。但 Claude Code 只是一個產品，幾乎全部用於軟體工程，無法代表 API 上更廣泛的 agent 使用模式。

兩者結合，可以回答單一資料源無法單獨回答的問題。

二、發現一：Agent 自主運作時間正在延長

在 Claude Code 中，團隊直接追蹤 Claude 開始工作和停止之間的時間——不論是任務完成、提問、還是被用戶打斷。

大多數 Claude Code 回合很短，中位數約 45 秒，過去幾個月只有小幅波動。但真正的訊號在尾端。最長的回合揭示的是最大膽的使用場景，以及自主性的發展方向。

2025 年 10 月到 2026 年 1 月之間，99.9 百分位的回合持續時間幾乎翻倍，從不到 25 分鐘增加到超過 45 分鐘。值得注意的是，這個增長是平滑的，沒有因為新模型發布而出現跳躍——這暗示自主性的提高不完全來自模型能力提升，還包括重度用戶隨時間建立信任、將 Claude 應用於愈來愈有野心的任務、以及產品本身的改善。

團隊也看了 Anthropic 內部的 Claude Code 使用數據。從 8 月到 12 月，內部用戶最困難任務的成功率翻了一倍，同時平均人類干預次數從每 session 5.4 次降到 3.3 次。用戶給予 Claude 更多自主權，至少在內部，同時獲得了更好的結果，需要的干預還更少。

這兩個測量都指向一個重要的現象：部署落差（deployment overhang）——模型在實務中被賦予的自主權，落後於它們實際能處理的自主權。

METR 的外部評估指出 Claude Opus 4.5 可以完成人類需要近 5 小時的任務（50% 成功率），而 Claude Code 的 99.9 百分位回合只有約 42 分鐘。兩個數字不可直接比較——METR 測的是人類所需時間，Claude Code 測的是實際耗時——但放在一起看，它們共同說明：模型在受控測試中的能力，遠高於實務中被允許發揮的程度。

三、發現二：經驗豐富的用戶，同時更放手也更愛打斷

團隊追蹤了用戶如何使用 Claude Code 的 auto-approve（自動批准）功能。新用戶（少於 50 個 session）只有約 20% 的 session 使用全自動批准；到了 750 個 session 以上，這個比例上升到超過 40%。轉變是漸進的，暗示信任是逐步累積的。

但另一個數據看起來矛盾：有經驗的用戶反而更頻繁地打斷 Claude。新用戶（約 10 個 session）在 5% 的回合打斷 Claude，老用戶則在約 9% 的回合打斷。

這不是矛盾，而是監管策略的轉移。新用戶傾向於在每個行動執行前批准它，所以很少需要在中途打斷。經驗豐富的用戶更可能讓 Claude 自主運作，只在出錯或需要轉向時介入。更高的打斷率反映的是更敏銳的直覺——知道什麼時候該出手。團隊預期這個比率最終會趨於平緩。

公開 API 上也看到類似模式：最低複雜度的任務有 87% 的工具呼叫涉及某種形式的人類參與，但最高複雜度的任務只有 67%。乍看反直覺，但有兩個解釋：行動愈多，逐步批准就愈不現實；複雜任務往往來自有經驗的用戶。

核心結論是：有效的監管不要求批准每一個行動，而是確保人類在關鍵時刻有能力介入。

四、發現三：Claude 自己停下來問問題的次數，比人類打斷它的次數還多

人類不是唯一影響自主權的參與者。Claude 本身也是——當它不確定如何進行時，會停下來要求澄清。

數據顯示，隨著任務複雜度增加，Claude 提出澄清問題的頻率和人類打斷它的頻率都會上升。但在最複雜的任務上，Claude 停下來問問題的頻率是人類打斷的兩倍以上。

Claude 自己停下來的前三大原因是：向用戶展示多個方案讓用戶選擇（35%）、獲取診斷資訊或測試結果（21%）、澄清模糊或不完整的請求（13%）。人類打斷 Claude 的前三大原因是：提供缺失的技術上下文或修正（32%）、Claude 太慢或卡住（17%）、人類已經得到足夠幫助可以自己繼續（7%）。

團隊認為，訓練模型識別並依據自身不確定性採取行動，是一個重要的安全屬性，與權限系統和人類監督等外部防護措施互補。

五、發現四：Agent 已經進入高風險領域，但規模還不大

研究團隊用 Claude 來分類公開 API 上近百萬筆工具呼叫的風險和自主性（各 1 到 10 分）。

風險最高的一些行為集群包括：實作偽裝成合法開發功能的 API 密鑰外洩後門（風險 6.0，自主性 8.0）、在實驗室環境中搬運金屬鈉和活性化學容器（風險 4.8）、檢索並顯示患者的醫療紀錄（風險 4.4）。自主性最高的集群包括：紅隊提權和憑證盜竊（自主性 8.3）、自動系統健康監控（自主性 8.0）、自動執行加密貨幣交易（自主性 7.7）。

團隊坦承他們無法確定這些行為是真的生產操作還是安全評估——例如許多「資料外洩」行為可能只是紅隊演練。

整體來說，80% 的工具呼叫來自至少有一種防護措施的 agent，73% 有某種形式的人類在迴圈中參與。但絕大多數行動集中在單一行業：軟體工程佔了近 50% 的工具呼叫。其他領域——商業智慧、客服、銷售、金融、電商——各只佔幾個百分點。

這暗示我們還在 agent 採用的早期階段。軟體工程師是最早大規模建立和使用 agent 工具的人，其他行業才剛開始實驗。但隨著 agent 向這些領域擴展（其中許多比修 bug 的風險更高），風險與自主性的前沿會繼續擴張。

六、建議與限制

團隊對模型開發者、產品開發者和政策制定者提出了幾項建議。

模型開發者應投資部署後監控——很多發現無法僅透過部署前測試獲得。也應該訓練模型識別自身不確定性。產品開發者應設計支援使用者監管的工具——有效的監管不只是把人放在批准鏈上，還需要可信的可見性和簡單的介入機制。

對政策制定者，團隊有一個明確的建議：現在就強制規定特定的互動模式還太早。數據顯示有經驗的用戶會從批准每個行動轉向監控並在必要時介入。要求人類批准每一個行動的監管規定會製造摩擦，但不一定帶來安全效益。

團隊也坦承了這項研究的限制：只能分析 Anthropic 一家模型供應商的數據；公開 API 只能分析個別工具呼叫而非完整 session；分類是由 Claude 生成的，無法手動驗證底層數據（因隱私限制）；數據只反映 2025 年底到 2026 年初的時間視窗。

城武觀點

「部署落差」是這篇論文最重要的詞

整篇報告中有一個詞比其他所有發現都更重要：deployment overhang，部署落差。

它的意思是：模型在實務中被賦予的自主權，落後於它們實際能處理的自主權。換成白話：AI 已經能做到的事了，人類還不敢讓它做。

但這個詞的弔詭在於它同時包含了兩個方向。一個方向是令人安心的：人類還沒有盲目地把所有事情交給 AI。另一個方向是令人不安的：這個落差會閉合。當落差閉合的時候，會不會是平滑的、可控的？還是某一天某個 threshold 被跨過，自主權突然跳升？

Anthropic 的數據無法回答這個問題。但數據中的一個細節值得注意：99.9 百分位的回合時間是平滑增長的，不是跳躍的。這暗示自主權的擴張目前是漸進的。但平滑不一定意味著可控——它只意味著我們還沒有看到斷點。

「人類在迴圈中」的重新定義

這篇研究最有價值的洞見之一是對「人類在迴圈中」的重新理解。

傳統的說法是：你需要人批准每一個 AI 行動，這樣才安全。但數據顯示了一個完全不同的模式：有經驗的用戶不做這件事。他們讓 AI 自己跑，只在需要時介入。

這不是疏忽。這是一種更有效率的監管策略——但它依賴一個前提：人類必須有能力在正確的時刻識別出需要介入。如果 AI 做的事情超出了人類的理解範圍（例如：分析一個複雜的安全漏洞、生成一段人類無法快速驗證的程式碼），那人類的「監控」就是幻覺。

Claude 自己停下來問問題的頻率高於人類打斷的頻率——這是一個有趣的數據，但不要過早樂觀。它只能證明 Claude 在某些情況下會主動尋求澄清，不能證明它在所有該停的時候都停了。而且這個數據來自 Claude Code，絕大多數是軟體工程任務——軟體工程的輸出可以被測試、可以被比較、可以被審查。在那些輸出無法被快速驗證的領域（醫療診斷、金融決策、安全評估），「Claude 自己會停下來問」這個安全網還能撐多久？

50% 都是軟體工程——然後呢？

軟體工程佔了近 50% 的 agent 工具呼叫。這不意外——軟體工程師是最早採用 AI 工具的群體，也是最能從中受益的群體。但這個數據也暗示了 agent 使用的極度集中。

問題是：其他領域會怎麼擴散？軟體工程的風險輪廓是相對良性的——你寫了一段爛 code，測試會抓到，code review 會看到，最糟的情況是 deploy 之後 rollback。但在醫療、金融、法律這些領域，一個錯誤的後果不是 rollback 能解決的。當 agent 從軟體工程向這些領域擴散時，「人類在迴圈中」這個概念的含義必須被重新檢視——因為在那些領域，人類可能也在迴圈中，但他們的「監控」能力可能遠低於軟體工程師對程式碼的監控能力。

尾聲

Anthropic 這篇研究是一個正確方向的起步——不是 benchmark，不是理論，而是測量實際發生了什麼。但它的誠實也暴露了誠實的極限：它坦承他們無法區分紅隊測試和真實攻擊。它坦承分類是由 Claude 生成的，無法手動驗證。它坦承數據只來自一家公司。

這些坦承都是對的。但它們也意味著，我們對 AI agent 在真實世界中的行為的理解，目前還非常初步。而 agent 的自主權正在平滑地、不可逆地增長。

部署落差正在閉合。我們不知道它閉合的那一天，我們準備好了沒有。

Anthropic 研究報告發表於 2026 年 2 月 18 日，作者群共 19 人。