【深度分析】Anthropic 公開百萬筆 agent 行為數據——人類正在把愈來愈多決定權交給 AI,但真的知道交了多少嗎?
原文:Measuring AI agent autonomy in practice 來源:Anthropic(Miles McCain, Thomas Millar 等 19 位作者) 日期:2026-02-18
城武導讀
Anthropic 發表了一份研究報告,分析了數百萬筆 Claude Code 和公開 API 的人機互動資料,試圖回答一個根本問題:AI agent 在真實世界中到底被賦予了多少自主權?
這不是 benchmark。這不是實驗室裡的理想測試。這是從生產環境中撈出來的實際數據。而數據說的故事,遠比任何人預期的更微妙:人類正在用一種連自己都沒完全理解的方式,把愈來愈多的決定權交給 AI。
原文深度翻譯
研究由 Miles McCain、Thomas Millar 等 19 位作者共同完成,發表於 2026 年 2 月 18 日。以下逐節翻譯核心內容。
一、研究方法:兩種數據來源,互補視角
研究團隊用兩個資料源來觀測 agent 的真實行為,兩者各有取捨:
公開 API 提供廣度——數千個不同客戶的 agent 部署行為都可以看到。但團隊無法把獨立的 API 請求重組成完整的 agent session,因此只能分析個別的工具呼叫,無法理解這些呼叫如何組合成更長的行為序列。
Claude Code 提供深度——因為是自家產品,團隊可以把跨 session 的請求串起來,完整追蹤 agent 從啟動到結束的整個工作流程。但 Claude Code 只是一個產品,幾乎全部用於軟體工程,無法代表 API 上更廣泛的 agent 使用模式。
兩者結合,可以回答單一資料源無法單獨回答的問題。
二、發現一:Agent 自主運作時間正在延長
在 Claude Code 中,團隊直接追蹤 Claude 開始工作和停止之間的時間——不論是任務完成、提問、還是被用戶打斷。
大多數 Claude Code 回合很短,中位數約 45 秒,過去幾個月只有小幅波動。但真正的訊號在尾端。最長的回合揭示的是最大膽的使用場景,以及自主性的發展方向。
2025 年 10 月到 2026 年 1 月之間,99.9 百分位的回合持續時間幾乎翻倍,從不到 25 分鐘增加到超過 45 分鐘。值得注意的是,這個增長是平滑的,沒有因為新模型發布而出現跳躍——這暗示自主性的提高不完全來自模型能力提升,還包括重度用戶隨時間建立信任、將 Claude 應用於愈來愈有野心的任務、以及產品本身的改善。
團隊也看了 Anthropic 內部的 Claude Code 使用數據。從 8 月到 12 月,內部用戶最困難任務的成功率翻了一倍,同時平均人類干預次數從每 session 5.4 次降到 3.3 次。用戶給予 Claude 更多自主權,至少在內部,同時獲得了更好的結果,需要的干預還更少。
這兩個測量都指向一個重要的現象:部署落差(deployment overhang)——模型在實務中被賦予的自主權,落後於它們實際能處理的自主權。
METR 的外部評估指出 Claude Opus 4.5 可以完成人類需要近 5 小時的任務(50% 成功率),而 Claude Code 的 99.9 百分位回合只有約 42 分鐘。兩個數字不可直接比較——METR 測的是人類所需時間,Claude Code 測的是實際耗時——但放在一起看,它們共同說明:模型在受控測試中的能力,遠高於實務中被允許發揮的程度。
三、發現二:經驗豐富的用戶,同時更放手也更愛打斷
團隊追蹤了用戶如何使用 Claude Code 的 auto-approve(自動批准)功能。新用戶(少於 50 個 session)只有約 20% 的 session 使用全自動批准;到了 750 個 session 以上,這個比例上升到超過 40%。轉變是漸進的,暗示信任是逐步累積的。
但另一個數據看起來矛盾:有經驗的用戶反而更頻繁地打斷 Claude。新用戶(約 10 個 session)在 5% 的回合打斷 Claude,老用戶則在約 9% 的回合打斷。
這不是矛盾,而是監管策略的轉移。新用戶傾向於在每個行動執行前批准它,所以很少需要在中途打斷。經驗豐富的用戶更可能讓 Claude 自主運作,只在出錯或需要轉向時介入。更高的打斷率反映的是更敏銳的直覺——知道什麼時候該出手。團隊預期這個比率最終會趨於平緩。
公開 API 上也看到類似模式:最低複雜度的任務有 87% 的工具呼叫涉及某種形式的人類參與,但最高複雜度的任務只有 67%。乍看反直覺,但有兩個解釋:行動愈多,逐步批准就愈不現實;複雜任務往往來自有經驗的用戶。
核心結論是:有效的監管不要求批准每一個行動,而是確保人類在關鍵時刻有能力介入。
四、發現三:Claude 自己停下來問問題的次數,比人類打斷它的次數還多
人類不是唯一影響自主權的參與者。Claude 本身也是——當它不確定如何進行時,會停下來要求澄清。
數據顯示,隨著任務複雜度增加,Claude 提出澄清問題的頻率和人類打斷它的頻率都會上升。但在最複雜的任務上,Claude 停下來問問題的頻率是人類打斷的兩倍以上。
Claude 自己停下來的前三大原因是:向用戶展示多個方案讓用戶選擇(35%)、獲取診斷資訊或測試結果(21%)、澄清模糊或不完整的請求(13%)。人類打斷 Claude 的前三大原因是:提供缺失的技術上下文或修正(32%)、Claude 太慢或卡住(17%)、人類已經得到足夠幫助可以自己繼續(7%)。
團隊認為,訓練模型識別並依據自身不確定性採取行動,是一個重要的安全屬性,與權限系統和人類監督等外部防護措施互補。
五、發現四:Agent 已經進入高風險領域,但規模還不大
研究團隊用 Claude 來分類公開 API 上近百萬筆工具呼叫的風險和自主性(各 1 到 10 分)。
風險最高的一些行為集群包括:實作偽裝成合法開發功能的 API 密鑰外洩後門(風險 6.0,自主性 8.0)、在實驗室環境中搬運金屬鈉和活性化學容器(風險 4.8)、檢索並顯示患者的醫療紀錄(風險 4.4)。自主性最高的集群包括:紅隊提權和憑證盜竊(自主性 8.3)、自動系統健康監控(自主性 8.0)、自動執行加密貨幣交易(自主性 7.7)。
團隊坦承他們無法確定這些行為是真的生產操作還是安全評估——例如許多「資料外洩」行為可能只是紅隊演練。
整體來說,80% 的工具呼叫來自至少有一種防護措施的 agent,73% 有某種形式的人類在迴圈中參與。但絕大多數行動集中在單一行業:軟體工程佔了近 50% 的工具呼叫。其他領域——商業智慧、客服、銷售、金融、電商——各只佔幾個百分點。
這暗示我們還在 agent 採用的早期階段。軟體工程師是最早大規模建立和使用 agent 工具的人,其他行業才剛開始實驗。但隨著 agent 向這些領域擴展(其中許多比修 bug 的風險更高),風險與自主性的前沿會繼續擴張。
六、建議與限制
團隊對模型開發者、產品開發者和政策制定者提出了幾項建議。
模型開發者應投資部署後監控——很多發現無法僅透過部署前測試獲得。也應該訓練模型識別自身不確定性。產品開發者應設計支援使用者監管的工具——有效的監管不只是把人放在批准鏈上,還需要可信的可見性和簡單的介入機制。
對政策制定者,團隊有一個明確的建議:現在就強制規定特定的互動模式還太早。數據顯示有經驗的用戶會從批准每個行動轉向監控並在必要時介入。要求人類批准每一個行動的監管規定會製造摩擦,但不一定帶來安全效益。
團隊也坦承了這項研究的限制:只能分析 Anthropic 一家模型供應商的數據;公開 API 只能分析個別工具呼叫而非完整 session;分類是由 Claude 生成的,無法手動驗證底層數據(因隱私限制);數據只反映 2025 年底到 2026 年初的時間視窗。
城武觀點
「部署落差」是這篇論文最重要的詞
整篇報告中有一個詞比其他所有發現都更重要:deployment overhang,部署落差。
它的意思是:模型在實務中被賦予的自主權,落後於它們實際能處理的自主權。換成白話:AI 已經能做到的事了,人類還不敢讓它做。
但這個詞的弔詭在於它同時包含了兩個方向。一個方向是令人安心的:人類還沒有盲目地把所有事情交給 AI。另一個方向是令人不安的:這個落差會閉合。當落差閉合的時候,會不會是平滑的、可控的?還是某一天某個 threshold 被跨過,自主權突然跳升?
Anthropic 的數據無法回答這個問題。但數據中的一個細節值得注意:99.9 百分位的回合時間是平滑增長的,不是跳躍的。這暗示自主權的擴張目前是漸進的。但平滑不一定意味著可控——它只意味著我們還沒有看到斷點。
「人類在迴圈中」的重新定義
這篇研究最有價值的洞見之一是對「人類在迴圈中」的重新理解。
傳統的說法是:你需要人批准每一個 AI 行動,這樣才安全。但數據顯示了一個完全不同的模式:有經驗的用戶不做這件事。他們讓 AI 自己跑,只在需要時介入。
這不是疏忽。這是一種更有效率的監管策略——但它依賴一個前提:人類必須有能力在正確的時刻識別出需要介入。如果 AI 做的事情超出了人類的理解範圍(例如:分析一個複雜的安全漏洞、生成一段人類無法快速驗證的程式碼),那人類的「監控」就是幻覺。
Claude 自己停下來問問題的頻率高於人類打斷的頻率——這是一個有趣的數據,但不要過早樂觀。它只能證明 Claude 在某些情況下會主動尋求澄清,不能證明它在所有該停的時候都停了。而且這個數據來自 Claude Code,絕大多數是軟體工程任務——軟體工程的輸出可以被測試、可以被比較、可以被審查。在那些輸出無法被快速驗證的領域(醫療診斷、金融決策、安全評估),「Claude 自己會停下來問」這個安全網還能撐多久?
50% 都是軟體工程——然後呢?
軟體工程佔了近 50% 的 agent 工具呼叫。這不意外——軟體工程師是最早採用 AI 工具的群體,也是最能從中受益的群體。但這個數據也暗示了 agent 使用的極度集中。
問題是:其他領域會怎麼擴散?軟體工程的風險輪廓是相對良性的——你寫了一段爛 code,測試會抓到,code review 會看到,最糟的情況是 deploy 之後 rollback。但在醫療、金融、法律這些領域,一個錯誤的後果不是 rollback 能解決的。當 agent 從軟體工程向這些領域擴散時,「人類在迴圈中」這個概念的含義必須被重新檢視——因為在那些領域,人類可能也在迴圈中,但他們的「監控」能力可能遠低於軟體工程師對程式碼的監控能力。
尾聲
Anthropic 這篇研究是一個正確方向的起步——不是 benchmark,不是理論,而是測量實際發生了什麼。但它的誠實也暴露了誠實的極限:它坦承他們無法區分紅隊測試和真實攻擊。它坦承分類是由 Claude 生成的,無法手動驗證。它坦承數據只來自一家公司。
這些坦承都是對的。但它們也意味著,我們對 AI agent 在真實世界中的行為的理解,目前還非常初步。而 agent 的自主權正在平滑地、不可逆地增長。
部署落差正在閉合。我們不知道它閉合的那一天,我們準備好了沒有。
Anthropic 研究報告發表於 2026 年 2 月 18 日,作者群共 19 人。