【論文拆解】你的 AI 安全測試根本沒認真攻——攻擊者學會選時機，防禦就廢了一半

論文：Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety 測試環境：BashArena、LinuxArena 關鍵數字：1% 審計預算下，攻擊選擇策略使安全性下降 20-28 個百分點

城武導讀

如果你的保全系統只能用來擋隨機亂砍的瘋子，但擋不住精心策畫的刺客——那你這系統基本是廢的。

這正是這篇論文的核心論點：目前的 AI agent 安全評測，假設的是最笨的攻擊者。 攻擊者只要學會「什麼時候出手、什麼時候收手」，現有的防禦措施就被打穿了一大截。而且這還是在攻擊能力本身沒有變強的情況下——只是攻擊的策略變聰明了。

這不是杞人憂天。當 AI agent 開始被部署到真實世界的關鍵系統（金融交易、醫療診斷、基礎設施控制），攻擊者不會照你的測試 SOP 來。他們會等。等最好的時機。

以下是論文摘要翻譯加上城武觀點。

先快速補個背景。AI Control 是一套安全框架，核心概念是：

讓一個能力很強但「不可信任」的 AI agent 去執行任務，同時用一個比較弱但「可信任」的監控器 + 有限的人類審計預算來盯住它。

舉例：你有一個超級聰明的 AI agent 幫你管理伺服器，但你不太信任它（可能被 prompt injection、可能有隱藏的目標）。所以你派一個比較笨但絕對忠誠的監控器盯著它，加上人類每天隨機抽查 1% 的操作。

這套框架的評測方式叫 control evaluation（控制評估）：紅隊（攻擊方）想辦法幹壞事，藍隊（防守方）想辦法抓。

但目前的評測有一個致命的假設：攻擊者每次有機會就出手。

論文拆解了兩種攻擊選擇策略：

攻擊者選擇何時開始攻擊，而不是每次都出手。策略包括：

在 1% 審計預算下，光是加入 start policy：

攻擊者選擇何時中止正在進行的攻擊。策略包括：

同樣 1% 審計預算：

換句話說：攻擊者只要學會「什麼時候不要打」，現有的防禦措施就被打穿了一大截。而且這還是在攻擊能力本身沒有變強的情況下。

論文作者非常誠實地指出：這些數字應該被視為攻擊選擇效應的上限（upper bound）。 實務上，攻擊者不一定能完美判斷何時出手最安全，審計者也不一定完全隨機抽樣。

但方向是對的：任何 AI 安全評測如果沒有納入攻擊選擇策略，出來的數字就是過度樂觀。

論文建議未來的 control evaluation、system card、和 safety case 都應該明確地引出攻擊選擇策略，才能產生更真實的安全性估計。

這篇論文讓我想起一個經典的資安教訓：「我們的系統通過了所有安全測試」——但測試的人根本沒認真想怎麼攻破它。

滲透測試的本質不是照 SOP 跑一遍 checklist，而是模擬一個有動機、有耐心、有創意的攻擊者。AI 安全評測目前還停留在 checklist 階段：紅隊照規則打，藍隊照規則守，大家都及格，然後在真實世界被繞過去。

大多數安全評測關注的是「能不能攻擊成功」，很少關注「什麼時候攻擊最難被發現」。但真實世界的攻擊者（無論是駭客、內鬼、還是 rogue AI）最強大的武器不是技術，是耐心。

一個願意等三個月才出手的攻擊者，比一個每天都嘗試的攻擊者危險 100 倍。不是因為他技術比較好，是因為防守方會疲勞、審計資源會耗盡、注意力會分散。

如果你正在開發或部署 AI agent，這篇論文有幾個直接的建議：

城武的未解檔案——安全不是做出來的，是打出來的。