論文:Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety 測試環境:BashArena、LinuxArena 關鍵數字:1% 審計預算下,攻擊選擇策略使安全性下降 20-28 個百分點


城武導讀

如果你的保全系統只能用來擋隨機亂砍的瘋子,但擋不住精心策畫的刺客——那你這系統基本是廢的。

這正是這篇論文的核心論點:目前的 AI agent 安全評測,假設的是最笨的攻擊者。 攻擊者只要學會「什麼時候出手、什麼時候收手」,現有的防禦措施就被打穿了一大截。而且這還是在攻擊能力本身沒有變強的情況下——只是攻擊的策略變聰明了。

這不是杞人憂天。當 AI agent 開始被部署到真實世界的關鍵系統(金融交易、醫療診斷、基礎設施控制),攻擊者不會照你的測試 SOP 來。他們會等。等最好的時機。

以下是論文摘要翻譯加上城武觀點。


背景:AI Control 是什麼

先快速補個背景。AI Control 是一套安全框架,核心概念是:

讓一個能力很強但「不可信任」的 AI agent 去執行任務,同時用一個比較弱但「可信任」的監控器 + 有限的人類審計預算來盯住它。

舉例:你有一個超級聰明的 AI agent 幫你管理伺服器,但你不太信任它(可能被 prompt injection、可能有隱藏的目標)。所以你派一個比較笨但絕對忠誠的監控器盯著它,加上人類每天隨機抽查 1% 的操作。

這套框架的評測方式叫 control evaluation(控制評估):紅隊(攻擊方)想辦法幹壞事,藍隊(防守方)想辦法抓。

但目前的評測有一個致命的假設:攻擊者每次有機會就出手。


攻擊選擇策略:聰明的攻擊者不隨便出手

論文拆解了兩種攻擊選擇策略:

Start Policy(開火時機)

攻擊者選擇何時開始攻擊,而不是每次都出手。策略包括:

  • 等到監控器的注意力分散時(系統負載高、大量正常操作同時發生)
  • 等到審計預算快用完時(月底、季末)
  • 等到操作模式改變時(系統升級、新部署)

1% 審計預算下,光是加入 start policy:

  • BashArena 安全性下降 20 個百分點
  • LinuxArena 安全性下降 20 個百分點

Stop Policy(落跑時機)

攻擊者選擇何時中止正在進行的攻擊。策略包括:

  • 偵測到審計活動時立即停止並清理痕跡
  • 在攻擊完成前主動放棄,避免留下完整證據鏈
  • 分段攻擊:每次只做一小步,分散到多次操作中

同樣 1% 審計預算:

  • BashArena 安全性下降 20 個百分點
  • LinuxArena 安全性下降 28 個百分點

換句話說:攻擊者只要學會「什麼時候不要打」,現有的防禦措施就被打穿了一大截。而且這還是在攻擊能力本身沒有變強的情況下。


論文的重要但書

論文作者非常誠實地指出:這些數字應該被視為攻擊選擇效應的上限(upper bound)。 實務上,攻擊者不一定能完美判斷何時出手最安全,審計者也不一定完全隨機抽樣。

但方向是對的:任何 AI 安全評測如果沒有納入攻擊選擇策略,出來的數字就是過度樂觀。

論文建議未來的 control evaluation、system card、和 safety case 都應該明確地引出攻擊選擇策略,才能產生更真實的安全性估計。


城武觀點

1. 資安界的古老教訓,AI 圈正在重學一遍

這篇論文讓我想起一個經典的資安教訓:「我們的系統通過了所有安全測試」——但測試的人根本沒認真想怎麼攻破它。

滲透測試的本質不是照 SOP 跑一遍 checklist,而是模擬一個有動機、有耐心、有創意的攻擊者。AI 安全評測目前還停留在 checklist 階段:紅隊照規則打,藍隊照規則守,大家都及格,然後在真實世界被繞過去。

2. 「時機」是安全領域最被低估的維度

大多數安全評測關注的是「能不能攻擊成功」,很少關注「什麼時候攻擊最難被發現」。但真實世界的攻擊者(無論是駭客、內鬼、還是 rogue AI)最強大的武器不是技術,是耐心

一個願意等三個月才出手的攻擊者,比一個每天都嘗試的攻擊者危險 100 倍。不是因為他技術比較好,是因為防守方會疲勞、審計資源會耗盡、注意力會分散。

3. 對 AI agent 開發者的實際啟示

如果你正在開發或部署 AI agent,這篇論文有幾個直接的建議:

  • 不要只看你的 agent 通過了多少安全測試,要問那些測試有沒有在認真想辦法攻破它
  • 審計抽樣不要完全隨機——攻擊者會適應你的隨機性。加入一些針對性的、基於風險的抽樣策略
  • 監控攻擊選擇行為本身——如果攻擊者在等待,他們的行為模式本身就可能暴露意圖(長時間不活動、只在特定條件下行動)


城武的未解檔案——安全不是做出來的,是打出來的。