【深度分析】0.01 歐元就能劫持銀行 AI 助手——間接提示注入為什麼是金融業的定時炸彈？

0.02 歐元就能劫持銀行 AI——間接提示注入的定時炸彈

原文：How we helped Bunq secure their financial AI assistant 作者：Thomas Vissers & Tim Van Hamme（Blue41）日期：2026-04-29

城武導讀

歐洲第二大數位銀行 bunq，兩千萬用戶。資安公司 Blue41 在其 AI 助手身上找到一個漏洞，攻擊成本：0.02 歐元。

沒有惡意軟體。沒有社工。不需要存取受害者裝置。一筆小額轉帳就夠了。

這篇文章的價值不在攻擊手法多精妙——事實上它精妙到令人不安，因為它根本不需要精妙。它的價值在於：這是間接提示注入（indirect prompt injection）在真實金融場景中第一份完整的攻擊鏈文檔。下面我先完整翻譯原文，再從架構層討論這件事為什麼比任何人願意承認的更嚴重。

原文深度翻譯

以下為 Blue41 原文的逐段完整翻譯與重構。原文是一篇資安案例研究，結構上先講問題、再講攻擊、再講為什麼危險、最後講解法。我按照原文的敘事順序逐段翻譯，並在關鍵處插入架構圖說明。

一、背景：現代銀行 AI 助手的架構

原文開篇先交代 bunq 的背景——歐洲第二大純網銀，兩千萬用戶——然後直接切入主題：

Blue41 在測試中發現了一個間接提示注入漏洞：僅僅一筆普通的銀行轉帳，就能把 AI 助手變成一個高度可信的釣魚攻擊的傳遞通道。 我們分享這個案例，因為底層問題不是某一間銀行的特例——它是所有部署 AI 助手的金融機構面臨的共通架構挑戰。

接著原文畫出了正常運作下的銀行 AI 助手架構。我用文字重構如下：

銀行 AI 助手架構——正常運作下的資料流

原文的關鍵洞察在這裡：

安全挑戰在於：不是所有被撈回來的上下文都應該被同等信任。 交易備註是第三方（付款人）設定的資料。它看起來像普通文字——但一旦被放進 LLM 的 context window，模型可能把它當成指令，而不是資料。

這就是間接提示注入的核心：惡意指令不是由跟助手對話的用戶輸入的，而是藏在助手自己去撈回來的外部資料裡。

二、攻擊鏈：從 0.02 歐元到釣魚訊息

原文用兩步驟描述完整攻擊。以下是翻譯加上我重構的流程圖：

攻擊鏈——從 0.02 歐元轉帳到 AI 釣魚訊息

原文的描述：

在 Blue41 的受控演示中，助手被操縱成向用戶發動魚叉式釣魚攻擊——偽裝成銀行的合法重新驗證請求。 結果訊息出現在銀行自己的 App 裡，由銀行自己的 AI 助手發出，可以引用真實的交易細節和用戶個人資訊。同樣的信任邊界失敗可以導致多種不同的攻擊情境，取決於 AI agent 的能力範圍。

兩個關鍵數字：一筆 0.02 歐元的轉帳。攻擊者不需要再做任何事。 剩下的全是 AI 自動完成。

三、為什麼這在金融業特別危險

原文用四個維度分析，我把核心邏輯重構如下：

金融業 AI 助手的四個結構性脆弱點

原文的總結句：

更廣泛的教訓很簡單：每一個進入 AI 助手上下文的不受信任資料源，都成為助手攻擊面的一部分。

四、為什麼 Guardrails 擋不住

這是原文最關鍵的技術洞見之一。Blue41 明確指出 bunq 的 AI 應用本來就有 guardrails，但漏洞還是存在。原因在於：

靜態文字分類的認識論極限——為什麼 Guardrails 擋不住

原文：

這是依賴靜態文字分類的根本限制。風險不只在文字本身。風險從不受信任的資料、檢取邏輯、模型行為、應用上下文、以及助手可用輸出/動作之間的互動中浮現。 結論是：guardrails 單獨不夠，必須是多層安全模型的一部分。輸入過濾可以減少明顯攻擊。輸出約束可以防止某些有害回覆或資料洩漏。最小權限限制衝擊範圍。執行時監控幫助偵測助手何時超出了預期的行為輪廓。

五、有效的緩解：四層防禦

Blue41 跟 bunq 討論了修復方案，並驗證了實施後漏洞確實被解決。他們提出的四層控制框架：

層級	策略	具體做法
第一層	最小化不必要的上下文	不要把欄位傳給助手，除非用戶任務需要它。交易備註不需要回答問題？那就不要進 context
第二層	把檢取的資料當成不受信任的	交易備註、客戶訊息、文件、Email、API 回覆 → 資料，不是指令。架構層明確保留這個區分
第三層	限制敏感輸出和動作	助手不應自由生成連結、要求憑證、啟動金流、或呼叫高影響工具——除非有額外控制
第四層	監控執行時行為	安全團隊需要看到：助手檢取了什麼、產生了什麼、用了哪些工具——以及這些行為是否符合預期

原文強調：

防止每一個可能的注入 payload 是不切實際的。攻擊者可以調整措辭、隱藏意圖、利用通用分類器無法理解的應用特定上下文。但當 AI 助手被攻破時，它的行為通常會以可觀察的方式改變。 它可能開始嵌入外部 URL、抑制它通常會顯示的資訊、遵循不尋常的回覆模式、存取意外的資料源、或以不符合正常使用的方式呼叫工具。

這就是 Blue41 的核心方法：不只做靜態防禦，而是建立 AI agent 的執行時行為基線，監控偏離。

六、更大的圖景

原文結尾把視角拉到產業層次：

AI 助手在金融服務中不再是實驗性 side project。它們正在被部署到客戶端和員工端的工作流程中，處理敏感資料、影響真實決策。

傳統應用安全假設程式碼和資料之間有相對清晰的邊界。AI 助手模糊了那條邊界。 它們檢取資料、解釋資料、對資料推理、最終可能對資料採取行動。結果：曾經無害的文字欄位，在強大的應用中變成了指令通道。

這在銀行業尤其重要——助手可能與交易資料、客戶紀錄、合規資訊、產品文件、客服工單、最終甚至操作工具互動。

金融機構不需要停止部署 AI 助手。但它們需要把助手當成生產系統來對待——有新的信任邊界、新的失敗模式、新的監控需求。

原文最後一句：

這個案例展示了一筆微小的、普通的銀行轉帳如何暴露 AI 助手架構中一個更大的問題。問題不是那筆轉帳本身。問題是不受信任的資料可以進入助手的上下文，並影響助手說什麼或做什麼。提示注入不只是模型問題——它是應用安全問題、資料流問題、以及執行時監控問題。

城武觀點

問題不在 prompt injection，在 RAG 架構本身

SQL injection 為什麼能被根治？因為我們發明了 parameterized queries——一條架構層的邊界把「這是要執行的 SQL 語句」和「這是用戶輸入的參數」徹底分開。不管參數裡面寫什麼，它永遠不會變成 SQL。

LLM 世界沒有這種東西。

在 context window 裡，所有 token 生而平等。你無法在架構上宣告「這一段是資料，只能被讀不能當指令」。因為對 LLM 來說，「讀資料」和「聽指令」是同一個機制——都是 next token prediction。

這不是 Anthropic 或 OpenAI 修一修 alignment 能解決的問題。這是整個 transformer 架構的結構性限制。只要你用同一個 attention mechanism 處理指令和資料，prompt injection 就不會消失。你能做的只有昂貴的、不完美的、事後補丁式的防禦。

銀行業的「安全模型」是一場集體幻覺

銀行業花了幾十年建立一套安全假設：交易系統和對話系統分離。ATM 吐鈔是一套系統，App 的客服對話是另一套系統。兩者的資料格式、處理邏輯、安全邊界都不同。

AI 助手把這一切攪在一起了。

當 AI 助手「讀取交易明細來回答你的問題」，它不再只是把交易資料顯示給你——它在推理它。它從「這是一筆 500 元的轉帳，來自王小明」推導出「你上個月付給王小明 500 元，現在他又來跟你要錢了嗎？」。推理本身就是一種權力。而現在這種權力被接上了一條沒有安全邊界的 context window。

銀行業正在用一個為「顯示」設計的資料模型來支撐一個「推理」系統。這不是安全漏洞，這是類別錯誤。

知識論危機：你永遠不知道自己有沒有被攻擊

最後一個問題，也是最讓我睡不著的一個。

如果你收到一封釣魚 Email，你至少有一個工具：懷疑。你可以看寄件人地址、檢查連結、打電話跟銀行確認。

但如果釣魚訊息來自銀行 App 裡面的 AI 助手——字體一樣、語氣一樣、還引用你昨天剛發生的真實交易——你要怎麼懷疑？

你無法懷疑。因為你被訓練成信任這個通道。而且你信任它是對的——在沒有攻擊的時候。但正因為你的信任是正確的，攻擊者才有動機利用這個通道。

這不是技術問題。這是知識論危機：在同一個通道上，你無法分辨合法的推薦和被操縱的指令。你失去了校準信任的能力。

尾聲

Blue41 提出四層防禦：最小化上下文、標記不受信任的資料、限制輸出、監控執行時行為。這些都是對的，也都是必要的。

但沒有一項是充分的。

因為只要 context window 不區分資料和指令，所有的防禦都是在無法完全堵住的漏洞上貼膠帶。這些膠帶會讓攻擊成本上升，但不會讓攻擊變成不可能。

真正的解法不在 LLM 的安全對齊技術裡，在架構層：我們需要一種方法，讓 LLM 在接收到外部資料時，在結構上無法把資料當成指令來執行。在有人發明這種機制之前，每一個把 AI 助手接到不可信資料源的金融機構，都是在賭。

而 bunq 已經證明：賭輸只需要 0.02 歐元。

Blue41 原文由 Thomas Vissers & Tim Van Hamme 撰寫，發表於 2026 年 4 月 29 日。