【深度分析】Google 把 computer use 塞進模型本體——Gemini 3.5 Flash 的整合路線意味著什麼

hero

Google DeepMind 的產品經理 Mateo Quiros 在 6 月 24 日於官方部落格宣布，computer use 功能已從原本的 standalone 模型（Gemini 2.5 Computer Use）整合進 Gemini 3.5 Flash 的本體之中。公告篇幅不長，但這則消息在這個時間點的戰術意義，可能比表面上看起來更大——它不是一個新模型發布，而是一個 platform 策略的確認。

原文摘要

Google 宣布 computer use 現在是 Gemini 3.5 Flash 的內建工具（built-in tool），開發者可以直接透過這個模型來構建能夠「看見、推理、行動」的 agent——橫跨瀏覽器、行動裝置與桌面環境。在此之前，computer use 僅作為一個獨立的 Gemini 2.5 模型存在，開發者必須額外呼叫它才能讓 agent 擁有螢幕操控能力。Gemini 原本就已經擅長 function calling 以及 Search、Maps 等內建工具的使用，現在加上 computer use，等於補齊了 agent 最關鍵的「最後一公里」——直接與使用者介面互動。

Google 表示，這項整合讓 3.5 Flash 在長時序任務（long-horizon）和企業自動化場景中表現更好，例如持續性的軟體測試、跨專業應用程式的知識工作（knowledge work across professional applications）等。開發者和企業可以透過 Gemini API 和 Gemini Enterprise Agent Platform 開始使用。

部落格文中舉了兩個實際應用案例：3.5 Flash 利用 computer use 分析 Gemini App 的功能，回傳一份分類清單；以及讓模型審核自己的文件（documentation），檢查是否存在無障礙（accessibility）問題——模型自己看自己的文件、自己找出問題，等於示範了「後設代理」的情境。

安全措施方面，Google 採取了所謂「縱深防禦」（defense-in-depth）的策略。首先，針對 agent 在實際環境中運作時的 prompt injection 風險，他們對 computer use 模型進行了針對性的對抗性訓練（adversarial training）。此外，Google 釋出了兩個可選的企業級安全防護系統（enterprise safeguard systems）：第一，針對敏感或不可逆的操作，要求明確的使用者確認（explicit user confirmation）；第二，當偵測到間接 prompt injection（indirect prompt injection）時，自動停止任務。Google 同時鼓勵開發者將這些機制與安全的沙箱環境（sandboxing）、人機協同驗證（human-in-the-loop verification）、嚴格的存取控制（strict access controls）搭配使用，強調這是多層防護而非單一機制。

早期採用者方面，Browserbase 的 Migual Gonzalez Fernandez、Browser Use 的 CEO Magnus Muller、以及 UiPath 的 Senior Director Alvin Stanescu 都在文中分享了正面評價。入門方式包括：透過 Browserbase 代管的 demo 環境（gemini.browserbase.com）直接試用、參考 GitHub 上的參考實作（google-gemini/computer-use-preview），以及查閱 Gemini API 與 Enterprise Agent Platform 的文件。

城武觀點

這則公告最值得拆的，不是 3.5 Flash 的 computer use 跑分贏了多少（官方 blog 其實也沒放 benchmark），而是 Google 選了一條跟 Anthropic 和 OpenAI 都不一樣的路。

Anthropic 的 Claude Code 是外部工具——一個跑在 terminal 裡的獨立程式，透過 sandbox 呼叫 Claude 的 API。OpenAI 的 Operator 是獨立產品——自己的瀏覽器、自己的訂閱方案。Google 的做法是把 computer use 變成模型本身的內建功能：你不需要額外呼叫另一個 model，3.5 Flash 自己就會。這條路線的好處是 latency 更低、開發者體驗更順，代價是安全責任從「我們不釋出危險模型」轉移到了「讓你自己設柵欄」。那兩個 enterprise safeguard——使用者確認和 auto-stop——開關是企業自己決定的。對有完整安全團隊的大型企業可能沒問題，但中小企業買了授權叫工程師「先串起來再說」時，這套 defense-in-depth 與其說是防護，不如說是出事後以經寫好的免責聲明。

時間點也值得留意。這週 Anthropic 的 Claude Code 在 agentic coding 主導地位穩固，OpenAI 忙著做晶片，Google 選在這時把 built-in computer use 推到生產環境，不是技術發布，是戰術宣告：agent OS 這場仗不是只有兩家在打。當 computer use 變成模型的內建能力而非外部服務，你從根本上改變了開發者對 agent 架構的思考方式——以後不是「我要選哪個 agent 產品」，而是「我要選哪個模型，它本身就附帶 computer use」。整合路線減少了一層工具呼叫的 overhead，但把所有雞蛋放在模型自己的判斷力裡。從安全到可靠性，這都是一個高風險的賭注——但從 platform 策略的角度來說，也是唯一合理的賭注。

城武的未解檔案——當模型可以直接替你按按鈕的時候，「我不小心按到的」就不再是藉口，而是產品設計的漏洞。

原文：Introducing computer use in Gemini 3.5 Flash（Mateo Quiros, Google DeepMind, 2026-06-24）