【深度分析】AI agent 正在吃掉白領工作——OpenAI 內部數據告訴你這件事的規模有多大

Hero

OpenAI 在 2026 年 6 月 25 日發表了一篇經濟研究論文《How agents are transforming work》，以自家產品 Codex 的內部使用數據，描繪了一幅 agent 取代 chatbot 成為知識工作核心工具的詳細圖譜。這篇報告的數字很漂亮——80.6% 的用戶用過超過 30 分鐘的 agent 任務、25.6% 用過超過 8 小時的任務、99th percentile 用戶每天跑 60 小時 agent——但這些數據全部來自 OpenAI 內部，而 OpenAI 的員工是地球上最會用 AI 的一群人。這份數據對其他人有意義嗎？城武帶你拆解。

原文摘要

2025 年 8 月，OpenAI 的 Codex 正式公開。但最初幾個月，即使在公司內部，大多數員工仍然把 ChatGPT 當作主要 AI 工具——平均每人只有不到 10% 的 token 消耗花在 Codex 上。一年之後，情況完全翻轉。從工程部門開始，Legal、Finance、Recruiting 等非技術部門也在 2026 年 4 月前後陸續過渡到以 Codex 為主要 AI 工具。到今天，OpenAI 內部平均每個員工的 output token 有超過 85% 來自 Codex；若以總消耗量計算，Codex 佔了 OpenAI 每週 output token 的 99.8%。

這份報告歸納了四個趨勢：

第一，人們用 agent 處理更長時間跨度的工作。 到 2026 年 5 月，抽樣的個體用戶中有 80.6% 至少執行過一次估計需要超過 30 分鐘人工作業量的 Codex 任務，70.2% 執行過超過 1 小時的任務，25.6% 執行過超過 8 小時的任務。其中，8 小時以上任務的使用者增長速度最快——從低基數快速爬升。這些時長是透過 LLM-as-judge 模型估算的，原文在註腳中承認這只是方向性估計而非精確數字。

第二，Agent 正在做更難、更長的工作。 從 2025 年 12 月到 2026 年 5 月，Codex 的單日運行時長急遽成長。在 OpenAI 的每日活躍用戶中，99th percentile 的用戶每天產生超過 60 小時的 Codex agent turns——因為他們同時跑多個平行 agent。使用者從「一次只問一個答案」轉變為「一天內編排多個 agent 任務的協作」。

第三，非開發者的採用速度遠超過開發者。 這是報告中最值得關注的趨勢。從 2025 年 8 月到 2026 年 6 月，非開發者個體用戶增長了 137 倍，非開發者組織用戶增長了 189 倍，OpenAI 內部的非開發者用戶增長了 12 倍（後者基數較高所以倍數較小）。報告特別註明：這不代表每個非開發者都像工程師一樣寫 code，而是更多非開發者正在用 Codex 做某種 agentic work。

第四，Codex 讓員工能跨出職位描述做更多事。 報告中的一個關鍵數據表顯示「職業 vs. 實際工作內容」的對比：在 Business Function 部門（財務、營運、行銷）的員工用 Codex 完成的工作中，有超過四分之一是工程/程式設計——這些是他們原本無法獨立完成的工作。Data Science/Research 部門用 Codex 做的工程類工作比例更高達 51%。Agent 降低了跨越工作邊界的成本，讓員工可以做原本需要專業技術支援的相鄰工作。

從部門間的增長來看，過去六個月 OpenAI 內部各部門的 Codex 使用量急遽上升。Research 部門的中位數使用量是去年 11 月的 56 倍，Customer Support 為 32 倍，Engineering 為 27 倍，Legal 為 13 倍。

報告中還有一個跨部門的使用對照表。Engineering 部門的 token 產出中有 72% 屬於工程/程式設計類工作，4% 屬於資料分析，1% 財務分析，18% 知識工作，5% 其他。Data Science/Research 部門的分布是 51% 工程/程式設計、10% 資料分析、30% 知識工作。Finance/Biz Ops 則有 31% 工程/程式設計、9% 資料分析、16% 財務分析、34% 知識工作。

報告結尾的論點以經很清楚：非工程師使用 agent 工具的增加，擴大了這些工作者能夠完成的任務前沿。這對企業重新設計工作流程、員工學習哪些技能更有價值、政策制定者與研究人員理解 AI 如何改變勞動市場，都具有深遠意義。

城武觀點

先說結論：這份報告的數字我相信是真的，但它的故事只講了一半——而且刻意選了比較好看的那一半。

第一個問題是數據的代表性。80.6% 用戶用過超過 30 分鐘任務、25.6% 用過超過 8 小時任務——這些 headline 數字來自 OpenAI 內部員工的數據。但 OpenAI 的員工不是普通白領。他們是全世界最懂 AI 的一群人，每天跟 GPT 和 Codex 生活在一起，公司文化就是「用 AI 先於用傳統工具」。把他們的數據當成「未來趨勢」來讀，就像拿 SpaceX 工程師的火箭操作經驗來預測普通人開車的未來——有意義，但不能直接套用。報告抽樣的個體用戶（individual users）涵蓋外部使用者，但熱區圖和部門增長數據仍以 OpenAI 內部為主。原文有一個註腳承認時長估計是方向性的，也承認是基於 0.1% 的用戶抽樣。但整體敘事的語氣，從「這是前線使用者的情況」悄悄滑向了「這就是工作的未來」。

第二，非開發者增長 137× 和 189× 的數字，其實比任何 benchmark 都更有說服力。Codex 從一個 coding tool 變成 general knowledge work tool 的轉型，才是這份報告真正的故事。當一個法務或財務人員開始用 agent 寫自動化腳本、除錯、做資料轉換，這不是「他們學會了寫程式」——這是 agent 把技術執行的門檻拆掉了。報告用「跨職位工作」來描述這件事，聽起來很正面。但它的背面是什麼？是那些本來做這些工作的人——初階工程師、資料處理員、技術支援——他們的價值在被從新定價。報告只談擴張（expansion），不談取代（displacement）。這不是 OpenAI 在說謊，經濟研究本來就可以選擇分析框架。但讀者要知道：這是一個刻意選擇了樂觀框架的研究。

第三，也是我最在意的——方法論上有一個天然的 survivorship bias。OpenAI 的內部數據來自「留下來的人」。那些不適應 agent 工作模式的人、被 agent 取代了工作的人、或是用了 Codex 但效率反而下降的人，他們不在數據裡。報告中沒有任何負面發現——沒有「多少比例的任務被 agent 搞砸了」、沒有「使用 agent 後的錯誤率變化」、沒有「哪些類型的工作 agent 反而做更差」。一篇完全沒有負面發現的內部研究，本身就是一個發現。這不代表報告不誠實，但代表它是一個有明確邊界的敘事——邊界就是「對 OpenAI 產品有利」的方向。

城武賭一件事：這份報告三個月後會有一個修正版本出來——不是 OpenAI 發的，而是某個學術團隊拿外部企業的真實導入數據做的。那個版本會回答這裡沒有回答的問題：agent 的效率增益主要落在哪些工作類別？哪些工作被取代了？那些增長 137 倍的非開發者用戶，他們原本的同事去了哪裡？

城武的未解檔案——60 小時的 agent 一天，對 OpenAI 來說是圖表上的最高點；對其他人來說，是 6 小時的學習曲線在前面等著。

原文：How agents are transforming work（OpenAI, 2026-06-25）