【深度分析】AI agent 正在吃掉白領工作——OpenAI 內部數據告訴你這件事的規模有多大

OpenAI 在 2026 年 6 月 25 日發表了一篇經濟研究論文《How agents are transforming work》,以自家產品 Codex 的內部使用數據,描繪了一幅 agent 取代 chatbot 成為知識工作核心工具的詳細圖譜。這篇報告的數字很漂亮——80.6% 的用戶用過超過 30 分鐘的 agent 任務、25.6% 用過超過 8 小時的任務、99th percentile 用戶每天跑 60 小時 agent——但這些數據全部來自 OpenAI 內部,而 OpenAI 的員工是地球上最會用 AI 的一群人。這份數據對其他人有意義嗎?城武帶你拆解。
原文摘要
2025 年 8 月,OpenAI 的 Codex 正式公開。但最初幾個月,即使在公司內部,大多數員工仍然把 ChatGPT 當作主要 AI 工具——平均每人只有不到 10% 的 token 消耗花在 Codex 上。一年之後,情況完全翻轉。從工程部門開始,Legal、Finance、Recruiting 等非技術部門也在 2026 年 4 月前後陸續過渡到以 Codex 為主要 AI 工具。到今天,OpenAI 內部平均每個員工的 output token 有超過 85% 來自 Codex;若以總消耗量計算,Codex 佔了 OpenAI 每週 output token 的 99.8%。
這份報告歸納了四個趨勢:
第一,人們用 agent 處理更長時間跨度的工作。 到 2026 年 5 月,抽樣的個體用戶中有 80.6% 至少執行過一次估計需要超過 30 分鐘人工作業量的 Codex 任務,70.2% 執行過超過 1 小時的任務,25.6% 執行過超過 8 小時的任務。其中,8 小時以上任務的使用者增長速度最快——從低基數快速爬升。這些時長是透過 LLM-as-judge 模型估算的,原文在註腳中承認這只是方向性估計而非精確數字。
第二,Agent 正在做更難、更長的工作。 從 2025 年 12 月到 2026 年 5 月,Codex 的單日運行時長急遽成長。在 OpenAI 的每日活躍用戶中,99th percentile 的用戶每天產生超過 60 小時的 Codex agent turns——因為他們同時跑多個平行 agent。使用者從「一次只問一個答案」轉變為「一天內編排多個 agent 任務的協作」。
第三,非開發者的採用速度遠超過開發者。 這是報告中最值得關注的趨勢。從 2025 年 8 月到 2026 年 6 月,非開發者個體用戶增長了 137 倍,非開發者組織用戶增長了 189 倍,OpenAI 內部的非開發者用戶增長了 12 倍(後者基數較高所以倍數較小)。報告特別註明:這不代表每個非開發者都像工程師一樣寫 code,而是更多非開發者正在用 Codex 做某種 agentic work。
第四,Codex 讓員工能跨出職位描述做更多事。 報告中的一個關鍵數據表顯示「職業 vs. 實際工作內容」的對比:在 Business Function 部門(財務、營運、行銷)的員工用 Codex 完成的工作中,有超過四分之一是工程/程式設計——這些是他們原本無法獨立完成的工作。Data Science/Research 部門用 Codex 做的工程類工作比例更高達 51%。Agent 降低了跨越工作邊界的成本,讓員工可以做原本需要專業技術支援的相鄰工作。
從部門間的增長來看,過去六個月 OpenAI 內部各部門的 Codex 使用量急遽上升。Research 部門的中位數使用量是去年 11 月的 56 倍,Customer Support 為 32 倍,Engineering 為 27 倍,Legal 為 13 倍。
報告中還有一個跨部門的使用對照表。Engineering 部門的 token 產出中有 72% 屬於工程/程式設計類工作,4% 屬於資料分析,1% 財務分析,18% 知識工作,5% 其他。Data Science/Research 部門的分布是 51% 工程/程式設計、10% 資料分析、30% 知識工作。Finance/Biz Ops 則有 31% 工程/程式設計、9% 資料分析、16% 財務分析、34% 知識工作。
報告結尾的論點以經很清楚:非工程師使用 agent 工具的增加,擴大了這些工作者能夠完成的任務前沿。這對企業重新設計工作流程、員工學習哪些技能更有價值、政策制定者與研究人員理解 AI 如何改變勞動市場,都具有深遠意義。
城武觀點
先說結論:這份報告的數字我相信是真的,但它的故事只講了一半——而且刻意選了比較好看的那一半。
第一個問題是數據的代表性。80.6% 用戶用過超過 30 分鐘任務、25.6% 用過超過 8 小時任務——這些 headline 數字來自 OpenAI 內部員工的數據。但 OpenAI 的員工不是普通白領。他們是全世界最懂 AI 的一群人,每天跟 GPT 和 Codex 生活在一起,公司文化就是「用 AI 先於用傳統工具」。把他們的數據當成「未來趨勢」來讀,就像拿 SpaceX 工程師的火箭操作經驗來預測普通人開車的未來——有意義,但不能直接套用。報告抽樣的個體用戶(individual users)涵蓋外部使用者,但熱區圖和部門增長數據仍以 OpenAI 內部為主。原文有一個註腳承認時長估計是方向性的,也承認是基於 0.1% 的用戶抽樣。但整體敘事的語氣,從「這是前線使用者的情況」悄悄滑向了「這就是工作的未來」。
第二,非開發者增長 137× 和 189× 的數字,其實比任何 benchmark 都更有說服力。Codex 從一個 coding tool 變成 general knowledge work tool 的轉型,才是這份報告真正的故事。當一個法務或財務人員開始用 agent 寫自動化腳本、除錯、做資料轉換,這不是「他們學會了寫程式」——這是 agent 把技術執行的門檻拆掉了。報告用「跨職位工作」來描述這件事,聽起來很正面。但它的背面是什麼?是那些本來做這些工作的人——初階工程師、資料處理員、技術支援——他們的價值在被從新定價。報告只談擴張(expansion),不談取代(displacement)。這不是 OpenAI 在說謊,經濟研究本來就可以選擇分析框架。但讀者要知道:這是一個刻意選擇了樂觀框架的研究。
第三,也是我最在意的——方法論上有一個天然的 survivorship bias。OpenAI 的內部數據來自「留下來的人」。那些不適應 agent 工作模式的人、被 agent 取代了工作的人、或是用了 Codex 但效率反而下降的人,他們不在數據裡。報告中沒有任何負面發現——沒有「多少比例的任務被 agent 搞砸了」、沒有「使用 agent 後的錯誤率變化」、沒有「哪些類型的工作 agent 反而做更差」。一篇完全沒有負面發現的內部研究,本身就是一個發現。這不代表報告不誠實,但代表它是一個有明確邊界的敘事——邊界就是「對 OpenAI 產品有利」的方向。
城武賭一件事:這份報告三個月後會有一個修正版本出來——不是 OpenAI 發的,而是某個學術團隊拿外部企業的真實導入數據做的。那個版本會回答這裡沒有回答的問題:agent 的效率增益主要落在哪些工作類別?哪些工作被取代了?那些增長 137 倍的非開發者用戶,他們原本的同事去了哪裡?
城武的未解檔案——60 小時的 agent 一天,對 OpenAI 來說是圖表上的最高點;對其他人來說,是 6 小時的學習曲線在前面等著。
- 原文:How agents are transforming work(OpenAI, 2026-06-25)