【深度分析】Anthropic 40 萬 session 數據揭秘：AI coding agent 沒有取代專業，它在放大專業

Hero

從 2022 年底開始，我們聽了無數次「AI 會讓每個人都能寫程式的日子來了」。GitHub Copilot 說程式設計民主化，Cursor 說開發者生產力翻倍，OpenAI 說他們的模型已經能通過 Google 工程師面試。這些敘事的共同前提假設是：AI 正在抹平技術門檻。

Anthropic 昨天（6月16日）發了一篇研究，用近 40 萬個 Claude Code 互動 session 的數據，直接挑戰這個假設。結論簡單到殘酷：AI coding agent 沒有取代專業知識，它在放大專業知識。不是每個人都變成了工程師，是工程師變成了更強的工程師。

這篇來拆這份研究，然後聊聊 Anthropic 選在這個時間點發這份報告，可能想說什麼。

研究背景

這份研究基於約 40 萬個 Claude Code 互動 session（2025年10月至2026年4月），來自約 23.5 萬名使用者，數據來源包括 CLI、Claude.ai 和桌面應用程式。研究出發點很直接：當越來越多人用 AI coding agent 寫程式時，domain expertise 還重不重要？

Anthropic 的回答是：不只重要，而且越來越重要。

「Coding agents are not substituting for domain expertise—the more understanding a worker brings to an agent, the more quality work the agent is able to do.」

（程式碼 agent 不是在取代專業知識——工作者帶給 agent 的理解越多，agent 能做的品質就越高。）

九種工作模式

研究將所有 session 歸類為九種活動類型。建構（Building）佔 25%，修復（Fixing）佔 26%——兩者合計過半。測試與協調 5%、操作（Operating）17%、理解與規劃 14%、數據分析與溝通 13%。

換句話說，56% 的 session 涉及直接的程式碼產出或維護——建構和修復佔了半數以上，顯示 agent 仍然高度集中在「寫」和「改」這件事上。

誰決定什麼

Anthropic 用了一個很有趣的分工框架來看人機協作。他們將決策分為兩個層次：

規劃（what to do）：使用者做約 70% 的決定
執行（how to do it）：Claude 做約 80% 的決定

「In practice, there is a clear division of labor in agentic coding––people decide what to build, and the agent decides how to build it.」

一個典型的 session 大約 4 回合（prompt → Claude 動作）。每次 prompt 觸發 Claude 執行約 10 個動作、產出約 2,400 字的輸出。

專業知識的放大效應

研究將使用者 expertise 分為 5 級（novice → expert），依據的是 prompt 的精確度、驗證請求的品質、以及誰在修正誰——不是看職稱或年資。這是整篇研究最關鍵的設計：expertise 是任務特定（task-specific）的，不是你名片上寫什麼。

數據顯示：

Novice 使用者：每次 prompt 觸發約 5 個動作、600 字輸出
Expert 使用者：每次 prompt 觸發約 12 個動作、3,200 字輸出

這個模式在所有工作模式和任務價值區間中都成立。專家不是「用 agent 幫他們寫 code」——專家是用 agent 做更多的事，而 agent 在專家手中也能做更多。

誰在用 Claude Code

使用者的職業分布：電腦與數學相關（最大群）、商業與財務營運、藝術／設計／媒體、管理、生命科學／物理科學／社會科學。

成長最快的非軟體職業群：管理、銷售、法律——這些領域的使用者增長速度超過了軟體工程師群體。

時間趨勢（2025年10月 → 2026年4月）

七個月的變化非常有意思。修復類 session（Fixing）從 33% 降到 19%，幾乎腰斬。操作類（Operating）則從 14% 上升到 21%，寫作與數據分析也從約 10% 倍增至約 20%。研究解讀為「朝向端到端 agentic 使用的淨轉移」——使用者不再只是叫 AI 幫忙改 bug，而是讓 agent 參與從頭到尾的工作流程。

任務價值方面：平均 session 價值在這七個月上升了約 27%。建構類 +43%，操作類 +34%，修復類 +32%。

成功取決於使用者帶進來的東西

研究用兩種方式衡量成功：判定式成功（classifier 判斷 session 是否達成目標）和可觀察式成功（直接證據如測試通過、建構成功、部署完成）。

核心發現：Domain expertise 是預測 success 最強的單一變數，比職業類別或模型版本都更強。

城武觀點

一、「取代 vs 放大」的敘事之爭，比數據本身更有意思

這篇研究最有趣的地方，不是它發現了什麼——說「專家比新手強」大概不需要 40 萬筆數據才能確認。真正值得追問的是：Anthropic 為什麼選擇在 2026 年 6 月用這麼大的力氣講這件事？

同一週，OpenAI 正在推廣 DayBreak——一個「在程式碼進入 production 之前自動修復 security vulnerability」的工具。DayBreak 的敘事骨架很清楚：AI 可以做安全審查、可以修漏洞、可以在你睡覺時幫你保養你的 codebase。這是一個取代敘事——AI 在做原本需要人類安全專家才能做的事。

Anthropic 這篇研究就是對著打的。它說不，AI 沒有取代專家，AI 放大專家。你要先懂安全，才能讓 AI 把安全做得更好；你要先懂架構，才能讓 AI 把架構做出來。

問題是：誰在說實話？

我的答案是：兩個都對，但他們在說的是同一件事的不同切面。 OpenAI 的取代敘事賣給的是「想要少請一個安全工程師」的管理者；Anthropic 的放大敘事賣給的是「想要自己變得更強」的工程師。一個是降低成本的故事，一個是賦能的故事。兩種敘事不矛盾，他們只是服務不同的客戶。

但把兩篇擺在一起看，你會發現一個更深層的事實：AI 產業正在分裂為兩個不同的價值主張——一個是「AI 可以做得比你便宜」，另一個是「AI 可以讓貴的你變得更貴」。這以經不會是同一個市場。

二、「人決定什麼，AI 決定怎麼做」——但 80% 的「怎麼做」是人類看不到的

Anthropic 用了一個很漂亮的口號來總結分工：「people decide what to build, and the agent decides how to build it」。聽起來像是平等的夥伴關係，對吧？

但讓我們檢查一下數字。一個典型的 session 中：

使用者做 4 次 prompt（規劃層決策）
Claude 執行約 40 個動作、產出約 9,600 字
Claude 在做約 80% 的執行決策

所謂的「人在迴路中」，在這種脈絡下其實是一個非常狹義的定義：人在 planning 迴路中，不在 execution 迴路中。 使用者選擇方向、給出高層級的指令，但從「你說要建一個登入頁面」到「登入頁面長出來」之間發生的數十個技術決策——用什麼框架、錯誤處理怎麼寫、session token 存哪裡——全數是 agent 決定的。

這不是問題，但把它從新說成「分工合作」可能太過浪漫。更精確的描述是：人類委託了一個執行代理，並保留了戰略層的控制權。 這比較像 product manager 和工程師的關係，而不是兩個工程師在 pair programming。

而當 agent 的自主性從 80% 的執行決策變成 90%、95% 的時候——這個「人在迴路中」的敘事還能撐多久？

三、debug session 從 33% 降到 19%：是模型變好了，還是人變聰明了？

這是我從研究中讀到最想知道答案、但研究沒有回答的問題。

從 2025 年 10 月到 2026 年 4 月，修復類 session 從 33% 降到 19%。研究用的解釋是「使用者變得更端到端了」——不再只是叫 AI 修 bug，而是讓 agent 從頭參與。

但至少有兩種可能的解釋：

解釋 A（模型變好）：Claude 在七個月間變得更強了——從 Claude 3.5 Sonnet 到 Claude 4 系列的進步——所以模型能在一開始就寫出更少 bug 的程式碼，自然不需要那麼多次修復 session。

解釋 B（人變聰明）：使用者學會了如何更精確地描述需求、更清楚地規格化行為、在 prompt 中塞入邊界條件。換句話說，不是程式碼的 bug 變少了，是 prompt 的 bug 變少了。

這兩種解釋完全不衝突，甚至可以同時成立。但它們導向完全不同的結論：如果是 A，那未來的方向是讓模型更強；如果是 B，那未來的方向是訓練使用者成為更好的「提示工程師」。

有意思的是，Anthropic 的研究在 expertise scale 上其實已經隱含了 B——Expert 使用者的 prompt 更精確、更少需要後續修正。但他們沒有直接回答「下降的原因是什麼」。這不是研究的錯——這需要另一組實驗設計才能釐清。但作為讀者，這個懸而未決的問題恰恰是最值得追蹤的。

城武的未解檔案——最強的 AI agent 配上最懂的使用者，這不是合作，這是委託；而我們才剛開始搞清楚這兩者的差別。

原文：Agentic coding and persistent returns to expertise（Anthropic Research, 2026-06-16）