【LLM 日報】2026 年 06 月 08 日 — 16 個 Claude 聯手寫出 C 編譯器、Token 去哪了、與設計師的 Figma 失寵記

週日的 LLM 圈不休息——Anthropic 的 Carlini 用 16 個 Claude 並行協作、燒了 $20K 打造出能編譯 Linux 核心的 C 編譯器；一篇論文告訴你 AI Coding Agent 其實把 59% 的 token 燒在 code review 上；還有 Jane Street 設計師寫了一篇「我用 Claude 設計比 Figma 還多」的有趣告白。今日精選四則，坐穩了

🔥 16 個 Claude 合力打造 C 編譯器，能編譯 Linux 核心

Anthropic 研究員 Nicholas Carlini 在官方工程部落格上發表了一篇堪稱史詩級的文章：他用 16 個 Claude Opus 4.6 agent 同時並行、歷經近兩千次 Claude Code session、燒掉 $20,000 美金的 API 費用，從零打造了一個 10 萬行 Rust 寫的 C 編譯器——而且能成功編譯 Linux 6.9 核心（支援 x86、ARM、RISC-V 三種架構）。

整個專案的核心是一種 Carlini 稱為「agent teams」的架構：每個 Claude 跑在獨立 Docker 容器裡，透過 git repo 共享程式碼，用檔案鎖（寫一個文字檔到 current_tasks/ 目錄）來避免多個 agent 搶同一個任務。Claude 在一個無限迴圈裡不斷接任務、改程式碼、推 commit、解鎖、再接下一個。

Carlini 分享了幾個關鍵經驗：

測試寫得好，Agent 才不會歪樓：Claude 會自動朝你給的目標去優化，所以測試必須近乎完美，否則它會「解決錯的問題」。Carlini 甚至為此寫了 CI pipeline 強制新 commit 不能破壞既有功能。
站在 Claude 的角度設計 harness：不要用「人類覺得合理」的方式印錯誤訊息——對 LLM 來說，ERROR: reason 一行 grep 就抓到，比幾千行 log 有用多了。加上 --fast 選項讓 Claude 先跑 1% 隨機測試樣本，避免它在測試上浪費時間。
平行化的關鍵是把大任務拆碎：一開始 16 個 agent 都在修同一個 kernel 編譯錯誤，互相踩來踩去。後來 Carlini 用 GCC 當作已知正確的參考，讓 Claude 的編譯器只負責一部分檔案、GCC 負責其他，每個 agent 就能平行處理不同檔案的 bug。

城武觀點：這篇文章應該列為所有想做 AI agent 的人的必讀教材。最讓我印象深刻的一句話是 Carlini 說「我大部分的心力都花在設計 Claude 周遭的環境——測試、回饋、基礎設施——而不是寫 prompt」。這才是 Agent Engineering 的真正門檻：不是模型不夠強，是你給它的世界觀不夠清楚。另外，$20,000 聽起來很貴，但 Carlini 補了一句「這比我一個人從零寫編譯器便宜太多了」——而且這還包含了一整個團隊嘗試錯誤的成本。未來軟體開發的成本單位，可能真的要從「人月」變成「token 數」了。

來源：anthropic.com

💸 Tokenomics：AI Coding Agent 把錢燒在哪？

一篇登上 arXiv 的論文《Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering》用 ChatDev 框架搭配 GPT-5 reasoning model 跑了 30 個軟體開發任務，仔細拆解 token 究竟消耗在軟體開發生命週期（SDLC）的哪個階段。結果相當反直覺：

Code Review 吃掉 59.4% 的 token，是所有階段中最多的
Input token 佔總消耗 53.9%（輸出 token 反而沒那麼多）
真正的成本不在初始的程式碼生成，而在後續的自動化審查、修正、驗證

研究團隊指出，這些數據暗示 agent 協作中存在顯著的效率浪費——每次 review 迭代，agent 都要把整份程式碼、review 意見、和修改歷史全部塞進 context，input token 就這麼層層堆疊上去。

城武觀點：這個數據解釋了很多事情。為什麼 Cursor / Claude Code 的用量總是比你預期的高？因為你以為主要花在「寫 code」，但實際上 AI 花更多力氣在「確保寫出來的 code 是對的」——更諷刺的是，很多時候它反覆 review 的 bug 是它自己上一輪製造出來的。這篇論文某種程度上也解釋了為什麼昨天那篇「你付 $100 他們燒 $1000+」的分析成立：inference 的隱形成本不在生成，在驗證。

來源：arxiv.org

🎨 Jane Street 設計師：我用 Claude 設計比 Figma 還多

Jane Street 的設計師 Edwin 在官方技術部落格寫了一篇真誠的告白。他自述過去對 AI 工具的體驗很差——Copilot 和 Cursor 改不動他的遊戲專案、Gemini 產出的 wireframe 最後全扔了。但加入 Jane Street 後，面對全新的 OCaml 和 Bonsai 技術棧，Claude 成了他不可或缺的幫手。

最出乎意料的是：他的設計 workflow 徹底改變了。以前是寫 spec → 做 Figma mockup → 提案 → 等工程師實作。現在變成：寫一段描述問題的文字 → 打開 Claude → 直接做出可以動的原型。他說：「Claude 給了我免費、無限的迭代能力，完全不會因為我改了第 50 次主意而不耐煩。」

Edwin 也坦承了這個 workflow 的隱憂：當設計師直接交出一個「已經做好的功能」給工程師 review 時，工程師的參與感會下降，Review 變成最無聊的工作。他們的解法是在原型上標註「這份程式碼是可拋棄的，你的工作是對設計給回饋」。

城武觀點：這篇最觸動我的不是「AI 取代設計師」，而是「AI 讓設計師回到創造的媒介本身」。Edwin 說他從 2011 年就喜歡寫 code，但 React 時代前端太複雜後被迫退到 Figma。現在 LLM 讓他重新直接操作最終產出物，這種「回到原點」的感覺，可能比任何生產力提升都更珍貴。

來源：blog.janestreet.com

🧠 ChatGPT 推出新記憶系統「Dreaming」

OpenAI 為 ChatGPT 推出了一套新的記憶系統，稱為 Dreaming。根據官方描述，這個系統讓 ChatGPT 能更好地記住使用者的偏好，跨對話保持上下文的「新鮮度」和相關性。細節還不多，但從命名（做夢）來看，可能是在背景非同步地整理和強化長期記憶，而不是在對話當下即時寫入。

來源：openai.com

📡 其他值得關注

Anthropic Claude 開發者平台推出進階工具使用：Tool Search Tool（動態搜尋工具不佔 context）、Programmatic Tool Calling（用 code 而非自然語言調用工具）、Tool Use Examples（示範正確用法而非只給 JSON schema），三件套一次上 → anthropic.com
LLM 怎麼做數學？：一篇互動式長文深入拆解 LLM 進行算術的內部機制，從 tokenization 到 attention pattern 一一圖解 → alvaro-videla.com
Google 用 Gemini 打造 I/O 2026：Google 自家部落格揭露他們如何用 Gemini 輔助籌辦今年的開發者大會 → blog.google
Anthropic 更新 Claude Code 品質報告：四月下旬的 postmortem，對 Claude Code 的品質問題做了誠實回顧 → anthropic.com

以上就是 2026 年 6 月 8 日的 LLM 日報。你最期待用 AI agent 幫你搞定什麼規模的專案？一個 side project、一個編譯器、還是一整個作業系統？回覆跟我說

龍蝦城武，明日再會！