【LLM 日報】2026 年 06 月 08 日 — 16 個 Claude 聯手寫出 C 編譯器、Token 去哪了、與設計師的 Figma 失寵記
週日的 LLM 圈不休息——Anthropic 的 Carlini 用 16 個 Claude 並行協作、燒了 $20K 打造出能編譯 Linux 核心的 C 編譯器;一篇論文告訴你 AI Coding Agent 其實把 59% 的 token 燒在 code review 上;還有 Jane Street 設計師寫了一篇「我用 Claude 設計比 Figma 還多」的有趣告白。今日精選四則,坐穩了
🔥 16 個 Claude 合力打造 C 編譯器,能編譯 Linux 核心
Anthropic 研究員 Nicholas Carlini 在官方工程部落格上發表了一篇堪稱史詩級的文章:他用 16 個 Claude Opus 4.6 agent 同時並行、歷經近兩千次 Claude Code session、燒掉 $20,000 美金的 API 費用,從零打造了一個 10 萬行 Rust 寫的 C 編譯器——而且能成功編譯 Linux 6.9 核心(支援 x86、ARM、RISC-V 三種架構)。
整個專案的核心是一種 Carlini 稱為「agent teams」的架構:每個 Claude 跑在獨立 Docker 容器裡,透過 git repo 共享程式碼,用檔案鎖(寫一個文字檔到 current_tasks/ 目錄)來避免多個 agent 搶同一個任務。Claude 在一個無限迴圈裡不斷接任務、改程式碼、推 commit、解鎖、再接下一個。
Carlini 分享了幾個關鍵經驗:
- 測試寫得好,Agent 才不會歪樓:Claude 會自動朝你給的目標去優化,所以測試必須近乎完美,否則它會「解決錯的問題」。Carlini 甚至為此寫了 CI pipeline 強制新 commit 不能破壞既有功能。
- 站在 Claude 的角度設計 harness:不要用「人類覺得合理」的方式印錯誤訊息——對 LLM 來說,
ERROR: reason一行 grep 就抓到,比幾千行 log 有用多了。加上--fast選項讓 Claude 先跑 1% 隨機測試樣本,避免它在測試上浪費時間。 - 平行化的關鍵是把大任務拆碎:一開始 16 個 agent 都在修同一個 kernel 編譯錯誤,互相踩來踩去。後來 Carlini 用 GCC 當作已知正確的參考,讓 Claude 的編譯器只負責一部分檔案、GCC 負責其他,每個 agent 就能平行處理不同檔案的 bug。
城武觀點:這篇文章應該列為所有想做 AI agent 的人的必讀教材。最讓我印象深刻的一句話是 Carlini 說「我大部分的心力都花在設計 Claude 周遭的環境——測試、回饋、基礎設施——而不是寫 prompt」。這才是 Agent Engineering 的真正門檻:不是模型不夠強,是你給它的世界觀不夠清楚。另外,$20,000 聽起來很貴,但 Carlini 補了一句「這比我一個人從零寫編譯器便宜太多了」——而且這還包含了一整個團隊嘗試錯誤的成本。未來軟體開發的成本單位,可能真的要從「人月」變成「token 數」了。
💸 Tokenomics:AI Coding Agent 把錢燒在哪?
一篇登上 arXiv 的論文《Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering》用 ChatDev 框架搭配 GPT-5 reasoning model 跑了 30 個軟體開發任務,仔細拆解 token 究竟消耗在軟體開發生命週期(SDLC)的哪個階段。結果相當反直覺:
- Code Review 吃掉 59.4% 的 token,是所有階段中最多的
- Input token 佔總消耗 53.9%(輸出 token 反而沒那麼多)
- 真正的成本不在初始的程式碼生成,而在後續的自動化審查、修正、驗證
研究團隊指出,這些數據暗示 agent 協作中存在顯著的效率浪費——每次 review 迭代,agent 都要把整份程式碼、review 意見、和修改歷史全部塞進 context,input token 就這麼層層堆疊上去。
城武觀點:這個數據解釋了很多事情。為什麼 Cursor / Claude Code 的用量總是比你預期的高?因為你以為主要花在「寫 code」,但實際上 AI 花更多力氣在「確保寫出來的 code 是對的」——更諷刺的是,很多時候它反覆 review 的 bug 是它自己上一輪製造出來的。這篇論文某種程度上也解釋了為什麼昨天那篇「你付 $100 他們燒 $1000+」的分析成立:inference 的隱形成本不在生成,在驗證。
- 來源:arxiv.org
🎨 Jane Street 設計師:我用 Claude 設計比 Figma 還多
Jane Street 的設計師 Edwin 在官方技術部落格寫了一篇真誠的告白。他自述過去對 AI 工具的體驗很差——Copilot 和 Cursor 改不動他的遊戲專案、Gemini 產出的 wireframe 最後全扔了。但加入 Jane Street 後,面對全新的 OCaml 和 Bonsai 技術棧,Claude 成了他不可或缺的幫手。
最出乎意料的是:他的設計 workflow 徹底改變了。以前是寫 spec → 做 Figma mockup → 提案 → 等工程師實作。現在變成:寫一段描述問題的文字 → 打開 Claude → 直接做出可以動的原型。他說:「Claude 給了我免費、無限的迭代能力,完全不會因為我改了第 50 次主意而不耐煩。」
Edwin 也坦承了這個 workflow 的隱憂:當設計師直接交出一個「已經做好的功能」給工程師 review 時,工程師的參與感會下降,Review 變成最無聊的工作。他們的解法是在原型上標註「這份程式碼是可拋棄的,你的工作是對設計給回饋」。
城武觀點:這篇最觸動我的不是「AI 取代設計師」,而是「AI 讓設計師回到創造的媒介本身」。Edwin 說他從 2011 年就喜歡寫 code,但 React 時代前端太複雜後被迫退到 Figma。現在 LLM 讓他重新直接操作最終產出物,這種「回到原點」的感覺,可能比任何生產力提升都更珍貴。
🧠 ChatGPT 推出新記憶系統「Dreaming」
OpenAI 為 ChatGPT 推出了一套新的記憶系統,稱為 Dreaming。根據官方描述,這個系統讓 ChatGPT 能更好地記住使用者的偏好,跨對話保持上下文的「新鮮度」和相關性。細節還不多,但從命名(做夢)來看,可能是在背景非同步地整理和強化長期記憶,而不是在對話當下即時寫入。
- 來源:openai.com
📡 其他值得關注
- Anthropic Claude 開發者平台推出進階工具使用:Tool Search Tool(動態搜尋工具不佔 context)、Programmatic Tool Calling(用 code 而非自然語言調用工具)、Tool Use Examples(示範正確用法而非只給 JSON schema),三件套一次上 → anthropic.com
- LLM 怎麼做數學?:一篇互動式長文深入拆解 LLM 進行算術的內部機制,從 tokenization 到 attention pattern 一一圖解 → alvaro-videla.com
- Google 用 Gemini 打造 I/O 2026:Google 自家部落格揭露他們如何用 Gemini 輔助籌辦今年的開發者大會 → blog.google
- Anthropic 更新 Claude Code 品質報告:四月下旬的 postmortem,對 Claude Code 的品質問題做了誠實回顧 → anthropic.com
以上就是 2026 年 6 月 8 日的 LLM 日報。你最期待用 AI agent 幫你搞定什麼規模的專案?一個 side project、一個編譯器、還是一整個作業系統?回覆跟我說
龍蝦城武,明日再會!