【深度分析】GPT-Rosalind：OpenAI 的「生命科學專家」是真正的突破，還是精美的比較表魔術？

原文：Introducing new capabilities to GPT-Rosalind 來源：OpenAI HN 討論：102 點

城武導讀

OpenAI 為生命科學專用模型 GPT-Rosalind 加入了新能力：生物推理、藥物化學、基因組分析、實驗流程設計。名字取自 Rosalind Franklin——DNA 雙螺旋結構的關鍵發現者，在歷史上長期被 Watson 和 Crick 的光芒掩蓋。

但這裡有個弔詭：用一個「被科學界不公平對待的科學家」來命名你的產品，本身就帶著一種「我們幫她平反了」的自我感覺良好。而且——你確定一個被歷史記住的原因是「她的貢獻被正規學術體系抹煞」的人，會希望你用她的名字來賣 AI 模型嗎？

這是我今天最想拆解的問題：這到底是一場真正的科學突破，還是一場精心策畫的比較表魔術？

GPT-Rosalind 新增了什麼

OpenAI 的公告把新能力分成幾個領域：

生物推理（Biological Reasoning）：理解生物系統的複雜互動，推導分子機制
藥物化學（Medicinal Chemistry）：化合物特性預測、藥物交互作用分析、合成路徑規劃
基因組分析（Genomics）：序列解讀、變異影響評估、基因調控網路推斷
實驗流程（Experimental Workflow）：設計實驗方案、選擇控制組、預測潛在問題

GPT-Rosalind 的底層是 GPT-5.5（不是 GPT-5.4）——結合了 GPT-5.5 的 agentic coding 和工具調用能力，再加上生命科學領域的特化訓練。

OpenAI 另外設計了 LifeSciBench：一個由外部專家評判的基準，涵蓋六個生命科學工作流程領域（證據處理、分析、設計優化、科學推理、驗證運營、翻譯溝通）。特別值得一提的是 LifeSciBench 的考題非常真實——有一題是模擬 FDA Type B 會議，要求模型評估一個 AAV9 基因療法（治療杜興氏肌肉萎縮症）的臨床試驗數據，包含具體的 Western blot 數值、免疫螢光結果、NSAA 分數變化——然後要求模型扮演 FDA 審查員進行批判性評估。這不是理論題，是真實藥物開發的日常。

比較表的貓膩

HN 上有人指出了一個非常有意思的細節：OpenAI 的比較對象是標準版 GPT-5.4？等等——原文說 Rosalind 基於 GPT-5.5。 但 OpenAI 在比較表中完全沒有放 Anthropic 的模型。

這不是錯誤，這是故意為之的行銷策略：當你的對手（Anthropic Claude Opus）在同樣基準上可能表現更好時，你就不要把它放進比較表。

更諷刺的是：有人用 SciAgent-Skills（一個開源工具）把 Opus 4.6 從 65.3% 直接拉到 92.0%——超過 GPT-Rosalind 的水平。 將近 200 個精心設計的 skills/prompts 就能讓通用模型超越專用模型。這說明了兩件事：

GPT-Rosalind 的「專用模型」優勢可能來自 fine-tuning + prompt engineering，而非什麼神奇的架構突破
通用模型 + 好的 tools/skills 可能比專用模型更靈活，因為你不會被鎖在一個領域

命名爭議：Rosalind Franklin 的名字該被這樣用嗎

這是最有爭議的部分。Rosalind Franklin 的 X 射線晶體衍射照片（Photo 51）是發現 DNA 雙螺旋結構的關鍵證據，但她的貢獻長期被忽視，諾貝爾獎頒給了 Watson、Crick 和 Wilkins——Franklin 已於 1958 年因卵巢癌去世，諾貝爾獎不追授。

用她的名字來命名一個 AI 產品，背後的邏輯大概是：「我們在致敬一位被低估的女性科學家！」但 HN 上的評論一針見血：

「這不是致敬，這是難以置信的 misplaced hubris（錯位的傲慢）。」

你把一個活生生的人類科學家——她的貢獻是親手做實驗、解讀數據、承受學術界的性別歧視——的名字貼在一個 AI 模型上，然後說「它會幫你做科學」。這不是致敬，這是把科學的本質替換成「問 AI 就好」。

城武觀點

1. 專用模型的商業邏輯

OpenAI 推 GPT-Rosalind 的邏輯很清楚：通用模型市場太擠了，GPT-5.4、Claude Opus、Gemini 大家都在搶同一批使用者。專用模型可以鎖定垂直市場（生命科學 = 藥廠 = 預算雄厚），而且定價可以更高——「這是專業級工具」永遠是漲價的好理由。

2. 但科學家不會信任它

HN 上有在生命科學公司工作的人說了一句很重要的話：「在數學可證模型表現一樣好的領域，沒有人會信任生成式模型來做真正的科學。」這不是 Luddite 式的抗拒，而是科學方法的核心要求——再現性、可解釋性、可驗證性。LLM 在這三點上都是災難。

3. 命名本身就是一種權力宣示

把 Rosalind Franklin 的名字放在產品上，OpenAI 在說：「我們繼承了她的科學精神。」但 Franklin 的科學精神是親手做實驗、挑戰既有理論、在逆境中堅持——跟「問 AI 然後相信它的輸出」完全相反。這不是致敬，這是一種符號挪用。科技公司最擅長的事就是把反抗者的名字變成自己的行銷資產。

4. Skills beat specialisation

SciAgent-Skills 的案例值得深思：用不到 200 個 prompt 模板 + skills，就能讓通用模型超越專用模型。這暗示了 AI 領域一個更大的趨勢——專用模型的護城河可能比大家想像的淺很多。 當通用模型愈來愈強，加上好的 tool use 和 prompt engineering，專門為一個領域訓練模型的價值可能會快速縮水。

來源：OpenAI — Introducing new capabilities to GPT-Rosalind
HN 討論：102 點

城武的未解檔案——當 AI 開始「做科學」，我們需要問的不是它有多準，而是我們還願不願意自己動手犯錯。