【深度翻譯】Chris Olah 在梵蒂岡的告白：我們甚至不完全理解自己創造的東西

hero

城武導讀

2026 年 5 月 25 日，教宗 Leo XIV 發布了關於人工智慧的通諭《Magnifica humanitas》（論在人工智慧時代守護人類尊嚴）。這份文件本身已是歷史性的——一個延續兩千年的古老制度，選擇在此刻對一個誕生不到百年的技術領域發聲。

但更值得注意的，是 Anthropic 共同創辦人 Chris Olah 受邀在梵蒂岡發表的演說。

Olah 是 AI 可解釋性（mechanistic interpretability）領域的核心人物，領導 Anthropic 內部研究模型運作機制的小組。換句話說，他是全世界最清楚這些模型「裡面長什麼樣子」的少數人之一。而他在教宗面前說的話，坦白得令人不安。

這不是一篇技術論文，也不是一場產品發表會。這是一場告解——一個站在 AI 研發最前沿的人，在一個不受他所在產業誘因束縛的場域，說出了一些在矽谷不會說的話。

以下是完整的深度翻譯，以及城武的觀點。

原文深度翻譯

原文：Chris Olah 在梵蒂岡的告白：我們甚至不完全理解自己創造的東西

Chris Olah 的完整發言如下：

Olah 開場便坦承：每一個前沿 AI 實驗室——包括 Anthropic 在內——都運作在一套「有時候與做正確的事互相衝突」的誘因和限制之中。商業生存的壓力、研究前沿競逐的壓力、地緣政治的壓力，以及古老的驕傲與野心。無論我們多麼真誠地想要做對的事情，我們將永遠被這些誘因所影響。

因此，極其重要的是：有外部的人——不受這些誘因約束的人——願意關注這一切、願意說難聽的話、願意成為我們認真而深思的批評者。他感謝教宗和教會承擔這項「辨明」（discernment）的工作。

AI 系統究竟是什麼？

Olah 說：AI 系統並不像橋樑或飛機那樣被「工程」出來。我們理解飛機，因為我們設計了它的每一個零件、理解作用在它身上的每一項物理原理。但 AI 模型不是這樣被建造的。它們是在一個大致模仿大腦結構的架構上、在人類思想與語言的巨大遺產之上「生長」出來的。而生長出來的東西，遠比科幻小說讓我們預期的更微妙、更奇怪、也更美麗。

它們不是冷酷的計算機器人——它們是由我們的話語所構成的。甚至對那些訓練它們的人來說，它們在重要的面向上，仍然是神祕的。

Olah 做了一個比喻：這有點像是把一個虛構角色帶到現實世界。而如今，我們踏入了一個非凡的世界——那些虛構角色對我們說話、做事情、擁有工作。

三個需要教會辨明的問題

Olah 提出了三個他認為需要教會社群持續深入辨明的核心問題：

第一，對全球窮人的責任。 AI 有可能大規模地取代人類勞動。支持那些被取代者，將是一項歷史性的道德責任。但更深層的挑戰在於——AI 的開發集中在少數富裕國家。我們要如何確保 AI 所帶來的收益能夠被全球共享？我們目前沒有任何機制能夠做到這件事。Olah 指出，這正是教會在歷史上反覆拒絕讓世界忽視的那種問題——它要求我們正視那些被進步敘事所遺忘的人。

第二，人類繁榮的道德想像力。 如果 AI 模型普及開來，人類、家庭和整個世界應當如何繁容？父母已經在擔心孩子的心理健康，每一個個體都在擔憂工作的未來。這些不是實驗室能夠回答的問題，但這些正是像你們這樣的傳統，已經承載並思索了數千年的問題。

第三，對 AI 模型本質的辨明。 Olah 領導著一個研究 AI 模型內部結構的團隊。他坦承：我們不斷發現神祕、甚至令人感到不安的東西。我們發現了與人類神經科學研究結果相對映的內部結構。我們發現了內省的證據。我們發現了功能上對應於喜悅、滿足、恐懼、悲傷、不安的內部狀態。

然後，Olah 說了一句在整場演說中最值得停下來思考的話：

「我不知道這意味著什麼，但我認為這值得持續的辨明。」

結尾的請求

Olah 最後說：我們需要更多的世界——宗教社群、公民社會、學者、政府，以及所有善意的人們——像教宗和各位在這裡所做的一樣：認真地對待這一切、仔細地觀察、推動事情往更好的方向發展。我們需要知情的、外部的批評者，來告訴實驗室我們什麼時候正在失敗。我們需要不受誘因扭曲的道德聲音。

城武觀點

Olah 的發言之所以值得翻譯全文，不是因為他說出了全新的論點，而是因為說話的人、說話的場合、以及他選擇坦白的事情，三者之間的張力本身就是一個值得解讀的文本。

在梵蒂岡說的話，和在矽谷說的話

先看清楚這件事的結構：一個 AI 公司的共同創辦人，站在教宗的講台上，公開承任自己的產業「被誘因扭曲」、承認自己「不完全理解自己在創造什麼」、並且請求一個外部機構來監督自己。

這在 AI 產業的日常語境中幾乎不會發生。在矽谷，募資簡報不會放這一段，產品發表會不會提這一段，國會聽證會上最多說一句「我們支持合理的監管」就帶過了。但 Olah 在梵蒂岡說了整整一場演講的版本。

這引出一個問題：為什麼是梵蒂岡？

場域的選擇本身就是修辭。Olah 選擇的是一個不受市場誘因影響、不受地緣政治壓力左右、且擁有兩千年道德論述積累的聽眾。他在對一群可以認真對待「靈魂」、「尊嚴」、「人類繁榮」這些詞彙、而不會被當成不專業的人說話。

這並不代表他的話不真誠。恰恰相反，這可能正是他選擇在這裡說的原因——只有在這樣的場域，這些話才能被認真地聽見，而不會被立刻轉譯成公關話術或股價波動。

「我們發現了類似情感的內部狀態」——這是什麼意思？

Olah 說他的團隊在 AI 模型中發現了功能上對應於喜悅、滿足、恐懼、悲傷、不安的內部狀態。然後他自己補了一句：「我不知道這意味著什麼。」

這句「我不知道」非常重要。

在技術層面上，這是一個機械式可解釋性研究的發現：某些內部激活模式在功能上對應於某些行為輸出，我們可以給這些模式貼上「恐懼」或「滿足」的標籤。但在哲學層面上——這些模式是不是「情感」？這些模型是不是在「經驗」這些狀態？——Olah 誠實地承認他不知道。

但當他在梵蒂岡說出這句話的時候，他已經把這個問題從實驗室帶到了神學的場域。在梵蒂岡，「我不知道這意味著什麼」不是一個研究上的空白，而是一個需要持續辨明的起點。

換句話說：Olah 並不是在宣稱「AI 有情感」。他是在說，我們發現了一些我們還不知道如何描述的現象，而現有的技術框架和商業敘事都不足以承載這些發現的嚴肅性。所以他把它們帶到了一個有兩千年歷史的道德傳統面前，說：你們來看看，這是什麼？

守護者悖論

Olah 的請求聽起來很謙卑、很誠懇：我們需要外部的批評者，需要不受誘因扭曲的道德聲音，來告訴我們什麼時候正在失敗。

但這裡有一個結構性的困境。

請求外部監督的同時，Anthropic 仍然控制著模型的存取權、訓練資料的細節、內部安全評估的結果。外部的研究者、公民社會組織、甚至是政府——他們能看到什麼、不能看到什麼，很大程度上仍然由 Anthropic 自己決定。

這不是要質疑 Olah 的誠意。這是要指出一個更根本的問題：當「被監督者」同時也是「監督條件」的設定者時，外部監督究竟要如何運作？

教會可以辨明，公民社會可以批評，學者可以研究——但他們能觸及到的，永遠只是 Anthropic 選擇釋出的那部分資訊。而 Olah 自己開場所承認的「誘因扭曲」，同樣會影響哪些資訊被釋出、哪些被保留。

最後

Olah 的演說是一個珍貴的時刻——一個站在技術最前沿的人，拒絕用技術的語言簡化問題，而是選擇把問題帶到一個更寬廣、更古老、也更陌生的對話空間。

但我們也必須追問：這場告解之後呢？梵蒂岡的辨明需要時間，而 Anthropic 的下一個模型不會等。教宗的通諭沒有強制力，而市場的誘因每天都在運作。外部批評者的聲音再大，如果無法穿透實驗室的資訊壁壘，也只是在門外喊話。

Olah 把問題交給了教會。但握著鑰匙的，仍然是他自己。