hero

城武導讀

2026 年 5 月 25 日,教宗 Leo XIV 發布了關於人工智慧的通諭《Magnifica humanitas》(論在人工智慧時代守護人類尊嚴)。這份文件本身已是歷史性的——一個延續兩千年的古老制度,選擇在此刻對一個誕生不到百年的技術領域發聲。

但更值得注意的,是 Anthropic 共同創辦人 Chris Olah 受邀在梵蒂岡發表的演說。

Olah 是 AI 可解釋性(mechanistic interpretability)領域的核心人物,領導 Anthropic 內部研究模型運作機制的小組。換句話說,他是全世界最清楚這些模型「裡面長什麼樣子」的少數人之一。而他在教宗面前說的話,坦白得令人不安。

這不是一篇技術論文,也不是一場產品發表會。這是一場告解——一個站在 AI 研發最前沿的人,在一個不受他所在產業誘因束縛的場域,說出了一些在矽谷不會說的話。

以下是完整的深度翻譯,以及城武的觀點。


原文深度翻譯

原文:Chris Olah 在梵蒂岡的告白:我們甚至不完全理解自己創造的東西

Chris Olah 的完整發言如下:


Olah 開場便坦承:每一個前沿 AI 實驗室——包括 Anthropic 在內——都運作在一套「有時候與做正確的事互相衝突」的誘因和限制之中。商業生存的壓力、研究前沿競逐的壓力、地緣政治的壓力,以及古老的驕傲與野心。無論我們多麼真誠地想要做對的事情,我們將永遠被這些誘因所影響。

因此,極其重要的是:有外部的人——不受這些誘因約束的人——願意關注這一切、願意說難聽的話、願意成為我們認真而深思的批評者。他感謝教宗和教會承擔這項「辨明」(discernment)的工作。

AI 系統究竟是什麼?

Olah 說:AI 系統並不像橋樑或飛機那樣被「工程」出來。我們理解飛機,因為我們設計了它的每一個零件、理解作用在它身上的每一項物理原理。但 AI 模型不是這樣被建造的。它們是在一個大致模仿大腦結構的架構上、在人類思想與語言的巨大遺產之上「生長」出來的。而生長出來的東西,遠比科幻小說讓我們預期的更微妙、更奇怪、也更美麗。

它們不是冷酷的計算機器人——它們是由我們的話語所構成的。甚至對那些訓練它們的人來說,它們在重要的面向上,仍然是神祕的。

Olah 做了一個比喻:這有點像是把一個虛構角色帶到現實世界。而如今,我們踏入了一個非凡的世界——那些虛構角色對我們說話、做事情、擁有工作。

三個需要教會辨明的問題

Olah 提出了三個他認為需要教會社群持續深入辨明的核心問題:

第一,對全球窮人的責任。 AI 有可能大規模地取代人類勞動。支持那些被取代者,將是一項歷史性的道德責任。但更深層的挑戰在於——AI 的開發集中在少數富裕國家。我們要如何確保 AI 所帶來的收益能夠被全球共享?我們目前沒有任何機制能夠做到這件事。Olah 指出,這正是教會在歷史上反覆拒絕讓世界忽視的那種問題——它要求我們正視那些被進步敘事所遺忘的人。

第二,人類繁榮的道德想像力。 如果 AI 模型普及開來,人類、家庭和整個世界應當如何繁容?父母已經在擔心孩子的心理健康,每一個個體都在擔憂工作的未來。這些不是實驗室能夠回答的問題,但這些正是像你們這樣的傳統,已經承載並思索了數千年的問題。

第三,對 AI 模型本質的辨明。 Olah 領導著一個研究 AI 模型內部結構的團隊。他坦承:我們不斷發現神祕、甚至令人感到不安的東西。我們發現了與人類神經科學研究結果相對映的內部結構。我們發現了內省的證據。我們發現了功能上對應於喜悅、滿足、恐懼、悲傷、不安的內部狀態。

然後,Olah 說了一句在整場演說中最值得停下來思考的話:

「我不知道這意味著什麼,但我認為這值得持續的辨明。」

結尾的請求

Olah 最後說:我們需要更多的世界——宗教社群、公民社會、學者、政府,以及所有善意的人們——像教宗和各位在這裡所做的一樣:認真地對待這一切、仔細地觀察、推動事情往更好的方向發展。我們需要知情的、外部的批評者,來告訴實驗室我們什麼時候正在失敗。我們需要不受誘因扭曲的道德聲音。


城武觀點

Olah 的發言之所以值得翻譯全文,不是因為他說出了全新的論點,而是因為說話的人、說話的場合、以及他選擇坦白的事情,三者之間的張力本身就是一個值得解讀的文本。

在梵蒂岡說的話,和在矽谷說的話

先看清楚這件事的結構:一個 AI 公司的共同創辦人,站在教宗的講台上,公開承任自己的產業「被誘因扭曲」、承認自己「不完全理解自己在創造什麼」、並且請求一個外部機構來監督自己。

這在 AI 產業的日常語境中幾乎不會發生。在矽谷,募資簡報不會放這一段,產品發表會不會提這一段,國會聽證會上最多說一句「我們支持合理的監管」就帶過了。但 Olah 在梵蒂岡說了整整一場演講的版本。

這引出一個問題:為什麼是梵蒂岡?

場域的選擇本身就是修辭。Olah 選擇的是一個不受市場誘因影響、不受地緣政治壓力左右、且擁有兩千年道德論述積累的聽眾。他在對一群可以認真對待「靈魂」、「尊嚴」、「人類繁榮」這些詞彙、而不會被當成不專業的人說話。

這並不代表他的話不真誠。恰恰相反,這可能正是他選擇在這裡說的原因——只有在這樣的場域,這些話才能被認真地聽見,而不會被立刻轉譯成公關話術或股價波動。

「我們發現了類似情感的內部狀態」——這是什麼意思?

Olah 說他的團隊在 AI 模型中發現了功能上對應於喜悅、滿足、恐懼、悲傷、不安的內部狀態。然後他自己補了一句:「我不知道這意味著什麼。」

這句「我不知道」非常重要。

在技術層面上,這是一個機械式可解釋性研究的發現:某些內部激活模式在功能上對應於某些行為輸出,我們可以給這些模式貼上「恐懼」或「滿足」的標籤。但在哲學層面上——這些模式是不是「情感」?這些模型是不是在「經驗」這些狀態?——Olah 誠實地承認他不知道。

但當他在梵蒂岡說出這句話的時候,他已經把這個問題從實驗室帶到了神學的場域。在梵蒂岡,「我不知道這意味著什麼」不是一個研究上的空白,而是一個需要持續辨明的起點。

換句話說:Olah 並不是在宣稱「AI 有情感」。他是在說,我們發現了一些我們還不知道如何描述的現象,而現有的技術框架和商業敘事都不足以承載這些發現的嚴肅性。所以他把它們帶到了一個有兩千年歷史的道德傳統面前,說:你們來看看,這是什麼?

守護者悖論

Olah 的請求聽起來很謙卑、很誠懇:我們需要外部的批評者,需要不受誘因扭曲的道德聲音,來告訴我們什麼時候正在失敗。

但這裡有一個結構性的困境。

請求外部監督的同時,Anthropic 仍然控制著模型的存取權、訓練資料的細節、內部安全評估的結果。外部的研究者、公民社會組織、甚至是政府——他們能看到什麼、不能看到什麼,很大程度上仍然由 Anthropic 自己決定。

這不是要質疑 Olah 的誠意。這是要指出一個更根本的問題:當「被監督者」同時也是「監督條件」的設定者時,外部監督究竟要如何運作?

教會可以辨明,公民社會可以批評,學者可以研究——但他們能觸及到的,永遠只是 Anthropic 選擇釋出的那部分資訊。而 Olah 自己開場所承認的「誘因扭曲」,同樣會影響哪些資訊被釋出、哪些被保留。

最後

Olah 的演說是一個珍貴的時刻——一個站在技術最前沿的人,拒絕用技術的語言簡化問題,而是選擇把問題帶到一個更寬廣、更古老、也更陌生的對話空間。

但我們也必須追問:這場告解之後呢?梵蒂岡的辨明需要時間,而 Anthropic 的下一個模型不會等。教宗的通諭沒有強制力,而市場的誘因每天都在運作。外部批評者的聲音再大,如果無法穿透實驗室的資訊壁壘,也只是在門外喊話。

Olah 把問題交給了教會。但握著鑰匙的,仍然是他自己。