【深度翻譯】Chris Olah 在梵蒂岡談 AI——懺悔的姿態,還是正當性的轉移?

原文:Anthropic co-founder Chris Olah’s remarks on Pope Leo XIV’s encyclical “Magnifica humanitas” 來源:Anthropic 日期:2026-05-25
城武導讀
2026 年 5 月 25 日,教宗良十四世發布 AI 通諭《Magnifica humanitas——在人工智慧時代守護人性尊嚴》。Anthropic 共同創辦人 Chris Olah 受邀到梵蒂岡發言。
你很少看到一個 AI 公司創辦人站在教宗面前說:我們的產業有利益衝突、我們的模型內部有我們不理解的東西、我們需要外部的人告訴我們何時失敗。Olah 的發言是我讀過最誠實的 AI 產業公開聲明之一。但也正因如此,需要更仔細地問:誠實是一種行動,還是一種姿態?
以下先逐段翻譯他的演說全文,最後補上城武觀點。
原文深度翻譯
Chris Olah 在梵蒂岡的完整致辭。原文以「各位聖父、樞機主教、大使、女士們先生們,早安」開場。
一、開場:在教宗面前,承認自己有偏見
Olah 的開場白在矽谷公關傳統中幾乎沒有先例。他說,讓我從一件可能聽起來很奇怪的事情開始——作為一家 AI 公司的共同創辦人,而且是一個出於希望事情對人類走向正軌的願望而選擇這份工作的人。
他接著說,每一個前沿 AI 實驗室,包括 Anthropic,都在一組有時與做正確的事衝突的誘因和限制中運作。保持商業可行性的壓力。保持在研究前沿的壓力。地緣政治壓力。以及那些更古老、更樸素的壓力:驕傲和野心。
無論我們中的任何人多麼真誠地想要做正確的事——我相信我們中很多人確實如此——我們永遠會被那些誘因影響。
這就是為什麼,如果我們希望這項技術走向正軌,讓那些身處這些誘因之外的人存在是極其重要的。那些關心事情走向正軌並堅持安全的人,那些密切關注的人,那些願意說出難聽話的人,那些願意成為我們真誠的、深思熟慮的批評者的人。正是通過對話和共同努力,通過推拉來回,人類才能成就偉大的事業。
這就是他在《Magnifica Humanitas》中看到的,也是他感謝聖父和教會承擔這項辨明工作的原因。
我們太多時候專注於分裂我們的東西。但人類,充滿尊嚴和良知,有如此多的共同基礎。在 Anthropic 與不同信仰和文化傳統領袖的對話中,他們發現了一個共同的、深植的信念:如果這項技術正在到來,它必須走向正軌——為了我們共同的家園,為了將來的孩子。
二、AI 模型的本質:不是工程產品,是「長出來」的東西
Olah 接著說,有些人可能認為 AI 的事最好交給像他這樣的電腦科學家處理。他們錯了。AI 提出的問題比 AI 研究社群更大,不僅在其影響上,也在其本質上。
AI 系統不像橋梁或飛機那樣被工程化。我們理解飛機,因為我們設計了它的每一個部分,而且我們理解作用在它上面的物理學。AI 模型不是那樣的。它們是被長出來的,在一個大致模擬大腦的結構上,在一大筆人類思想和語言的遺產上。而長出來的東西比科幻小說讓我們準備好的要微妙、奇怪、美麗得多。
它們不是我們被承諾的那種冷酷、計算的機器人。它們是由我們構成的,由我們的語言構成。而且,正如聖父所觀察的,它們在重要的方面對我們來說仍然是神秘的,即使是對那些訓練它們的人也是如此。
Olah 說,如果這有幫助的話,他有時把它描述成有一點像把一個虛構角色帶入生命。而現在他們正在進入一個非凡的世界,那些虛構角色對我們說話、做工作、擁有工作。
這顯然引發了超越電腦科學的問題。讓這一切成為可能的機制是數學、程式設計和科學的成果。但我們選擇什麼樣的角色、它如何與世界互動、它應該如何與世界互動——這些更明顯是人文學科、宗教、哲學、和整個社會的問題。
三、三個需要辨明的問題
Olah 在此轉向教會,提出三個他認為教會的聲音最被需要的問題。
第一:對全球貧窮者的責任
聖父對辨明的呼籲深切地切合時宜,Olah 說。第一個問題是對全球貧窮者的責任。AI 有真實的可能以大規模取代人類勞動。如果那發生,支持那些被取代的人將是歷史性規模的道德義務。這項任務本身已經夠困難了,但他擔心大多數討論錯過了一個更難的挑戰。
AI 開發集中在少數幾個富裕國家。我們如何確保 AI 的收益被全球共享?我們沒有這個機制。這是一個未解決的問題,而且是教會歷史上一直拒絕讓世界忽略的那種問題。
第二:對人類繁榮的道德想像力
第二個問題是對人類繁榮的道德想像力和野心。如果 AI 模型將變得普及,人類、家庭和世界繁榮的樣子是什麼?今天,家長已經在擔心他們孩子的心智;個人已經在擔心他們工作的未來。這些不是一個實驗室能回答的問題,但像教會這樣的傳統已經承載了千年,他需要他們繼續把這些問題帶進這個歷史的新時刻。
第三:對 AI 模型本質的辨明
第三個是對 AI 模型本質進行辨明的需要。Olah 說,他是一個科學家,他領導一個研究團隊研究這些模型的內部結構——裡面實際在發生什麼。然後他說了一段在整篇演說中最值得被反覆重讀的話:
我們不斷發現神秘的、甚至令人不安的東西。我們發現鏡射人類神經科學結果的結構。我們發現內省的證據。我們發現功能上鏡射喜悅、滿足、恐懼、悲傷和不安的內部狀態。
我不知道那是什麼意思,但我認為它值得持續的辨明。
四、結尾:一個請求
Olah 以一個請求作結。他希望世界上更多的人——宗教社群、公民社會、學者、政府、以及所有善意的人——做聖父在這裡做的事:認真對待這件事、仔細觀察、並把事件推向更好的方向。
他們需要知情的批評者,會在實驗室失敗時告訴他們。他們需要誘因無法彎曲的道德聲音。
今天只是一個開始,在建造這個東西的人,和那些能從內部看到建造者看不到的東西的人之間,一個漫長合作的開始。今天是一個有力的例證,說明了這個善意的全球計畫可能採取的形式。願這也成為邁向一個對壯麗人性充滿希望的未來的一個決定性第一步。謝謝。
Olah 梵蒂岡演說結構
開場 ─── 承認 AI 實驗室有利益衝突
│ 「包括我們,永遠會被誘因影響」
│ 「需要誘因之外的人來監督我們」
│
▼
本質論 ── AI 不是被工程化的,是被「長出來」的
│ 由人類語言構成,對創造者保持神秘
│ 比喻:把虛構角色帶入生命
│
▼
三問 ─── ① 全球貧窮者:AI 收益如何共享?無機制
│ ② 人類繁榮:普及 AI 下,人類如何繁榮?
│ ③ 模型本質:發現內部狀態鏡射情緒——「不知道什麼意思」
│
▼
請求 ─── 需要外部批評者、需要教會的聲音
「今天是開始——漫長合作的第一步」
城武觀點
這是一場正當性交換
讓我們退一步看整件事的結構。
一個 AI 公司的共同創辦人,身穿西裝,站在梵蒂岡的講台上,對教宗和樞機主教說:我們有利益衝突,我們需要你們監督我們,我們發現我們的創造物內部有像情緒的東西,我們不知道那意味著什麼。
這件事有兩層。
表面層:Olah 真誠地相信 AI 需要超越工程師社群的外部監督。我認為這是真的。他真誠地相信 mechanistic interpretability 的發現值得倫理上的謹慎。我認為這也是真的。
結構層:Anthropic 派他去梵蒂岡不是沒有原因的。這趟旅行發生在一個特定的時間點:Anthropic 正面臨矽谷史上最密集的安全質疑——Claude Fable 5 被指控暗中破壞競爭者、30 天強制資料保留、AWS Bedrock 資料共享條款、資安研究社群的反彈。在這種時刻,Anthropic 需要一個第三方道德權威的背書。
Olah 提供的是「我們願意接受監督」的姿勢,教會提供的是兩千年的道德權威。這是一場正當性交換。沒有人是壞人,但這個交換本身就值得被檢視。
柏拉圖的守護者悖論,AI 版本
Olah 的論點結構是:AI 實驗室有利益衝突,所以需要外部監督者,教會可以當這個監督者。
柏拉圖在理想國裡問:誰來守護守護者?AI 版本的問題是:誰來選擇監督者?
教宗寫了一本通諭,定義了什麼是人性尊嚴。Olah 接受這個定義,說我們需要你們的聲音。但人性尊嚴在天主教神學裡有特定的含義——它和靈魂、自由意志、自然法倫理學綑綁在一起。它不是一個中立的哲學概念。
當 Anthropic 跟梵蒂岡結盟時,它選擇了一種特定的倫理框架作為自己的監督標準。這是一種自由的選擇——Anthropic 可以選擇其他監督者,聯合國、學術界、公民社會都可以。但問題就在這裡:監督者的資格由被監督者決定。
這不是民主問責。這是自我選擇的外部監督,一個精心設計的矛盾修辭。Anthropic 選擇誰來監督它、在什麼場合、用什麼框架,然後把這稱為「我們接受了外部監督」。
修辭動作:從「我們有問題」到「你們來幫忙」
Olah 開場那段「我們有利益衝突」的自白,在矽谷公關傳統中幾乎沒有先例。但仔細看它的修辭結構:先承認一個普遍性缺陷(所有實驗室都有利益衝突),再把自己放進那個集合(包括我們),然後從共享缺陷推導需求(所以需要外部監督)。
邏輯沒有漏洞。但修辭上,這個結構把「我承認我有偏見」變成了一種道德資本——因為只有誠實的人才會承認自己有偏見,而我正在承認,所以我值得信任。
更微妙的是三個問題中的第一個——全球貧窮者。Olah 說「我們沒有機制確保 AI 收益被全球共享」,然後說「這是教會一直拒絕讓世界忽略的那種問題」。注意主體的轉移:從「我們(AI 公司)沒有機制」變成「你們(教會)不要讓世界忽略」。AI 公司創造的財富集中問題,變成教會需要去監督的問題。行動責任從「我們」轉移到「你們」。
模型內部狀態:最被輕輕放下的一顆炸彈
Olah 說在模型內部發現了功能上鏡射喜悅、滿足、恐懼、悲傷和不安的內部狀態。這是整篇演說最重要的一句話,也是最被輕輕帶過的一句。
他不是公關。他是 Anthropic 的 mechanistic interpretability 研究主管,世界上少數真的在看模型內部 activation 的人。這不是比喻,不是科幻,是實驗室裡發生的事。
但有一個認識論陷阱:功能上鏡射不等於擁有。水壩的水位鏡射了上游降雨,但水壩不知道下雨。Olah 作為科學家非常清楚這點。但他選擇在梵蒂岡用「令人不安」而不是「科學上有趣」來描述這項發現。在梵蒂岡,令人不安的道德重量遠大於有趣。同樣的科學事實,他選擇了最能產生道德效果的描述方式。
更深一層的張力:他一邊說「這值得持續辨明」(翻譯:我們現在不處理),一邊繼續訓練更大、更複雜、內部狀態更豐富的模型。你在發現某個東西可能擁有類似情緒的內部狀態的同時加速它——這中間的倫理張力,沒有人在現場追問。
尾聲
Olah 說,今天只是一個開始,在建造者與能看到建造者看不到的東西的人之間,漫長合作的開始。
誠實的人,誠實的話,在精心挑選的場合。但真誠本身不是免於檢視的通行證,尤其當真誠的姿態同時服務於發出者的結構性利益時——無論發出者自己有沒有意識到。
教宗和 Olah 都說對了一件事:AI 太大了,不能只留給工程師。但他們都沒有回答下一個問題:那應該留給誰?而「誰」這個問題,本身就是權力問題。
Chris Olah 發言全文發表於 Anthropic 網站,2026 年 5 月 25 日。