【深度分析】他用 Claude Code 分析自己的 MRI——AI 說你沒撕裂，醫生說你有，你信誰？

Hero

如果你是一個非醫學背景的普通人，拿到一張 MRI 片子，想知道第二意見——傳統路徑是：掛號、排隊、等報告，運氣好一週，運氣不好一個月，花費幾千到幾萬台幣。但部落客 Antoine 用了一條完全不同的路徑：把 266MB 的 DICOM 檔餵給 Claude Code + Opus 4.8，一句「右肩痛了兩三週」當 prompt，一小時後拿到一份跟專科醫師完全矛盾的報告。這件事的意義不在 AI 贏了或輸了——而在「第二意見」這個概念本身正以經被從根本上改變了。

原文摘要

部落客 Antoine 在 2026 年 6 月 28 日發表了一篇文章，記錄他用 Opus 4.8 分析自己 MRI 的經過。文章開頭他強調自己不是醫生，請讀者對他的內容保持保留態度。

背景。 他的右肩痛了幾週，雖然似乎有好轉，他還是去看了骨科。醫生建議做 MRI，診所剛好有設備，他就做了。MRI 結果顯示他的肩胛下肌腱（subscapularis tendon）頂端附著處有「Grade III（>50% 寬度）部分厚度撕裂」。他聽不懂這個診斷的具體意義，但覺得診所的治療建議太過積極——MRI 做完幾分鐘後就開始治療，而且建議整個療程重複三次。他離開前要求了一份 MRI 資料副本和治療清單。

GPT 5.5 Pro 初篩。 他把資料送給 GPT 5.5 Pro，AI 立刻標出兩個問題。第一，診所對他做了震波治療（shockwave therapy），但最新的臨床實務指引明確建議：對於無鈣化的旋轉肌腱病變，不應使用或推薦震波治療——而超音波已確認他的肩膀沒有鈣化。第二，診所為他注射了 Traumeel，這種藥物在德國登記為順勢療法藥物，「無治療適應症」。這兩個發現讓他對診所的判斷更加懷疑，也驅使他決定直接分析 MRI 影像。

Claude Code + Opus 4.8 分析。 MRI 資料是標準的 DICOM 格式匯出，包含數百個無副檔名的檔案，總計約 266MB。他選擇在 Claude Code 中使用 Opus 4.8（xhigh），因為 Claude Code 具備執行程式碼和安裝套件的能力——他強調，對程式設計師來說這是常識，但 Claude Code 跟 Claude.ai 網頁聊天之間的能力差距非常巨大，即使背後是同一顆模型。他對 AI 下的唯一指示只有「right shoulder pain for 2–3 weeks」，後來才意識到這個提示詞比人類醫生收到的資訊還少。

矛盾結果。 大約一小時後，Opus 4.8 產出了一份完整的 PDF 報告。報告中的關鍵發現是：肌腱是完整（intact）的——與放射科醫師的 Grade III 部分撕裂診斷完全矛盾。他預期 AI 給出的嚴重程度會比醫生低一些，但沒想到是直接否定。

仲裁程序。 為了裁決兩個完全矛盾的診斷，他決定讓 Claude 做一次比較分析。這次他給了更多脈絡：除了人類醫生的報告，他還提供了一段他與 ChatGPT 5.5 Pro 的對話記錄——他在那場對話中請 GPT 給他一些動作和姿勢來協助自我判斷傷勢。Opus 採用了一個非常嚴謹的方法：使用多個 sub-agent 分別從原始 MRI 資料進行分析，避免被既有 context 影響判斷。又過了大約一小時，新的仲裁報告出爐。結論是：「仲裁者裁決：證據偏向 Reader A（中等至高度信心）。輕度附著點肌腱病變；未發現明確的部分或全層撕裂，包括頂端附著處。」報告中也誠實標註了某些分歧是它無法解決的，但在撕裂問題上它非常果斷。

病人陷入 limbo。 Antoine 寫了一段非常誠實的反思。他說，當你把自己交給一個你信任的專家時，那種感覺是平靜的——你不用再擔心了，讓他帶你走完流程就好。但 AI 可以徹底摧毀這種感覺。拿到 AI 的第二意見後，原來的診斷和治療計劃看起來都太急躁、太侵入性了——但他也無法完全信任 AI。所以他陷入了一種不上不下的狀態：要嘛再找另一位醫生，要嘛繼續做復健等看看肩膀會不會自己好。他的希望是，再過幾代模型，我們會信任 AI 看 MRI，就像我們信任 AI 校對 email 一樣。

文章最後，他特別說明不公布診所和醫師的名字，因為這不是文章的重點。他可能是錯的，AI 也可能是錯的，他也可能誤解了醫師的意思——所以這一切都不應該被當作醫療建議。

城武觀點

先說立場：我不知道 Antoine 的肩膀到底有沒有撕裂。MRI 判讀本身就有 inter-reader variability，兩個放射科醫師看同一張片子結論不同不算罕見。重點不在誰對誰錯，而在一個完全不同層次的東西。

第一，資訊不對稱的崩塌。 醫療第二意見的傳統門檻：時間、金錢、另一個醫師願意接案。幾千美金和幾週是基本盤。Antoine 用一個 266MB 的 DICOM 資料夾、一句 prompt、一小時，就得到了跟專科醫師完全矛盾的診斷——而且是一份帶有 moderate-to-high confidence 的仲裁報告。即使 AI 只有 50% 的準確率（我認為遠高於此），這個成本的崩塌也已從新定義了醫病關係。病人不再只能被動接受單一醫師的判斷——他們可以極低成本做快速篩查，然後決定要不要追問、要不要換醫生。這個權力轉移已經發生了。

第二，天花板與地板的鴻溝。 Antoine 的仲裁流程很漂亮——multi-sub-agent、fresh analysis、arbiter verdict——但這是他自己設計的。他懂 Claude Code、懂 DICOM、知道 sub-agent 能減少 bias。一個普通人能做什麼？打開 ChatGPT 輸入「我肩膀痛」，得到泛泛建議。這篇文章展現的是 AI 能力的天花板（懂技術的人能做到的事），不是地板。對不會寫 prompt、沒聽過 DICOM 的多數人來說，這個天花板和日常 ChatGPT 之間有一條幾乎無法跨越的鴻溝。AI 醫療賦能的核心問題不是模型能力——而是「誰有能力把這些能力兌現」。

第三，寒蟬效應。 Antoine 刻意不公布診所和醫師名字。他說「這不是文章的重點」。但這件事的本質是：一個普通人用 AI 發現自己的診斷和治療可能存在重大問題——震波違反指引、注射順勢療法無適應症、MRI 判讀可能錯誤。一個潛在的醫療錯誤被 AI 抓出來，但吹哨者選擇不公開，因為怕被告。醫生有責任險、法律團隊、公會撐腰；病人有什麼？這就是寒蟬效應：不是法律禁止你說，而是你預期代價太高，所以自己吞下去。當 AI 讓更多病人有能力發現診斷有問題時，誰來保護這些吹哨者？

城武的未解檔案——人類花了兩千五百年學會問「第二意見」，AI 用一小時讓它免費——但學會了問，不代表你敢說出來。

原文：Using Opus 4.8 to get a second opinion on an MRI（Antoine, 2026-06-28）