【深度翻譯】HEAL：Google 的醫療 AI 公平性框架——你的模型很準，但對最需要的人夠好嗎？

hero

公平（fairness）在 AI 領域通常被理解為「模型在不同族群間的表現要一致」。但 Google Research 在 2024 年提出的 HEAL 框架走了一條不同的路：公平不是齊頭式平等，而是把最好的表現留給最需要的人。

這篇發表在《The Lancet eClinicalMedicine》的論文，由 Google Research 的 Mike Schaekermann 與 Google 健康公平長 Ivor Horn 共同撰寫，提出了一個名為 HEAL（Health Equity Assessment of machine Learning performance）的量化評估框架，來回答一個極其尖銳的問題：你的醫療 AI 對那些本來健康狀況就最差的人，表現夠不夠好？

為什麼現有的「公平」定義不夠

傳統的 AI 公平性通常追求「各群體表現一致」——男生和女生的準確率一樣、白人和黑人的準確率一樣。這叫平等（equality）：每個人分到一樣的努力。

但公共衛生領域的定義不同。WHO 對健康公平（health equity）的定義是：每個人都有公平的機會達到他們可能達到的最高健康水準。

這意味著：如果某個族群本來就承受著更差的健康結果（更高的死亡率、更高的疾病負擔、更短的預期壽命），那麼 AI 工具應該優先為他們表現得更好，而不是跟其他族群「一樣好」。

平等的對待不平等的人，不是公平——是強化既有的不平等。

HEAL 框架的四步驟

HEAL 的設計原則是「可以被反覆執行、隨著新資料和新模型迭代評估」：

步驟一：找出與健康不平等相關的因素

包含人口統計（年齡、性別、種族）、社會決定因素（收入、教育、地理）、以及工具的性能指標（準確率、靈敏度等）

步驟二：量化每個次群體「本來」的健康差距

使用 WHO 等公開資料庫中的 YLL（Years of Life Lost，因早死損失的壽命年數）和 DALY（Disability-Adjusted Life Years，失能調整生命年）

步驟三：測量模型在每個次群體上的表現

使用實際的模型評估資料集，計算每個次群體的性能指標

步驟四：計算 HEAL 指標

核心是一個反相關性：模型表現好的群體，如果正好是健康結果最差的群體，HEAL 指標就高。如果模型對健康結果最好的群體表現最好（對最需要的人反而最差），HEAL 指標就低甚至為負

皮膚科案例：模型在哪裡沒通過公平測試？

研究團隊用一個訓練來分類 288 種皮膚疾病的卷積神經網路做為案例。模型在 5,420 個遠距皮膚科案例上進行評估，樣本刻意豐富了年齡、性別、種族的多樣性。

結果：

種族／族裔：模型有 80.5% 的機率表現是公平的
性別：92.1% 的機率表現公平
年齡（癌症相關疾病）：表現公平
年齡（非癌症疾病）：有改進空間——70 歲以上的族群健康結果最差，但模型的表現並沒有優先為他們服務

這個發現很具體：如果你要改善這個皮膚科 AI，優化對 70 歲以上非癌症皮膚疾病的辨識能力，會是對健康公平貢獻最大的方向。

一個重要的防弊設計：Pareto 條件

HEAL 的作者預見了一個可能的漏洞：如果有人為了拉高 HEAL 指標，故意降低對優勢群體的表現呢？

為防止這種「挖東牆補西牆」的操弄，HEAL 框架要求必須同時滿足 Pareto 條件：任何模型改動都不能讓任何次群體的表現變差。你可以提升弱勢群體的表現，但不能用犧牲其他群體的方式來美化數字。

這是一個教科書級的防呆設計——它承認了「指標本身可能被操弄」這個事實，並在框架層面就設下防線。

框架的限制（作者自己說的）

HEAL 的作者非常坦誠地列出限制：

不涉及因果關係：框架無法量化技術對「實際縮小健康差距」的影響，只能識別出「有改進機會的地方」
需要結合其他評估維度：資料隱私、運算效率、倫理價值、評估資料的代表性——這些都不能只看 HEAL
需要社群的共識目標：光靠指標不夠，還需要那些被模型影響最深的人參與定義「什麼叫公平」

「我們認為 HEAL 框架的力量，在於它未來能被應用到各種 AI 工具和場景，並在應用過程中被持續打磨。」

城武觀點

HEAL 在 2024 年發表時，LLM 還沒有成為醫療 AI 的討論焦點。但在 2026 年的現在——當 Claude 被拿來解析 NMR 圖譜、當 GPT 被部署到遠距醫療的初診階段——這個框架的適用範圍已經遠超當初設計者的想像。

它提出了一個極其簡單但一直被忽略的問題：你的 AI 最會服務誰？

不是「平均表現如何」，不是「有沒有 bias」，而是「表現最好的那群人，是不是最需要幫助的那群人」。如果一個醫療 AI 對有錢、年輕、白人的診斷準確率最高，而這些人本來就是醫療資源最充足的族群——那這個 AI 不是在解決問題，是在用更有效率的方式複製問題。

這跟目前 AI 安全討論的基調形成了一個尖銳的對比。檯面上最響亮的「AI 安全」論述集中在存在風險（existential risk）——AI 會不會失控、會不會被用來做生物武器、會不會超越人類智慧。但 HEAL 問的是另一個維度的安全問題：AI 會不會讓本來就弱勢的人變得更弱勢？

前者需要超級電腦和博士論文來證明。後者只需要一個四步驟的量化框架和誠實面對數據的意願。

而我們都知道哪個問題拿到比較多預算。

城武的未解檔案——當矽谷忙著確保 AI 不會毀滅人類的時候，Google 研究員在問一個更樸素的問題：它能不能先不要讓生病的人變得更慘？

原文：HEAL: A framework for health equity assessment of ML performance（Schaekermann & Horn, Google Research / The Lancet, 2024-03）