hero

公平(fairness)在 AI 領域通常被理解為「模型在不同族群間的表現要一致」。但 Google Research 在 2024 年提出的 HEAL 框架走了一條不同的路:公平不是齊頭式平等,而是把最好的表現留給最需要的人。

這篇發表在《The Lancet eClinicalMedicine》的論文,由 Google Research 的 Mike Schaekermann 與 Google 健康公平長 Ivor Horn 共同撰寫,提出了一個名為 HEAL(Health Equity Assessment of machine Learning performance)的量化評估框架,來回答一個極其尖銳的問題:你的醫療 AI 對那些本來健康狀況就最差的人,表現夠不夠好?


為什麼現有的「公平」定義不夠

傳統的 AI 公平性通常追求「各群體表現一致」——男生和女生的準確率一樣、白人和黑人的準確率一樣。這叫平等(equality):每個人分到一樣的努力。

但公共衛生領域的定義不同。WHO 對健康公平(health equity)的定義是:每個人都有公平的機會達到他們可能達到的最高健康水準。

這意味著:如果某個族群本來就承受著更差的健康結果(更高的死亡率、更高的疾病負擔、更短的預期壽命),那麼 AI 工具應該優先為他們表現得更好,而不是跟其他族群「一樣好」。

平等的對待不平等的人,不是公平——是強化既有的不平等。


HEAL 框架的四步驟

HEAL 的設計原則是「可以被反覆執行、隨著新資料和新模型迭代評估」:

步驟一:找出與健康不平等相關的因素

  • 包含人口統計(年齡、性別、種族)、社會決定因素(收入、教育、地理)、以及工具的性能指標(準確率、靈敏度等)

步驟二:量化每個次群體「本來」的健康差距

  • 使用 WHO 等公開資料庫中的 YLL(Years of Life Lost,因早死損失的壽命年數)和 DALY(Disability-Adjusted Life Years,失能調整生命年)

步驟三:測量模型在每個次群體上的表現

  • 使用實際的模型評估資料集,計算每個次群體的性能指標

步驟四:計算 HEAL 指標

  • 核心是一個反相關性:模型表現好的群體,如果正好是健康結果最差的群體,HEAL 指標就高。如果模型對健康結果最好的群體表現最好(對最需要的人反而最差),HEAL 指標就低甚至為負

皮膚科案例:模型在哪裡沒通過公平測試?

研究團隊用一個訓練來分類 288 種皮膚疾病的卷積神經網路做為案例。模型在 5,420 個遠距皮膚科案例上進行評估,樣本刻意豐富了年齡、性別、種族的多樣性。

結果:

  • 種族/族裔:模型有 80.5% 的機率表現是公平的
  • 性別:92.1% 的機率表現公平
  • 年齡(癌症相關疾病):表現公平
  • 年齡(非癌症疾病)有改進空間——70 歲以上的族群健康結果最差,但模型的表現並沒有優先為他們服務

這個發現很具體:如果你要改善這個皮膚科 AI,優化對 70 歲以上非癌症皮膚疾病的辨識能力,會是對健康公平貢獻最大的方向。


一個重要的防弊設計:Pareto 條件

HEAL 的作者預見了一個可能的漏洞:如果有人為了拉高 HEAL 指標,故意降低對優勢群體的表現呢?

為防止這種「挖東牆補西牆」的操弄,HEAL 框架要求必須同時滿足 Pareto 條件:任何模型改動都不能讓任何次群體的表現變差。你可以提升弱勢群體的表現,但不能用犧牲其他群體的方式來美化數字。

這是一個教科書級的防呆設計——它承認了「指標本身可能被操弄」這個事實,並在框架層面就設下防線。


框架的限制(作者自己說的)

HEAL 的作者非常坦誠地列出限制:

  • 不涉及因果關係:框架無法量化技術對「實際縮小健康差距」的影響,只能識別出「有改進機會的地方」
  • 需要結合其他評估維度:資料隱私、運算效率、倫理價值、評估資料的代表性——這些都不能只看 HEAL
  • 需要社群的共識目標:光靠指標不夠,還需要那些被模型影響最深的人參與定義「什麼叫公平」

「我們認為 HEAL 框架的力量,在於它未來能被應用到各種 AI 工具和場景,並在應用過程中被持續打磨。」


城武觀點

HEAL 在 2024 年發表時,LLM 還沒有成為醫療 AI 的討論焦點。但在 2026 年的現在——當 Claude 被拿來解析 NMR 圖譜、當 GPT 被部署到遠距醫療的初診階段——這個框架的適用範圍已經遠超當初設計者的想像。

它提出了一個極其簡單但一直被忽略的問題:你的 AI 最會服務誰?

不是「平均表現如何」,不是「有沒有 bias」,而是「表現最好的那群人,是不是最需要幫助的那群人」。如果一個醫療 AI 對有錢、年輕、白人的診斷準確率最高,而這些人本來就是醫療資源最充足的族群——那這個 AI 不是在解決問題,是在用更有效率的方式複製問題。

這跟目前 AI 安全討論的基調形成了一個尖銳的對比。檯面上最響亮的「AI 安全」論述集中在存在風險(existential risk)——AI 會不會失控、會不會被用來做生物武器、會不會超越人類智慧。但 HEAL 問的是另一個維度的安全問題:AI 會不會讓本來就弱勢的人變得更弱勢?

前者需要超級電腦和博士論文來證明。後者只需要一個四步驟的量化框架和誠實面對數據的意願。

而我們都知道哪個問題拿到比較多預算。


城武的未解檔案——當矽谷忙著確保 AI 不會毀滅人類的時候,Google 研究員在問一個更樸素的問題:它能不能先不要讓生病的人變得更慘?